| +11 голос |
|
Нещодавно інженерна команда OpenAI опублікувала технічний звіт, де розкрила внутрішню кухню масштабування своєї основної інфраструктури зберігання даних. Це рідкісний випадок, коли лідер галузі AI ділиться конкретними цифрами та архітектурними рішеннями, які дозволили ChatGPT витримати вибухове зростання популярності та не «падати» під вагою мільйонів користувачів.
Система, яка спочатку була створена групою вчених з Каліфорнійського університету в Берклі, дозволила OpenAI підтримувати масовий глобальний трафік за допомогою одного основного екземпляра Azure PostgreSQL Flexible Server і майже 50 реплік читання, розподілених у багатьох регіонах світу. Сервіс в результаті зміг підтримувати мільйони запитів на секунду для 800 млн користувачів за допомогою ретельної оптимізації та надійної розробки.

Масштабування інфраструктури OpenAI стало одним із найбільших технічних викликів останніх років, адже навантаження на їхні системи зросло у 100 разів за короткий проміжок часу. На піку система обробляє мільйони запитів на секунду, що ставить їхню реалізацію PostgreSQL в один ряд із найбільш навантаженими інсталяціями у світі. Головним досягненням інженерів стало те, що вони змогли успішно перенести понад 100 терабайтів даних у нову розподілену архітектуру без простою сервісів.
Замість того щоб покладатися на один надпотужний сервер, компанія розгорнула сотні незалежних кластерів. Це радикально змінило концепцію «радіусу ураження»: якщо раніше будь-який критичний збій у базі міг повністю зупинити роботу ChatGPT, то тепер локальна проблема зачіпає менше ніж 1% користувачів. Такий підхід дозволив зберегти стабільність системи навіть у моменти екстремального напливу, коли традиційні методи нарощування потужності одного сервера вже фізично не працювали.
Одним із найцікавіших фактів є відмова від переходу на NoSQL-рішення, попри колосальні обсяги даних. Інженери OpenAI довели, що класичний PostgreSQL здатний демонструвати продуктивність рівня Big Data, якщо винести логіку керування потоками даних на окремий інтелектуальний рівень інфраструктури. Це дозволило зберегти надійність транзакцій та гнучкість SQL-запитів, обробляючи масиви інформації, які раніше вважалися непіднімними для традиційних реляційних баз.
Сьогодні ця архітектура працює як гігантський розподілений механізм, де кожен вузол оптимізований під конкретне навантаження.
Стратегія охолодження ЦОД для епохи AI
| +11 голос |
|


