
Уявіть собі гарячу джакузі. Температура води в ній зазвичай становить близько 38–40 °C - настільки тепло, що більшість людей витримує там не більше 15 хвилин. А тепер уявіть, що найновіші AI-сервери від NVIDIA ганяють по своїх системах охолодження рідину, яка ще гарячіша - до 45 °C. І що найцікавіше: саме цей вищий температурний ліміт робить їх максимально енергоефективними.
Нове покоління інфраструктури NVIDIA Rubin стало першим у світі, що досягло 100% рідинного охолодження. Кожен чип, кожен мережевий компонент охолоджується виключно рідиною в замкнутому контурі. У цій системі взагалі немає вентиляторів.
Ця методологія детально описана в еталонному дизайні NVIDIA DSX - путівнику з найкращих практик проєктування, будівництва та експлуатації фабрик штучного інтелекту.
Хоча кожне нове покоління чипів видає значно більше обчислювальної потужності на кожен ват енергії, саме перехід на повне рідинне охолодження дозволяє дата-центрам радикально знизити енергоспоживання. На рівні гіпермасштабних хмарних систем це змінює правила гри.
«Еталонний дизайн NVIDIA DSX для AI-фабрик має нульове споживання води. Ми ліквідували величезні обсяги енерговитрат і практично повністю відмовилися від використання води, - розповідає Алі Хейдарі (Ali Heydari), директор з охолодження та інфраструктури дата-центрів у NVIDIA. - «Завдяки конструкціям на основі сухих градирень (dry coolers) ми маємо замкнуту систему без випаровувального охолодження. Потужні чиллери можуть знадобитися хіба що протягом 1% часу на рік у дуже специфічних кліматичних зонах».
Історично склалося так, що саме охолодження «з'їдало» до 40% усієї електроенергії дата-центру. Тому оптимізація цієї сфери - найкоротший шлях до зниження операційних витрат і навантаження на енергомережу.
Цікаво, що +1 °C до температури охолоджувальної системи знижує витрати на охолодження приблизно на 4%. Тому гіпермасштабний дата-центр потужністю 50 МВт може економити понад 4 млн дол. щороку, просто перейшовши на рідинне охолодження.
У сприятливому кліматі архітектура NVIDIA знижує споживання води з 9,84 мільйона літрів на мегават на рік (для традиційних систем) до нуля (стовідсоткове скорочення).
Чому це працює? Старі дата-центри залежать від величезних об'ємів кондиційованого повітря. У спеку це вимагає колосальних енерговитрат. Технологія NVIDIA забирає тепло безпосередньо з чипа. Рідина циркулює за набагато вищих температур, що дозволяє звичайним вуличним радіаторам ефективно скидати тепло в атмосферу більшу частину року. Температура в самому приміщенні дата-центру стає гнучкою: серверам байдуже до літньої спеки, адже повітря більше не бере участі в процесі.
Оскільки платформа NVIDIA Rubin інтегрує виключно 100% рідинну інфраструктуру, кожен хмарний провайдер та оператор дата-центрів, який переходить на нові чипи, змушений змінювати підхід.
Екосистема адаптується миттєво. Компанія Motivair (передовий підрозділ охолодження Schneider Electric) співпрацює з NVIDIA вже майже десять років. Річард Вітмор (Richard Whitmore), президент і генеральний директор Motivair, зазначає, що їхня співпраця стала максимально інтенсивною, коли щільність потужності чипів перетнула межу, за якої повітряне охолодження просто втратило сенс. «Щойно кількість ватів на чип перевищила певний рівень, рідинне охолодження стало обов'язковим», - каже Вітмор.
В індустрії довго панував міф: ефективний дата-центр має бути холодним. Десятиліття тому, якби ви зайшли в серверну, а там не було б холодно, як у промисловому холодильнику, всі вирішили б, що щось зламалося.
Насправді кремнієві процесори можуть працювати в набагато теплішому середовищі. Вони генерують колосальне внутрішнє тепло. Холодоагент, який потрапляє на чип за температури 45 °C, виходить із нього вже з температурою близько 55 °C. При цьому продуктивність не падає ні на йоту. Спеціальні контактні пластини (cold plates) утримують температуру кремнію в межах норми.
Якщо ви хоч раз бували в традиційному дата-центрі, ви точно запам'ятали дві речі. По-перше, це дикий шум, тому що гул вентиляторів часто сягає 85 децибелів і вище (без захисних навушників там перебувати не можна). А по-друге, складна хореографія, яка передбачає чіткий поділ на «гарячі» та «холодні» коридори для правильного спрямування повітряних потоків.
Архітектура Rubin перекреслює це. Холодоагент (суміш 75% води та 25% пропіленгліколю) тече через пластини безпосередньо на процесорах, забираючи тепло в самій точці його виникнення. Оскільки система працює при 45 °C, у багатьох регіонах тепло можна скидати на вулицю через звичайні радіатори без увімкнення галасливих компресорів чи гігантських вентиляторів.
Контур заповнюється водою лише один раз і працює в закритому режимі протягом усього життєвого циклу об'єкта. До того ж така інфраструктура займає значно менше місця.
«У правильному географічному місці вам взагалі не потрібне холодильне обладнання», - додає Вітмор. «Ви просто ставите великі радіаторні змійовики на вулиці й використовуєте температуру повітря. Це неймовірно ефективно».
Звісно, географія має значення. Дата-центр у Шотландському високогір'ї та дата-центр у Фініксі (штат Аризона) працюють у різних реаліях. Але навіть у спекотному кліматі система 45 °C наближає операторів до ідеалу, де класичні кондиціонери вмикаються лише на кілька днів на рік.
Додатковий бонус - це тепло можна перенаправляти на опалення комерційних офісів або житлових будинків поблизу.
Попередні покоління «рідинних» серверів насправді були гібридними: водоблоки отримували лише центральні (CPU) та графічні (GPU) процесори, а решта компонентів обдувалася повітрям. Створити систему, де рідиною охолоджується абсолютно все, було справжнім викликом.
Термоінженери NVIDIA повністю переробили логіку розподілу тепла. Вони створили архітектуру, де чиста рідина подається на безліч гарячих точок плати через один єдиний вхід і вихід.
Сервери Rubin мають абсолютно глухі, герметичні передні панелі замість звичних перфорованих решіток для вентиляції. Тому система, яка раніше займала 6U у стійці, тепер уміщається всього у 2U. Більше обчислень - менше місця.
Навантаження від штучного інтелекту не стають меншими. Попит на обчислювальні потужності зростає швидше, ніж будь-яка інша інфраструктурна галузь у світі.
Якби індустрія не знайшла нових способів охолодження, витрати на електроенергію для AI зростали б пропорційно кількості заліза. Рідинне охолодження при 45 °C - гарячіше за джакузі, але набагато безпечніше для планети: це саме той інструмент, який дозволить людству масштабувати технології майбутнього без енергетичного колапсу.
А що ви думаєте про такий технологічний прорив? Чи готові дата-центри нашого регіону до переходу на «гаряче» охолодження?