+22 голоса |
У міру того, як динамічно розширюється застосування в бізнесі технології штучного інтелекту, на передній план виходить впровадження систем рідинного охолодження.
Необхідність в імплементації даної системи пов’язана з появою в дата-центрах спеціалізованих серверів, оснащених високопродуктивними GPU та TPU процесорами, що мають суттєво більші показники TDP в порівняні з традиційними серверами, котрі використовують повітряну систему охолодження своїх компонентів. Повітряна система охолодження бездоганно виконує покладені на неї функції в разі, коли значення TDP менші за 700 Вт. Коли значення TDP більші від цього значення, це призводить до необхідності збільшення фізичних розмірів сервера, як наслідок, кількість серверів, що можуть бути встановленні в одну серверну шафу зменшується. Всі ці факти призводять до збільшення затримки (latency) між GPU та TPU, що скорочує час навчання AI-моделей, а це є одним з найважливіших факторів для інвестицій у АІ.
Нагадаємо, GPU (Graphics Processing Unit, графічний процесор) - це спеціалізований електронний компонент, призначений для обробки графічної інформації. GPU розроблялися для прискорення обробки зображень та відео, їхня паралельна архітектура виявилася дуже ефективною для широкого спектру обчислювальних завдань, зокрема в машинному навчанні, наукових розрахунках та інших сферах. Своєю чергою, TPU (Tensor Processing Unit) – тензорний процесор, розроблені Google спеціально для прискорення завдань машинного навчання, особливо тих, що використовують тензори (багатовимірні масиви даних). При цьому TDP - параметр, який характеризує тепловиділення процесора або іншого компонента комп'ютера. Даний параметр відображає, яку кількість тепла потрібно відвести від цього компонента, щоб забезпечити його нормальну роботу.
Версії навчальних AI-серверів із рідинним охолодженням стають дедалі поширенішими, а деякі моделі, розраховані виключно на рідинне охолодження. Існує два основні підходи до рідинного охолодження серверів: прямий і занурювальний. Варто зазначити, що обидва ці підходи можуть бути використані як з однофазними, так і з двофазними рідинами.
Пряме рідинне охолодження (однофазне), також зване прямим охолодженням кристала, стало кращим методом у сучасній індустрії. Холодні пластини використовують для відведення тепла від компонентів сервера, як-от графічні процесори, без будь-якого контакту між рідиною і сервером. Цей метод дає змогу звести до мінімуму, а в деяких випадках і зовсім відмовитися від використання серверних вентиляторів і оптимізує використання простору в стійках. До інших причин такої переваги галузі належать адаптованість до наявних конфігурацій із повітряним охолодженням, простота реалізації та нормативні переваги порівняно з двофазними рідинами.
Більшість серверів із прямим рідинним охолодженням вимагають гібридного або змішаного підходу до охолодження (повітря плюс рідина), оскільки деякі компоненти в сервері все ще потребують повітряного охолодження. Навіть якщо деякі з серверів на 100% безпосередньо охолоджуються рідиною, інше ІТ-обладнання в центрі обробки даних, як-от системи зберігання та мережі, все одно потребує повітряного охолодження. Тому в більшості дата-центрів зі штучним інтелектом рідинне охолодження співіснуватиме з традиційним повітряним охолодженням у найближчому майбутньому.
Як наголошують фахівці Schneider Electric, важливо розуміти, що рідинне охолодження - це архітектура, а не окреме рішення. Воно являє собою комплексну систему, спрямовану на оптимізацію теплової ефективності різних компонентів. Така тісна інтеграція з ІТ-пристроями вимагає ретельної координації з наявною інфраструктурою, включно з традиційними системами відведення тепла.
Хоча архітектури рідинного охолодження відрізняються від традиційних архітектур з використанням охолодженої води, деякі моменти залишаються незмінними. В обох архітектурах тепло від ІТ-обладнання передається назовні за допомогою системи відведення тепла, розташованої зовні. Фактично, у багатьох випадках під час модернізації можна використовувати більшу частину наявної фізичної інфраструктури, а не встановлювати нову спеціальну систему відведення тепла для серверів із рідинним охолодженням.
Крім того, якщо проєкт є новим центром обробки даних, є додаткова свобода вибору чилера, що забезпечує оптимальний баланс ефективності та продуктивності для навантажень як із повітряним, так і з рідинним охолодженням. Отже, чим же насправді відрізняються архітектури з повітряним і безпосереднім рідинним охолодженням?
У системах рідинного охолодження Schneider Electric використовуються блоки розподілу холоду (БРХ), які передають тепло від холодних пластин до іншої частини системи охолодження.
БРХ можуть передавати тепло двома способами. В одному використовується теплообмінник рідина-повітря (як радіатор), тоді як у другому - теплообмінник рідина-рідина. БРХ існують на рівні стійки, ряду або кімнати.
Виникає резонне запитання: «Чому б замість БРХ не використовувати воду для охолодження безпосередньо з холодильної установки?» І тут слід мати на увазі, що вода для відведення тепла від ІТ-компонентів тече крихітними каналами в холодильній пластині, які піддаються засміченню, якщо вода не відфільтрована і не очищена.
За допомогою фільтрації з води видаляються частинки розміром понад 25-50 мікрон, а хімічна обробка запобігає біологічному росту та забрудненню. Тому й виникла необхідність у БРХ. По суті, при цьому використовується теплообмінник для ізоляції системи водопостачання об'єкта від ІТ-системи. БРХ також забезпечує інші ключові функції, включно з регулюванням потоку води, її температури та тиску. Система управління БРХ покликана підтримувати постійну температуру на чипах, щоб не допустити теплового удару і пошкодження мікросхем.
Після вивчення архітектурних особливостей рідинного охолодження перейдемо до рекомендацій з планування, які необхідні для успішного впровадження таких рішень в AI дата-центрі. І в наступному пості цього блогу розглянемо шляхи розв'язання загальних проблем, що пропонує Schneider Electric, у рішеннях щодо впровадження рідинного охолодження.
Комп’ютерний розум: генеративний штучний інтелект у рішеннях AWS
+22 голоса |