0 |
Фонд Open Compute Project (OCP) оголосив про розширення своєї головної ініціативи Open Systems for AI (Відкриті системи для AI) новим стратегічним напрямком Open Data Center for AI Strategic Initiative (SI). Це розширення покликане посилити роботу над ключовими інфраструктурними проблемами центрів обробки даних: живленням, охолодженням, механічною частиною та телеметрією управління.
Це додавання є відповіддю на значне зростання кількості проєктів та робочих напрямків у сфері фізичної інфраструктури дата-центрів, запущених за останній рік, висновків, отриманих під час серії семінарів OCP Open Systems for AI SI, та нового відкритого листа із закликом до співпраці.
За підтримки Ради директорів та зацікавлених сторін OCP, Фонд запрошує інші організації підписати цей лист, який був ініційований Google, Meta та Microsoft. Це підкреслює місію OCP щодо підтримки всієї відкритої екосистеми ЦОД, що охоплює як ІТ, так і фізичну інфраструктуру.
Мандат Open Data Center for AI SI полягає в розробці стандартизації інфраструктури ЦОД, що дозволить розгортати передову AI-інфраструктуру високої щільності так само гнучко, як і традиційні обчислювальні потужності. Це можливо, якщо об'єкти будуються зі спільним розумінням телеметрії управління, передових технологій живлення та охолодження, що спрощує розгортання різноманітних AI-рішень.
Проблема полягає в тому, що відокремлені зусилля створюють суперницькі вимоги до дизайну, що уповільнює інновації та подовжує терміни розгортання. Мета — визначити та специфікувати вимоги до ЦОД для AI так, щоб спільна основа фізичної інфраструктури забезпечувала взаємозамінність для різноманітної ІТ-інфраструктури AI, особливо в умовах її швидкої еволюції. Це дозволить провайдерам колокаційних ЦОД підтримувати ширший спектр клієнтів із меншою кількістю налаштувань.
Open Data Center for AI SI зможе спиратися на кілька робочих напрямків, які вже реалізуються в спільноті OCP.
Проєкт блоку розподілу холодоагенту (Coolant Distribution Unit, CDU): охоплює інтеграцію технологій охолодження об'єктів та систем водопостачання в системи рідинного охолодження ІТ-стійок.
Проєкт розподілу живлення на рівні об'єкта (Facilities-level Power Distribution): охоплює перехід до архітектури розподілу постійного струму (Direct Current, DC), яка підтримує високопотужні ІТ-стійки.
Серед інших помітних та недавніх внесків зазначено Mt Diablo (Diablo 400) - бічна стійка для живлення AI-кластерів, розроблена спільно Google, Meta та Microsoft; Deschutes Coolant Distribution Unit (CDU) - блок розподілу холодоагенту, розроблений Google; Clemente для високопродуктивних AI-обчислювальних лотків, розроблений Meta; Hyperscale CPU RAS and Debug Requirements - для стандартизованих можливостей налагодження CPU у гіпермасштабних середовищах, розроблений спільно AMD, Google та Microsoft.
Специфікація Diablo описує дезагреговану стійку живлення (sidecar rack), яка підвищує подачу живлення з сьогоднішніх 48 В постійного струму (VDC) у стійці до +/-400 VDC або 800 VDC. Це дозволяє створювати ІТ-стійки потужністю від 100 кіловатів до 1 мегавата. Вибір 400 VDC як номінальної напруги використовує ланцюжок постачання, створений електромобілями, забезпечуючи більшу економію на масштабі, перевірену якість та ефективніше виробництво шляхом стандартизації електричних і механічних інтерфейсів.
Deschutes CDU призначений для підтримки теплових навантажень до ~2 МВт, з цільовою гідравлічною продуктивністю 500 GPM (галонів на хвилину) при 80–90 psi, що є однією з найвищих теплових потужностей CDU в галузі. Це значно покращить теплове управління та експлуатаційну ефективність.
Специфікація Clemente описує обчислювальний лоток висотою 1U, який інтегрує два модулі NVIDIA GB300 Host Processor Modules (HPM) у формфактор із периферійними пристроями, що підтримують сценарії навчання та інференсу AI/ML від Meta. Це також є важливою віхою першого розгортання дизайну, який використовує OCP ORv3 HPR (специфікація, що розробляється) із бічними стійками живлення. Платформа включає як повітряне, так і рідинне охолодження (рідинне для CPU, GPU та комутатора).
Ці зусилля OCP щодо відкритих систем для AI продовжують зміцнювати позиції OCP як провідної відкритої організації, що прискорює розгортання ЦОД для AI. Ці та інші ресурси зібрані на новому порталі AI OCP Marketplace, надаючи єдине місце для проєктувальників кластерів AI, будівельників та провайдерів об'єктів для пошуку останніх доступних продуктів інфраструктури AI та довідкових матеріалів.
Стратегія охолодження ЦОД для епохи AI
0 |