0 |
AI вже багато років лежить в основі досвіду, який Meta надає людям і компаніям, включно з інноваціями в галузі моделювання AI для оптимізації та поліпшення таких функцій, як Feed і система оголошень. У міру розроблення і випуску нових, передових моделей AI компанія також прагне розвивати свою інфраструктуру для підтримки нових робочих навантажень AI, що виникають.
Наприклад, Llama 3.1 405B, найбільша модель Meta, являє собою щільний трансформатор із 405B параметрів і контекстним вікном до 128 тис. токенів. Щоб навчити велику мовну модель (LLM) такого масштабу, що містить понад 15 трлн токенів, довелося провести істотну оптимізацію всього стека навчання. У результаті інфраструктура Meta стала працювати на більш ніж 16000 графічних процесорах NVIDIA H100, що зробило Llama 3.1 405B першою моделлю в серії Llama, яка була навчена в такому величезному масштабі.
До появи Llama найбільші завдання AI в Meta виконувалися на 128 графічних процесорах NVIDIA A100. Але ситуація стрімко прискорилася. Протягом 2023 року компанія швидко наростила свої навчальні кластери з 1K, 2K, 4K і зрештою 16K GPU для підтримки наших робочих навантажень AI. Сьогодні вона навчає свої моделі на двох кластерах із 24 тис. GPU.
Meta не очікує, що зростання кількості кластерів AI сповільниться найближчим часом. Ба більше, вона очікує, що обсяг обчислень, необхідних для навчання AI, значно зросте порівняно з тим, що є сьогодні.
Для створення кластерів AI потрібні не тільки графічні процесори. Мережі та пропускна здатність відіграють важливу роль у забезпеченні продуктивності кластерів. Системи Meta складаються з тісно інтегрованої обчислювальної системи HPC та ізольованої обчислювальної мережі з високою пропускною спроможністю, яка з'єднує всі GPU і прискорювачі для конкретних областей. Така конструкція необхідна для задоволення потреб в ін'єкціях і розв'язання проблем, пов'язаних із потребою в пропускній здатності під час розбиття.
У найближчі кілька років Meta очікує збільшення пропускної спроможності ін'єкцій до близько терабайта на секунду на кожен прискорювач за рівної нормалізованої пропускної спроможності бісекцій. Це більш ніж на порядок більше порівняно з сьогоднішніми мережами.
Для підтримки такого зростання потрібна високопродуктивна, багаторівнева, не блокована мережева тканина, яка може використовувати сучасне управління перевантаженнями для передбачуваної поведінки при високому навантаженні. Це дасть змогу повною мірою використовувати можливості кластерів AI та забезпечити їхню оптимальну роботу в міру розширення меж можливого за допомогою AI.
Масштабування AI з такою швидкістю вимагає відкритих апаратних рішень. Розробка нових архітектур, мережевих структур і системних конструкцій буде найефективнішою і результативною, якщо вдасться побудувати її на принципах відкритості. Інвестуючи у відкрите обладнання, Meta розкриває весь потенціал AI та сприяє постійним інноваціям у цій галузі.
Так компанія оголосила спільноті OCP про майбутній випуск Catalina, своєї нової потужної стійки, призначеної для робочих навантажень AI. Catalina заснована на повномасштабному стійковому рішенні на платформі NVIDIA Blackwell з акцентом на модульність і гнучкість. Вона створена для підтримки новітнього суперчипа NVIDIA GB200 Grace Blackwell, що забезпечує відповідність висхідним вимогам сучасної інфраструктури AI.
Наростальні вимоги до потужності GPU означають, що рішення для відкритих стійок повинні підтримувати вищу потужність. Разом із Catalina представлена Orv3, потужна стійка (HPR), здатна підтримувати до 140 кВт.
Усе рішення має рідинне охолодження і складається з полиці живлення, що підтримує обчислювальний лоток, лоток для комутаторів, Orv3 HPR, комутатор тканини Wedge 400, комутатор керування, блок резервного живлення та контролер керування стійкою.
Компанія прагне до того, щоб модульна конструкція Catalina давала змогу іншим користувачам налаштовувати стійку під свої специфічні робочі навантаження AI, використовуючи при цьому як наявні, так і нові галузеві стандарти.
У 2022 році Meta анонсувала Grand Teton, свою платформу AI наступного покоління (продовження платформи Zion-EX). Grand Teton має обчислювальну потужність для підтримки навантажень з обмеженим обсягом пам'яті, таких як моделі рекомендацій глибокого навчання Meta (DLRM), а також навантажень з обмеженим об'ємом обчислень, таких як розуміння контенту.
Тепер Meta розширила платформу Grand Teton для підтримки AMD Instinct MI300X і буде вносити цю нову версію в OCP. Як і попередники, нова версія Grand Teton є єдиним монолітним системним дизайном із повністю інтегрованими інтерфейсами живлення, керування, обчислень і тканини. Такий високий рівень інтеграції спрощує розгортання системи, забезпечуючи швидке масштабування з підвищеною надійністю для великомасштабних робочих навантажень, пов'язаних з аналізом AI.
На додаток до підтримки низки прискорювачів, включно з AMD Instinct MI300x, Grand Teton пропонує значно більшу обчислювальну потужність, що дає змогу швидше сходитися на більшому наборі ваг. Це доповнюється розширеною пам'яттю для зберігання і локального запуску великих моделей, а також збільшеною пропускною здатністю мережі для ефективного масштабування навчальних кластерів.
Розробка відкритого мережевого бекенда, який не залежить від виробника, відіграватиме важливу роль надалі, оскільки Meta продовжує підвищувати продуктивність кластерів для навчання AI. Дезагрегування мережі дає змогу компанії працювати з постачальниками з усієї галузі, щоб розробляти інноваційні, а також масштабовані, гнучкі та ефективні системи.
Нова дезагрегована мережа (Disaggregated Scheduled Fabric, DSF) для кластерів AI нового покоління має низку переваг, як порівняти з наявними комутаторами. Завдяки відкритості мережевої тканини можна подолати обмеження за масштабом, можливостями постачання компонентів і щільності енергоспоживання. DSF працює на основі відкритого стандарту OCP-SAI та FBOSS, власної мережевої операційної системи Meta для управління мережевими комутаторами. Він також підтримує відкритий і стандартний інтерфейс RoCE на базі Ethernet для кінцевих точок і прискорювачів GPUS і NICS від різних виробників, включно з партнерами з NVIDIA, Broadcom і AMD.
На додаток до DSF також розроблено і створено нові комутатори 51T на базі ASIC від Broadcom і Cisco. Нарешті, Meta представила свій новий FBNIC, новий модуль мережевої карти, що містить перший мережевий ASIC з метадизайном.
Meta і Microsoft давно співпрацюють у межах OCP, починаючи з розроблення інтерфейсу абстракції комутатора (Switch Abstraction Interface, SAI) для центрів обробки даних у 2018 році. За роки спільної роботи Meta зробила свій внесок у такі ключові ініціативи, як стандарт Open Accelerator Module (OAM) і стандартизація SSD, демонструючи загальну прихильність розвитку відкритих інновацій.
Нинішня співпраця зосереджена на Mount Diablo, новій стійці з дезагрегованим живленням. Це передове рішення з масштабованим блоком живлення 400 В постійного струму, що підвищує ефективність і масштабованість. Ця інноваційна конструкція дає змогу збільшити кількість прискорювачів AI на одну ІТ-стійку, що значно покращує інфраструктуру AI.
Про DCIM у забезпеченні успішної роботи ІТ-директора
0 |