Cisco і Nvidia розширюють співпрацю для впровадження Ethernet в AI-кластери

12 февраль, 2024 - 13:35

У рамках виставки Cisco Live в Амстердамі відбулися анонси серії апаратних і програмних платформ, створених у співпраці з Nvidia і націлених на сферу AL/ML.

Ключовим напрямком співпраці є спрощення розгортання та управління системами штучного інтелекту за допомогою стандартного Ethernet. Хоча сучасні вузли GPU отримують значні переваги від швидкісних мереж 200 Гбіт/с, 400 Гбіт/с і незабаром 800 Гбіт/с, це лише частина рівняння, особливо коли йдеться про навчання. Оскільки такі робочі навантаження часто доводиться розподіляти між кількома серверами, що містять чотири або вісім GPU, будь-яка додаткова затримка може призвести до збільшення часу навчання. Тому InfiniBand від Nvidia продовжує домінувати в мережевих розгортаннях AI. На думку корпоративного аналітика Dell'Oro Group Самеха Бужельбене (Sameh Boujelbene), близько 90% розгортань використовують InfiniBand від Nvidia/Mellanox, а не Ethernet.

Але це не означає, що Ethernet не набирає обертів. Технології, що з'являються, як-от інтелектуальні мережеві карти та оптимізовані для штучного інтелекту ASIC комутаторів із глибокими буферами пакетів, допомогли знизити втрати пакетів, завдяки чому Ethernet принаймні став більше схожий на InfiniBand.

Наприклад, ASIC комутатора Silicon One G200 від Cisco може похвалитися низкою функцій, корисних для мереж AI, включно з розширеним управлінням перевантаженнями, методами розпилення пакетів і обходом відмови каналу. Але важливо зазначити, що ці функції притаманні не тільки Cisco: останніми роками комутатори з аналогічними можливостями анонсували Nvidia та Broadcom.

За прогнозами Dell'Oro, до 2027 року роль Ethernet у мережах штучного інтелекту становитиме близько 20 пунктів доходів. Однією з причин цього є звичка галузі до Ethernet. Хоча розгортання мереж штучного інтелекту ще може зажадати особливого налаштування, підприємства вже знають, як розгортати та керувати інфраструктурою Ethernet.

Уже один цей факт робить співпрацю з такими мережевими виробниками, як Cisco, привабливою перспективою для Nvidia. Хоча це може скоротити продажі власних комутаторів Nvidia InfiniBand або Spectrum Ethernet, але вигода від цього - можливість поставити більше GPU підприємствам, які в іншому разі відмовилися б від розгортання окремого мережевого стека.

Щоб підтримати ці зусилля, Cisco і Nvidia випустили еталонні зразки і системи, які покликані забезпечити сумісність та допомогти усунути прогалини в знаннях для розгортання мережевої інфраструктури, систем зберігання та обчислювальної інфраструктури на підтримку впровадження AI.

Ці еталонні проєкти націлені на платформи, у які підприємства, найімовірніше, вже вклали кошти, включно з комплектами від Pure Storage, NetApp і Red Hat. Не дивно, що вони також служать для просування систем Cisco з GPU-прискоренням. Вони містять еталонні проєкти та сценарії автоматизації для застосування фреймворків FlexPod і FlashStack у робочих навантаженнях, пов'язаних із виведенням даних AI. Багато хто очікує, що саме інференція, особливо на невеликих моделях, орієнтованих на конкретний домен, складе основну частину корпоративних розгортань AI, оскільки їх запуск і навчання відносно недорогі.

Cisco Verified Design (CVD) FlashStack AI - це, по суті, посібник із розгортання мережевих систем Cisco і систем UCS із GPU-прискоренням разом із флеш-масивами зберігання Pure Storage. FlexPod AI (CVD), тим часом схоже, слідує аналогічній схемі, але змінює Pure на платформу зберігання NetApp. Cisco стверджує, що ці системи будуть готові до впровадження наприкінці цього місяця, а в майбутньому з'являться й інші CVD, що підтримують Nvidia.

Говорячи про обчислювальну платформу UCS від Cisco, компанія також випустила приграничну версію своїх лезових систем X-Series, яка може бути оснащена новітніми GPU від Nvidia.

Шасі X Direct має вісім слотів, які можуть бути заповнені комбінацією дво- або чотирьохсокетних обчислювальних лез або вузлів розширення PCIe для обчислень на GPU. Додаткові модулі X-Fabric також можуть бути використані для збільшення потужності GPU в системі.

Однак варто зазначити, що на відміну від багатьох аналогічних вузлів GPU інших виробників, у яких використовуються найпотужніші модулі SXM від Nvidia, система UCS X Direct від Cisco підтримує тільки GPU з низьким TDP на базі PCIe. Так кожен сервер може бути оснащений до шести компактних GPU на сервер або до двох двослотових GPU повної довжини та висоти.

Це, ймовірно, виявиться обмеженням для тих, хто хоче запускати масивні великі мовні моделі, що споживають сотні гігабайт пам'яті GPU. Проте, цього буде більш ніж достатньо для виконання невеликих обчислювальних навантажень, наприклад, для попередньої обробки даних на кордоні.

Cisco націлює свою платформу на виробництво, охорону здоров'я і невеликі центри обробки даних.