0 |
Компанія Meta Platforms офіційно представила надзвичайно потужні кластери на базі графічних процесорів, які, за її словами, будуть використовуватися для АІ-завдань. Серед іншого для підтримки навчання моделей генеративного штучного інтелекту наступного покоління, включаючи майбутню Llama 3.
У Meta пояснили, що два кластери на 24 576 графічних процесора були побудовані для підтримки набагато більших і складніших генеративних моделей АІ, ніж ті, які компанія випускала раніше. Наприклад, таких як Llama 2, популярний алгоритм з відкритим вихідним кодом, який конкурує з ChatGPT від OpenAI та Gemini від Google.
Кожен кластер містить тисячі найпотужніших графічних процесорів Nvidia H100, і вони набагато більші, ніж попередні системи компанії, які складалися близько з 16 000 графічних процесорів Nvidia A100.
Хоча обидва кластери мають однакову кількість графічних процесорів, з'єднаних між собою кінцевими точками з пропускною спроможністю 400 гігабайт/с, вони мають різні архітектури. Один з них використовує віддалений прямий доступ до пам'яті (RDMA) через конвергентну мережеву систему Ethernet, яка базується на Arista 7800 зі стійковими комутаторами Wedge400 та Minipack2 OCP. Інший побудований з використанням технології мережевої структури Nvidia Quantum2 InfiniBand.
Обидва кластери побудовані з використанням відкритої апаратної платформи Meta GPU під назвою Grand Teton, яка призначена для підтримки великомасштабних робочих навантажень АІ. Grand Teton має в чотири рази більшу пропускну здатність між хостом і графічним процесором, ніж попередня платформа Zion-EX, вдвічі більшу пропускну здатність обчислювальних мереж і мереж передачі даних і вдвічі більшу енергоефективність.
Мета заявила, що кластери включають в себе новітню архітектуру живлення та інфраструктуру стійок Open Rack, яка призначена для забезпечення більшої гнучкості при проектуванні центрів обробки даних. За словами компанії, Open Rack v3 дозволяє встановлювати силові полиці в будь-якому місці стійки, а не кріпити їх до шини, що забезпечує більш гнучкі конфігурації.
Крім того, кількість серверів у стійці можна налаштовувати, що дає можливість більш ефективно збалансувати пропускну здатність на один сервер. Це, в свою чергу, дозволило дещо зменшити загальну кількість стійок, зазначає Мета.
З точки зору зберігання даних, кластери використовують інтерфейс прикладного програмування Filesystem in Userspace на базі Linux, який підтримується розподіленою платформою зберігання даних Tectonic компанії Meta. Також у співпраці зі стартапом Hammerspace створена нова паралельна мережева файлова система для кластерів.
Крім того, кластери базуються на серверній платформі YV3 Sierra Point і оснащені найсучаснішими твердотільними накопичувачами E1.S.
У блозі Meta зазначила, що вона залишається повністю відданою відкритим інноваціям у своєму апаратному стеку для АІ. Інженери нагадали читачам, що компанія є членом нещодавно оголошеного AI Alliance, метою якого є створення відкритої екосистеми, яка підвищить прозорість і довіру до розробки АІ та гарантує, що кожен зможе отримати вигоду від його інновацій.
Meta також повідомила, що продовжить купувати більше графічних процесорів Nvidia H100 і має намір придбати понад 350 000 до кінця року. Вони будуть використані для продовження розбудови обчислювальної інфраструктури компанії.
У довгостроковій перспективі Meta має на меті створити системи штучного загального інтелекту або AGI, які будуть набагато більш схожі на людину з точки зору креативності, ніж існуючі моделі генеративного АІ.
Ready, set, buy! Посібник для початківців - як придбати Copilot для Microsoft 365
0 |