0 |
Компанія Amazon Web Services представила Project Rainer - обчислювальний кластер, що працює на сотнях тисяч чіпів AWS Trainium2. Ця система використовується для підтримки розробок штучного інтелекту Anthropic PBC. З вересня минулого року Amazon інвестувала 8 млрд дол. у конкурента OpenAI. Кілька тижнів тому Anthropic повідомила, що допоможе хмарному гіганту вдосконалити лінійку чипів Trainium.
В основі Trainium2 лежать вісім так званих NeuronCores, які, своєю чергою, складаються з чотирьох обчислювальних модулів. Один із модулів - це так званий движок GPSIMD, оптимізований для виконання користувацьких операторів AI. Це вузькоспеціалізовані фрагменти коду низького рівня, які команди машинного навчання використовують для підвищення продуктивності своїх нейронних мереж.
Вісім ядер NeuronCore підтримуються 96 ГБ пам'яті HBM. Trainium2 переміщує дані між пулом HBM і ядрами NeuronCore зі швидкістю до 2,8 Тб/с.
Сотні тисяч чіпів Trainium2 у Project Rainier організовані в, так звані, Trn2 UltraServers. Це сервери власної розробки, які AWS представила разом з обчислювальним кластером. Кожна машина містить 64 чіпи Trainium2, які можуть забезпечити сумарну продуктивність 332 Petaflops при виконанні розріджених операцій FP8 - типу обчислень, які моделі AI використовують для обробки даних.
AWS не стала розміщувати сервери, що входять до складу Project Rainer, в одному дата-центрі, а розподілила їх по декількох майданчиках. Такий підхід спрощує логістичні завдання, наприклад, пошук достатньої кількості електроенергії для живлення кластера.
За переваги розподілу обладнання по декількох об'єктах історично доводиться платити: збільшується час затримки під час передачі даних між ними. Оскільки кластери AI регулярно перемішують інформацію між своїми серверами, таке збільшення затримки може значно уповільнити обробку даних.
AWS усунула це обмеження за допомогою розробленої нею технології під назвою Elastic Fabric Adapter. Це мережевий пристрій, який прискорює передачу даних між AI-чіпами.
Переміщення інформації між двома розрізненими серверами містить безліч обчислювальних операцій. Деякі з них виконуються операційною системою серверів. AWS Elastic Fabric Adapter обходить операційну систему, що дозволяє мережевому трафіку швидше досягати мети.
Стало відомо, що пристрій обробляє трафік за допомогою мережевого фреймворка з відкритим вихідним кодом під назвою libfabric. Це програмне забезпечення для роботи не тільки з моделями штучного інтелекту, а й з іншими ресурсомісткими додатками, такими як наукові симуляції.
AWS розраховує завершити будівництво Project Rainier наступного року. Коли система запрацює, вона стане одним із найбільших у світі обчислювальних кластерів для навчання AI-моделей. За словами AWS, його продуктивність більш ніж уп'ятеро перевищить продуктивність системи, яку Anthropic досі використовувала для розробки своїх мовних моделей.
Примітно, що анонс Project Rainier відбувся приблизно через рік після того, як AWS розкрила плани зі створення ще одного великомасштабного AI-кластера.
Project Ceiba, як називається інша система, працює на кремнії Nvidia, а не на процесорах Trainium2. Спочатку планувалося оснастити суперкомп'ютер 16384 відеокартами GH200 від цього виробника. У березні минулого року AWS перейшла на конфігурацію з 20736 чіпами Blackwell B20, які, як очікується, забезпечать у шість разів більшу продуктивність.
Project Ceiba підтримуватиме внутрішні інженерні розробки Nvidia. Чіп-мейкер планує використовувати систему для проєктів у таких галузях, як дослідження мовних моделей, біологія та автономне водіння.
Комп’ютерний розум: генеративний штучний інтелект у рішеннях AWS
0 |