`

СПЕЦІАЛЬНІ
ПАРТНЕРИ
ПРОЕКТУ

Чи використовує ваша компанія ChatGPT в роботі?

BEST CIO

Определение наиболее профессиональных ИТ-управленцев, лидеров и экспертов в своих отраслях

Человек года

Кто внес наибольший вклад в развитие украинского ИТ-рынка.

Продукт года

Награды «Продукт года» еженедельника «Компьютерное обозрение» за наиболее выдающиеся ИТ-товары

 

Cerebras продемонструвала навчання моделі з трильйоном параметрів на одній системі CS-3

0 
 

У межах участі у виставці NeurIPS 2024 компанія Cerebras Systems у співпраці з Сандійською національною лабораторією оголосила про революційне досягнення: успішну демонстрацію навчання AI-моделі з 1 трлн параметрів на одній системі CS-3. Моделі з трильйоном параметрів - це рівень сучасних LLM, що вимагає тисяч графічних процесорів і десятків апаратних експертів. Використовуючи технологію Wafer Scale Cluster компанії Cerebras, дослідники з Сандії змогли почати навчання на одному прискорювачі AI, що є унікальним досягненням для розробки передових моделей.

«Традиційно для навчання моделі такого масштабу були потрібні тисячі графічних процесорів, значна складність інфраструктури та ціла команда спеціалістів з інфраструктури AI», - каже дослідник із Sandia Сіва Раджаманікам (Siva Rajamanickam). «За допомогою Cerebras CS-3 команда змогла досягти такого результату на одній системі без змін у коді моделі або інфраструктури. Потім модель була плавно масштабована на 16 систем CS-3, демонструючи крок уперед у лінійній масштабованості та продуктивності великих AI-моделей завдяки кластеру Cerebras Wafer-Scale Cluster».

Моделі з трильйонами параметрів вимагають терабайт пам'яті - у тисячі разів більше, ніж доступно на одному GPU. Щоб виконати один крок навчання або експеримент із моделлю, необхідно придбати та під'єднати тисячі графічних процесорів. Cerebras Wafer Scale Cluster використовує зовнішній запам'ятовуючий пристрій терабайтного розміру під назвою MemoryX для зберігання ваг моделі, що дає змогу навчати моделі з трильйоном параметрів так само легко, як і невеликі моделі на GPU.

Для навчання моделі з трильйоном параметрів у Sandia компанія Cerebras сконфігурувала пристрій MemoryX об'ємом 55 ТБ. Завдяки використанню пам'яті DDR5 у форматі сервера 1U, обладнання було придбано та налаштовано всього за кілька днів. Дослідники AI змогли запустити перші кроки навчання і спостерігали поліпшення втрат і стабільну динаміку навчання. Після завершення запуску однієї системи дослідники масштабували навчання на два та шістнадцять вузлів CS-3 без будь-яких змін у коді. Кластер продемонстрував практично лінійне масштабування з 15,3-кратним прискоренням на шістнадцяти системах. Для досягнення таких результатів зазвичай потрібні тисячі графічних процесорів, мегавати потужності та багато тижнів налаштування апаратного і програмного забезпечення.

Цей результат підкреслює унікальну потужність і гнучкість апаратного забезпечення Cerebras. На додаток до найвищої в галузі продуктивності обчислень, рушій Cerebras Wafer Scale значно спрощує навчання AI та розробку передових моделей, що робить його повноцінним комплексним рішенням для навчання, тонкого налаштування та обчислення новітніх AI-моделей.

Стратегія охолодження ЦОД для епохи AI

0 
 

Напечатать Отправить другу

Читайте также

 

Ukraine

 

  •  Home  •  Ринок  •  IТ-директор  •  CloudComputing  •  Hard  •  Soft  •  Мережі  •  Безпека  •  Наука  •  IoT