Nvidia H100. Збираємо стартовий майданчик штучного інтелекту

2 май, 2023 - 12:18Андрій Тищенко

Генеративний штучний інтелект – створення нейромережами текстів, зображень, музики – несе революційні зміни у різні галузі. Задають тон провідні корпорації, такі як Microsoft та Google, хоча зростання обчислювальної потужності та поширеність графічних процесорів (GPU) зробили плоди машинного навчання доступними також і малим гравцям. Якщо нейромережа ChatGPT працює на десятках тисяч графічних процесорів Nvidia A100, то скромні завдання обходяться одним-двома. Озброюючись відносно недорогим парком обладнання, розробники створюють спеціалізовані програми на основі АІ.

Основна увага сьогодні дістається флагманському процесору Nvidia H100 та його похідним. Огляд продуктивності та масштабованості H100 прояснює переваги переведення на нього інфраструктури GPU. Невідомо, як там у Microsoft, сама Nvidia пропонує коробкові рішення з кількома прискорювачами DGX H100 та окремі карти H100 PCIe для кастомних конфiгурацiй.

Із чого можна зробити «народний генератор АІ»?

Шина

Вузьке місце у машинному навчанні – продуктивність графічного процесора, не передача даних від CPU до GPU по шині PCIe. Зазвичай графічним прискорювачам достатньо PCIe Gen 4 і навіть використання 8 ліній підключення замість 16 не сильно позначається на продуктивності. Але якщо мова про H100 PCIe, єдиного з існуючих графічних акселераторів на шину PCI Gen 5, обійдемося без компромісів.

PCIe Gen 5 підтримують такi процесори: Intel Core 13th Gen, AMD Ryzen 7000, Intel Xeon W (LGA 4677), AMD EPYC 4th Gen (Genoa), Intel Xeon SP 4th Gen (Sapphire Rapids). Під кілька GPU та розпаралелювання обчислень між ними перші дві не підходять – надто мало ліній PCIe. Intel Xeon W пiдходить для настільних графічних обчислювачів. Типовий приклад – ASUS Pro WS W790-ACE. На платі 5 слотів x16 PCIe Gen 5, куди можна поставити до трьох акселераторів подвійної товщини.

При ціні H100 PCIe близько $40K логічно припустити, що під два або більше таких GPU потрібна платформа в промисловому (стійковому) виконанні. Приклади: ASUS ESC4000A-E12 на 4 GPU та ESC8000-E12 на 8 GPU. Розберемося з першою.

Платформа

ASUS ESC4000A-E12 - компактний однопроцесорний сервер під AMD EPYC 9004 та чотири двослотові GPU. Підтримуються процесори від 16 до 96 ядер, до 3ТБ оперативної пам'яті DDR5 RDIMM на 12 каналах, до 6 дисків NVMe/SATA/SAS. Блок живлення потужністю 2600W гарантує стабільну безперебійну роботу сервера. Є дистанційне керування сервером ASUS ASMB11-iKVM на базi ASPEED AST2600 та ASUS Control Center IT Management Software.

Nvidia H100. Збираємо стартовий майданчик штучного інтелекту

Процесор

Покоління процесорів AMD EPYC 9004 Genoa суттєво перевершило попередника EPYC 7003 Milan: з'явилася підтримка пам'яті DDR5 та шини PCIe Gen5, верхня межа по ядрах піднялася в півтора рази (з 64 до 96), побільшало каналів пам'яті (з 8 до 12). Обчислювальна потужність односокетних серверів на Genoa вища за рівень багатьох двопроцесорних серверів Intel Xeon, при куди більш скромному ціннику. Один CPU обслуговує 128 ліній PCIe Gen5 – і це визначальна перевага для створення сервера з кількома GPU.

У лінійці AMD EPYC Genoa є чотири номінали процесорів «P» для односокетних систем – на 32, 48, 64 та 96 ядер, але ставити в платформу можна будь-який з 18 наявних SKU. Серед завдань GPU-сервера є побудова моделей, критична до тактової частоти CPU, тож 24-ядерний AMD EPYC 9274F з базовою частотою 4.05 (!) ГГц – непоганий вибiр.

Nvidia H100. Збираємо стартовий майданчик штучного інтелекту

Пам'ять

Процесори AMD EPYC Genoa працюють із пам'яттю DDR5 RDIMM, у контролера 12 каналів пам'яті. Наприклад, дюжиною модулей 32ГБ набирається 384ГБ.

Nvidia H100. Збираємо стартовий майданчик штучного інтелекту

Диски та мережева периферія

У платформу можна поставити до шести дисків NVMe/SATA/SAS. Якщо штатного мережевого підключення 2 x GbE i350 мало, можна додати додаткову карту - слотів розширення для цього достатньо.

GPU

Графічний процесор Nvidia H100 оснащений тензорними ядрами четвертого покоління, прискорює навчання до 9 разів, порівняно з попереднім поколінням. Продуктивність для програм HPC до 7 разів вища, швидкість інференсу на найбільших моделях АІ до 30 разів вища.

Розгортання графічних процесорів H100 забезпечує безпрецедентну продуктивність і робить наступне покоління екзафлопних високопродуктивних обчислень (HPC) та АІ з трильйонами параметрів доступним для всіх дослідників. Це у масштабах дата-центру. Але окремий сервер з парою H100 - теж потужний iнструмент.

Nvidia H100. Збираємо стартовий майданчик штучного інтелекту

Платформа ASUS ESC4000A-E12 має «купейне» компонування та вміщує до 4 двослотових GPU. Встановлена пара H100 виглядає так:

Nvidia H100. Збираємо стартовий майданчик штучного інтелекту

При необхідності можна додати ще два H100 - місце, запас ліній PCIe Gen 5 і потужність джерела живлення дозволяють.

Nvidia H100. Збираємо стартовий майданчик штучного інтелекту

Далі справа за розробником

Зазвичай проектує графічний обчислювач розробник, постановник завдання: яких і скільки GPU, які CPU, скільки оперативної пам'яті та які мають бути накопичувачі. Завдання різні, підготовка моделей машинного навчання відрізняється, ефект переходу на нові акселератори залежить від прикладної області. Типових рішень немає. Постачальник апаратної платформи виконує роль експерта, втілюючи побажання замовника, рекомендації Nvidia та галузевий досвід.

Цей «залізний кінь» до оранки готовий.