0 |
Відповідно до свого приблизно річного циклу оновлення, AMD підтвердила, що серія Instinct MI400 з'явиться на початку 2026 року, продемонструвавши величезний стрибок в області пам'яті, пропускної здатності міжз'єднань і обчислювальної потужності. Кожна карта MI400 оснащена дванадцятьма стеками HBM4, що забезпечують 432 ГБ вбудованої пам'яті і пропускну здатність пам'яті майже 19,6 ТБ/с. Ці ранні модулі HBM4 забезпечують пропускну здатність приблизно 1,6 ТБ/с кожен, що трохи менше позначки в 2 ТБ/с. У плані обчислювальної потужності AMD оцінює MI400 в 20 петафлопс пропускної здатності FP8 і 40 петафлопс FP4, що в два рази перевищує продуктивність розріджених матриць сучасних карт MI355X. Але справжнім проривом є те, як AMD масштабує ці графічні процесори. Досі через Infinity Fabric можна було підключити до восьми карт, а все, що перевищувало цю кількість, доводилося підключати через Ethernet.
Модернізований матричний зв'язок MI400 тепер забезпечує швидкість 300 ГБ/с, що майже в два рази перевищує швидкість серії MI350, дозволяючи створювати кластери повного река без використання більш повільних мереж. Це оновлення відкриває шлях для «Helios», повністю інтегрованого рішення AMD для стійок штучного інтелекту. Воно поєднує в собі майбутні процесори EPYC «Venice» з графічними процесорами MI400 і мережевим обладнанням, відповідним за розміром, пропонуючи операторам дата-центрів готове рішення. AMD також не ухилилася від порівнянь. Стійка Helios з 72 картами MI400 забезпечує тензорну продуктивність приблизно 3,1 екзафлопса і 31 ТБ пам'яті HBM4. Система NVIDIA Vera Rubin, яка, як планується, буде оснащена 72 графічними процесорами і 288 ГБ пам'яті кожен, як очікується, досягне продуктивності близько 3,6 екзафлопса, при цьому можливості AMD перевершують її як за пропускною здатністю, так і за ємністю. І якщо цього недостатньо, вже ходять чутки про більш потужну систему MI450X IF128. Вона повинна з'явитися в кінці 2026 року і буде безпосередньо пов'язувати 128 графічних процесорів з Infinity Fabric зі швидкістю 1,8 ТБ/с в обох напрямках на кожен пристрій, відкриваючи можливості для створення дійсно масивних кластерів штучного інтелекту в масштабі стійки.
Заснований на новітній обчислювальній архітектурі CDNA 4 компанії, прискорювач MI350X розроблений для конкуренції з серією AI GPU NVIDIA B200 «Blackwell», причому в своїй презентації AMD порівнює Instinct MI355X з B200. Чіп представляє не тільки архітектуру CDNA 4, але і новітній програмний стек ROCm 7, і апаратну екосистему, засновану на галузевому стандарті Open Compute Project, яка поєднує в собі процесори AMD EPYC Zen 5, графічні процесори серії Instinct MI350, мережеві карти AMD-Pensando Pollara з підтримкою Ultra-Ethernet і галузеві стандартні стійки і вузли, як з повітряним, так і з рідинним охолодженням.
MI350 — це гігантський графічний процесор для AI на основі чипсетів, що складається зі складених одна на одну кремнієвих пластин. Є дві базові плитки, які називаються I/O dies (IOD), кожна з яких побудована за 6-нм технологічним процесом TSMC N6. Ця плитка має мікроскопічну проводку до чотирьох плиток Accelerator Compute Die (XCD), укладених зверху, крім 128-канальних контролерів пам'яті HBM3E, 256 МБ пам'яті Infinity Cache, інтерфейсів Infinity Fabric і кореневого комплексу PCI-Express 5.0 x16. XCD побудовані на 3-нм технологічному процесі TSMC N3P. Вони містять 4 МБ кешпам'яті L2 і чотири шейдерних движка, кожен з 9 обчислювальними блоками. Таким чином, кожен XCD має 36 CU, а кожен IOD — 144 CU. Два IOD з'єднані між собою двонаправленим з'єднанням зі швидкістю 5,5 ТБ/с, яке забезпечує повну когерентність кешу між двома IOD. Пакет має в цілому 288 CU. Кожен IOD керує чотирма стеками HBM3E на 144 ГБ пам'яті, пакет має 288 ГБ.
Хоча MI350 з 288 обчислювальними одиницями і 288 ГБ пам'яті може функціонувати як один графічний процесор, AMD розробила інноваційні способи поділу графічного процесора і його фізичної пам'яті по-різному, по IOD і по XCD.
На рівні платформи кожне лезо підтримує до восьми графічних процесорів серії MI350, з пулами пам'яті, включеними через точкову мережу зі швидкістю 153,6 ГБ/с, що з'єднує кожен пакет з кожним іншим пакетом на вузлі. Крім того, кожен пакет має з'єднання PCI-Express 5.0 x16 з одним з двох процесорів EPYC «Turin» вузла, що здійснюють послідовну обробку.
0 |