Чи допоможе CXL у нарощуванні можливостей AI-платформ?

1 апреля 2024 г., 20:18

У міру того як зростає популярність платформ для додатків на базі штучного інтелекту, виникають різноманітні питання, пов'язані з нарощуванням їхньої продуктивності. І зокрема, як на неї впливає використання CXL.

Технологія Computer Express Link (CXL) з'явилася відносно недавно, тому має сенс нагадати її можливості. Якщо говорити коротко, то CXL дозволяє об'єднати масиви оперативної пам'яті за допомогою інтерфейсу PCIe. Наразі існує три категорії рішень CXL:

CXL 1 забезпечує розширення пам'яті, даючи змогу серверам x86 отримувати доступ до пам'яті на пристроях-прискорювачах з інтерфейсом PCIe, таких як smartNIC і DPU;

CXL 2 забезпечує об'єднання пам'яті між декількома серверами та підключеним до CXL пристроєм з пам'яттю;

CXL 3 забезпечує спільне використання пам'яті між серверами та пристроями CXL за допомогою комутаторів CXL.

Усі три системи мають механізм когерентного кешування, тобто локальні кеші першого рівня процесора і кеші інструкцій, які містять підмножину того, що знаходиться в пам'яті, мають єдиний вміст. CXL 1 і 2 засновані на шині PCIe 5, а CXL 3 використовує шину PCIe 6. Доступ до зовнішньої пам'яті через CXL збільшує затримку.

Уся пам'ять, до якої здійснюється доступ, спільне використання або об'єднання в пул у системі CXL, повинна мати метод доступу CXL, тобто доступ до шини PCIe 5 або PCIe 6 і підтримку протоколу CXL. Для цього підходить DRAM у серверах x86 і пам'ять GDDR у графічних процесорах. Однак пам'ять із високою пропускною здатністю (HBM), інтегрована в GPU через інтерпозер у всесвіті Nvidia, не підходить, оскільки не має інтерфейсу PCIe.

Прискорений процесор (APU) Instinct M1300A від AMD з об'єднаними ядрами CPU і GPU та спільним простором пам'яті має інтерфейс CXL 2. Суперчіп Grace Hopper від Nvidia з CPU Armv9 Grace і GPU Hopper має розділений простір пам'яті.

Чіп GPU H100 від Nvidia підтримує формати NVLink, C2C (для зв'язку з процесором Grace) і PCIe. Але можливості інтерфейсу PCIe обмежені. Є всього 16 ліній PCIe 5, які працюють зі швидкістю 64 ГБ/с, тоді як NVlink і C2C працюють зі швидкістю 450 ГБ/с - у сім разів швидше. Частина введення-виведення графічних процесорів Nvidia обмежена в просторі, і Nvidia надає перевагу збільшеній пропускній спроможності перед стандартними міжз'єднаннями, такими як PCIe. Тому площа PCIe на чипі в майбутньому не буде збільшуватися, а може і скоротиться.

Таким чином, не має великого сенсу в доступі CXL до пам'яті Nvidia GPU з високою пропускною здатністю. Однак процесори x86 не використовують NVLink, а наявність додаткової пам'яті в серверах x86 означає, що завдання, пов'язані з оперативною пам'яттю, можуть виконуватися швидше - навіть з урахуванням додаткової затримки при доступі до зовнішньої пам'яті.

Звідси випливає, що CXL не буде використовуватися в навчальних навантаженнях AI, коли вони виконуються на GPU-системах з HBM, але CXL може зіграти свою роль у серверах ЦОД на базі x86 / GDDR-GPU, що виконують навантаження з налаштування AI та висновків. Ми також навряд чи побачимо CXL у прикордонних системах, оскільки вони будуть простішими за конструкцією, ніж системи ЦОД, і потребуватимуть менше пам'яті.

Ready, set, buy! Посібник для початківців - як придбати Copilot для Microsoft 365