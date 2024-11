18 ноября 2024 г., 14:35

Нові графічні процесори Nvidia Blackwell, вихід яких на ринок вже був відкладений, як повідомляється, тепер стикаються з проблемами перегріву, що заважають їхньому розгортанню в стійках центрів обробки даних.



Так у звіті The Information йдеться, що клієнти висловили серйозне занепокоєння з приводу цієї проблеми, турбуючись, що це вплине на їхні плани створення нової інфраструктури центрів обробки даних для штучного інтелекту.



Проблема в тому, що графічні процесори Blackwell, мабуть, перегріваються при розміщенні в стійках серверних центрів обробки даних, розрахованих на одночасну установку до 72 чіпів. The Information послалася на джерела, знайомі з проблемою, які повідомили, що коли чіпи інтегруються в індивідуальні серверні стійки Nvidia, вони виділяють надмірне тепло, що може призвести до неефективності роботи або навіть пошкодження обладнання.



Повідомляється, що Nvidia кілька разів просила своїх постачальників змінити конструкцію своїх стійок, щоб спробувати розв'язувати проблеми перегріву, але безрезультатно. The Information не назвала імена залучених постачальників.



У відповідь звіт Nvidia применшила значення проблеми. "Nvidia працює з провідними постачальниками хмарних послуг як невіддільна частина нашої інженерної команди та процесу", - повідомив представник компанії агентству Reuters. "Інженерні ітерації - це нормально та очікувано".



Нагадаємо, Nvidia вперше анонсувала Blackwell у березні як наступника успішних графічних процесорів H100, що сьогодні використовуються для більшості програм штучного інтелекту у світі. Говорять, що вони забезпечують 30-кратний приріст продуктивності порівняно з чіпами H100, одночасно знижуючи споживання енергії до 25% при деяких робочих навантаженнях.



Спочатку компанія планувала постачати чіпи Blackwell у другій половині цього року, але її плани зірвалися, коли було виявлено нестачу конструкції, через що дату запуску було перенесено на початок 2025 року.



Одним з ключових нововведень Blackwell є те, що він об'єднує дві кремнієві плитки, кожен розміром з чіп H100, в один компонент. Це найважливіше вдосконалення, що дозволяє чіпу обробляти робочі навантаження AI набагато швидше, забезпечуючи швидшу обробку даних.



Повідомляється, що початкова проблема була пов'язана з кристалом процесора, який з'єднує ці два кремнієві квадрати, але генеральний директор Nvidia Дженсен Хуанг (Jensen Huang) заявив під час візиту до Данії минулого місяця, що проблему вирішили за допомогою виробничого партнера TSMC.



Поки не ясно, чи вплинуть нові проблеми з перегрівом на нову дату запуску Blackwell, намічену на початок наступного року, але Nvidia має всі стимули, щоб гарантувати, що вона отримає продукт саме так, як треба. Суперчіпи GB200 Grace Blackwell коштуватимуть до 70 тис. дол., тоді як повна серверна стійка коштуватиме понад 3 млн дол.



Раніше Nvidia заявляла, що сподівається продати близько 60–70 тис. повних серверів, тому будь-які подальші затримки можуть коштувати компанії дуже дорого, оскільки вона стала однією з найцінніших публічних компаній у світі завдяки своєму домінуванню в галузі AI.



Аналітики зазначають, що системи охолодження мають вирішальне значення для платформ AI, оскільки найпотужніші чіпи-прискорювачі працюють за температур вище оптимальних і швидко виходять з ладу, якщо їх не охолоджувати, тому це може стати серйозною проблемою. Nvidia, схоже, визнала наявність проблеми, але не сказала, наскільки серйозною вона є насправді.



Слід зазначити, що будь-яка затримка у випуску Blackwell вплине на плани розгортання інфраструктури центрів обробки даних клієнтів та потенційно завадить їх здатності розробляти більш просунуті моделі та програми AI.

