| +11 голос |
|
Світ великих мовних моделей стрімко трансформується: від простих текстових генераторів ми переходимо до багатокомпонентних автономних агентів, здатних оперувати контекстом у мільйони токенів.
Це ставить перед IT-інфраструктурою виклик зовсім іншого масштабу — проблему збереження та швидкого доступу до KV-кешу (Key-Value cache), обсяги якого вже не вкладаються у традиційну ієрархію пам'яті. NVIDIA запропонувала своє бачення розв'язання цієї проблеми, представивши на CES 2026 платформу Inference Context Memory Storage Platform (ICMSP), що фактично запроваджує новий стандарт AI-орієнтованих сховищ.
Традиційна архітектура серверів, де дані мігрують між швидкою пам'яттю HBM на GPU та системною DRAM, стала вузьким місцем для сучасних інференс-навантажень. У новій структурі Vera Rubin SuperPod компанія NVIDIA виділяє окремий рівень G3.5 — спеціалізований ярус флешпам'яті з Ethernet-підключенням, що виступає «довготривалою пам'яттю» для AI-агентів. Центральним елементом цієї системи є процесор обробки даних BlueField-4 (BF4), який бере на себе функції управління введенням-виведенням KV-кешу, розвантажуючи при цьому основні обчислювальні ресурси Grace- та Vera-процесорів.
Технічна реалізація ICMSP в архітектурі Vera Rubin вражає масштабами: окрема стійка з BF4-вузлами містить 16 спеціалізованих шасі, кожне з яких об'єднує чотири блоки BlueField-4. За кожним таким DPU закріплено до 150 ТБ NVMe-місткості, що в сукупності дає майже 10 ПБ виділеної контекстної пам'яті на один SuperPod. Згідно з розрахунками NVIDIA, така інфраструктура здатна забезпечити до 16 ТБ контекстної пам'яті на кожен окремий графічний процесор Rubin. Це дозволяє утримувати історію тисяч одночасних діалогів та складних багатокрокових операцій у безпосередній близькості до обчислювальних ядер, мінімізуючи затримки при повторному зверненні до контексту.
Особливістю ICMSP є її вузька спеціалізація. На відміну від класичних корпоративних сховищ, ці масиви JBOF (Just a Bunch of Flash) не обтяжені сервісами дедуплікації, миттєвих знімків або реплікації. Їхня єдина мета — максимально швидке обслуговування запитів до KV-кешу. Керування даними здійснюється на рівні програмного стека NVIDIA Dynamo та бібліотеки NIXL (Inference Transfer Library), які дозволяють асинхронно переміщувати блоки контексту між HBM, пам’яттю хоста та рівнем ICMSP. Завдяки використанню протоколів RDMA та мережі Spectrum-X Ethernet забезпечується стабільно низька затримка, що дозволяє «підкачувати» потрібні блоки пам’яті ще до початку фази декодування токенів.
Важливим аспектом стратегії NVIDIA є відкритість цієї архітектури для партнерів. Хоча еталонний дизайн розроблено самою компанією, кінцеві рішення будуть постачатися такими лідерами ринку, як Dell, HPE, Pure Storage, VAST Data та WEKA. Це створює нову екосистему, де традиційні постачальники систем збереження даних трансформують свої продукти в інтегровані компоненти AI-фабрик. Для бізнесу це означає можливість отримати п'ятикратне зростання швидкості генерації токенів (TPS) та аналогічне підвищення енергоефективності порівняно зі стандартними мережевими сховищами.
У підсумку можна зазначити, ICMSP є логічним кроком NVIDIA у спробі повністю контролювати не лише обчислювальний цикл AI, а й життєвий цикл контекстних даних. Перетворення контексту на «ресурс першого класу» дозволяє будувати масштабовані системи для багатопотокових агентів, де кожна деталь інфраструктури — від DPU до спеціалізованих бібліотек DOCA — працює на мінімізацію простою GPU. Це перехід від простого зберігання файлів до створення динамічного середовища пам’яті, яке здатне підтримувати інтелектуальні системи наступного покоління.
Стратегія охолодження ЦОД для епохи AI
| +11 голос |
|


