Локальний інференс на двох RTX 5090. Рушії попиту

29 май, 2026 - 17:35Володимир Грегуль

За останні кілька років ринок пройшов шлях від експериментальних AI-інструментів до масового впровадження великих мовних моделей у розробці, аналітиці та автоматизації бізнес-процесів. Разом із розширенням можливостей зростали й вимоги до обладнання. Ключовим обмеженням для локального запуску LLM, мультимодальних систем і дифузійних моделей сьогодні стає не лише обчислювальна потужність CPU/GPU, а насамперед обсяг і пропускна здатність відеопам'яті.

Графічні прискорювачі NVIDIA RTX 5090 вирізняються двома особливостями архітектури Blackwell, важливими саме для інференсу: апаратною підтримкою FP4 на рівні тензорних ядер і використанням пам'яті GDDR7. Саме тому вони стали «народним стандартом» локальних AI-серверів, орієнтованих на запуск великих моделей.

Тензорні ядра п'ятого покоління та FP4

Тензорні ядра графічних процесорів виконують операції матричного множення, які лежать в основі роботи нейромереж. Архітектура NVIDIA Blackwell реалізує вже п'яте покоління таких ядер. Одним з ключових оновлень стала апаратна підтримка формату FP4.

Локальний інференс на двох RTX 5090. Рушії попиту

Джерело: NVIDIA

З практичної точки зору це означає, що модель можна квантувати до нижчої розрядності: обсяг займаної пам'яті знижується більш ніж удвічі порівняно з FP16, знижується навантаження на підсистему пам'яті, а в багатьох випадках зберігається прийнятна якість результату при помітному зростанні швидкості.

Для інференсу це особливо важливо, оскільки у великих моделей обмеження часто пов'язане не з FLOPS, а з тим, скільки параметрів і який обсяг контексту можна утримати у VRAM. Практичний приклад – важкі моделі генерації зображень на кшталт FLUX. У форматі FP16 вони можуть вимагати понад 23 ГБ VRAM, після переходу до FP4 обсяг моделі може зменшуватися до менш ніж 10 ГБ, а швидкість генерації - помітно зростати завдяки апаратній підтримці цього формату.

Окрім FP4, Blackwell підтримує й інші формати обчислень: FP6, FP8, FP16, BF16, TF32 та INT8. Це забезпечує гнучкість під час вибору схеми квантування під конкретне завдання.

GDDR7 та пропускна здатність пам'яті

Під час інференсу великих моделей вузьким місцем часто стає підсистема пам'яті. Графічний процесор може виконувати обчислення швидше, ніж відеопам'ять встигає постачати ваги моделі та контекст, у результаті чого частина обчислювальних ресурсів простоює.

У серії RTX 50 ця проблема частково вирішується переходом на пам’ять GDDR7. У порівнянні з RTX 4090 (архітектура Ada Lovelace), пропускна здатність пам'яті RTX 5090 (Blackwell) зросла з ~1 ТБ/с до ~1.8 ТБ/с.

Локальний інференс на двох RTX 5090. Рушії попиту

Джерело: NVIDIA

Для AI-навантажень це важливо з кількох причин: швидше завантажуються ваги моделі, прискорюється робота з KV-кешем, зменшується затримка під час обробки довгих контекстів, підвищується стабільність продуктивності при паралельному виконанні кількох запитів.

Важливою особливістю GDDR7 є використання кодування PAM3, що дозволяє ефективніше передавати дані на вищих частотах і забезпечує стабільну роботу пам’яті при високій пропускній здатності. Додатково реалізовано вбудовані механізми корекції помилок на рівні мікросхем пам'яті, що підвищує надійність під час тривалого навантаження.

Практичні сценарії використання двох RTX 5090

Сучасні відкриті LLM підтримують тензорний паралелізм, дозволяє розподіляти модель і обчислення між кількома GPU. Багатографічні конфігурації є природним способом масштабування , коли модель не поміщається у відеопам'ять одного прискорювача.

Завдяки високій обчислювальній потужності, відносно простій реалізації та привабливій ціни рішень набув популярності локальний AI-інференс на двох прискорювачах RTX 5090. Сумарний обсяг відеопам'яті становить 64 ГБ, щоправда частина її витрачається на службові потреби драйверів та движка. У результаті ключове обмеження зводиться до балансу між розміром моделі та обсягом пам'яті, доступної для контексту і KV-кешу.

Розглянемо кілька типових сценаріїв використання подібних серверів:

1. Запуск великих моделей

Найпоширений сценарій використання - запуск моделей класу 70B, зокрема Llama 3.1 70B або Qwen2.5-72B. Такі моделі застосовуються для складного програмування, аналізу документів, логічного висновку та інших задач, де критично важлива висока якість відповідей.

FP4-квантизація (максимальна ефективність)

Для цього класу моделей практично необхідним є використання низької розрядності. У конфігурації з двома RTX 5090 у такому режимі 70B-модель займає приблизно 35-36 ГБ відеопам’яті. З урахуванням накладних витрат залишається близько 24 ГБ під KV-кеш.

Цього достатньо для довгого контексту, RAG-сценаріїв, тривалих діалогів і задач, де важлива не лише якість моделі, а й здатність системи утримувати великий обсяг контекстної інформації.

Альтернатива: моделі 32B (баланс якості та ресурсів)

Якщо 70B-моделі у FP4 забезпечують максимальну якість, але вимагають жорсткого контролю за пам'яттю, то моделі класу 32B (наприклад, Qwen2.5-32B або Command R) дозволяють значно простіше балансувати контекст і паралельне навантаження.

У конфігурації з двома RTX 5090 модель у FP8 зазвичай займає близько 32 ГБ, залишаючи до 28 ГБ під KV-кеш. Це зручно для сценаріїв із великими контекстами, підключенням зовнішніх інструментів, паралельною обробкою запитів і зниженням ризику помилок через нестачу пам’яті.

У підсумку це один із найбільш практичних варіантів локальних AI-серверів.

2. Агентні системи

Другим важливим сценарієм є агентний AI. У цьому випадку модель не просто відповідає на запити, а здатна взаємодіяти з інструментами, файлами, журналами подій і зовнішніми сервісами у повністю автоматичному режимі.

Як приклад можна розглянути OpenClaw - агентну систему, що працює у фоновому режимі та має доступ до файлової системи, CLI-інструментів і задач автоматизації. Подібні рішення можуть аналізувати логи, генерувати код, запускати скрипти, обробляти документи або передавати результати у зовнішні канали на кшталт Telegram чи WhatsApp.

Локальний інференс на двох RTX 5090. Рушії попиту

Джерело

Для таких систем критично важливі дві речі: коректна підтримка tool calling (механізму виклику моделлю зовнішніх функцій та інструментів) і великий робочий контекст.

Агентна система працює ітеративно: модель отримує завдання, обирає інструмент, аналізує результат, після чого формує наступний крок. В межах однієї сесії може виконуватися багато послідовних викликів моделі, причому кожна нова ітерація спирається на попередній контекст.

Зв’язка OpenClaw із моделями класу 32B є одним із найзбалансованіших варіантів для агентних сценаріїв. Вона поєднує:

високу точність у логіці та tool calling,
значний запас пам’яті під контекст,
можливість роботи з довгими логами й документами,
високу швидкість відгуку.

У такій конфігурації можна використовувати контекст 64k і більше - за умови підтримки з боку моделі та інференс-движка. Це важливо, коли агенту потрібно аналізувати великі журнали подій, історію змін у коді або набори файлів проєкту.

Варіант OpenClaw із моделями класу 70B/72B має сенс у складніших сценаріях, де 32B-моделі вже починають припускатися помилок у плануванні або логіці. Перевагами 70B-моделей є:

вища якість міркувань,
стабільніше декомпонування складних задач,
менша ймовірність логічних помилок під час багатокрокового виконання.

Основне обмеження тут — доступний обсяг VRAM під контекст. Якщо значна частина пам’яті зайнята самою моделлю, для логів, історії дій і KV-кешу залишається менше простору. Тому в агентних сценаріях 70B-моделі — це вибір на користь максимальної якості міркування, тоді як 32B-моделі забезпечують більш збалансоване співвідношення між якістю, швидкодією та довжиною контексту.

3. Малі моделі для масового потоку запитів

Третій сценарій — це не робота з одним складним завданням, а обслуговування великої кількості коротких запитів. У таких випадках використання великої моделі часто не має сенсу.

Якщо розгорнути, наприклад, модель Qwen2.5-0.5B на конфігурації з двох RTX 5090, для одного користувача це виглядатиме надмірним: модель занадто мала, щоб ефективно задіяти такий обсяг обчислювальних ресурсів. Однак у промислових системах подібний підхід може бути цілком виправданим, якщо основною метою є максимальна пропускна здатність.

Типові завдання для таких моделей:

модерація тексту,
класифікація звернень,
виділення сутностей,
ранжування коротких повідомлень,
аналіз логів,
передобробка даних перед передачею у важчі моделі.

У високопродуктивних інференс-конвеєрах ключовим параметром стає не розмір моделі, а кількість запитів, які система здатна обробити за секунду. При використанні continuous batching і оптимізованих движків GPU можуть працювати зі значно вищим рівнем завантаження та ефективніше використовувати доступні ресурси.

У форматі FP4 ваги невеликих моделей займають мінімальний обсяг пам’яті. Завдяки цьому більша частина VRAM залишається доступною для KV-кешу та великих batch-черг. У результаті система здатна обслуговувати значну кількість паралельних запитів, зберігаючи низьку затримку відповіді.

Ще один важливий сценарій використання малих моделей — speculative decoding, тобто прискорення генерації великих LLM за допомогою швидкої «чернеткової» моделі.

Принцип роботи полягає в тому, що невелика модель попередньо генерує кілька наступних токенів, після чого велика модель перевіряє цей фрагмент і підтверджує коректні токени. Якщо виникають розбіжності, перераховується лише проблемна частина відповіді, а не весь фрагмент цілком.

Особливо ефективно цей підхід працює з великими моделями класу 70B: легка модель забезпечує швидку генерацію «чернетки», тоді як важка модель відповідає за контроль якості та фінальну перевірку результату. У підсумку помітно зростає швидкість генерації без необхідності спрощувати або зменшувати основну модель.

Знаряддя дослідників

RTX 5090 стала популярною картою для локального AI-інференсу завдяки привабливому співвідношенню продуктивності до ціни. Конфігурація з двох GPU дає подвоєний обсяг відеопам’яті та суттєве прискорення обчислень.

Чи можливе подальше масштабування з такими GPU?

Зібрати систему навіть з двома RTX 5090 вже є непростим завданням, з урахуванням вимог до живлення, охолодження, сумісності з корпусами, материнськими платами та слотами PCIe на них. RTX 5090 має тепловий пакет 575 Вт - значно вищий, ніж у карт попередніх поколінь. Потужності блоку живлення сервера має вистачати не лише для двох GPU, а й для CPU, материнської плати, RAM, накопичувачів та іншої периферії. Типові RTX 5090 перекривають майже чотири слоти розширення на материнських платах. Навіть фізичне встановлення двох таких карт потребує нестандартних рішень щодо компонування та вентиляції.

Чому б не перейти на професійну лінійку графічних прискорювачів NVIDIA RTX PRO Blackwell?

Порівняльна таблиця кандидатів у сервери «народного інференсу» частково дає відповідь на це питання:

Локальний інференс на двох RTX 5090. Рушії попиту

За однакового обсягу відеопам’яті та співставної ціни RTX 5090 набагато продуктивніша порівняно з RTX PRO 4500. Обидві версії RTX PRO 6000 мають близьку до RTX 5090 обчислювальну потужність, утричі більший обсяг VRAM, але й коштують більш ніж утричі дорожче. При цьому подальше масштабування по GPU вимагає вже значно дорожчих платформ.

На цьому тлі конфігурація з двох RTX 5090 виглядає принадливо.

В наступній частині розглянемо фізичну реалізацію такого сервера.