Cerebras запустила трильйонну AI-модель Kimi K2.6 із частотою 1000 токенів на секунду

26 мая 2026 г., 11:45

Cerebras запустила трильйонну AI-модель Kimi K2.6 із частотою 1000 токенів на секунду

Компанія Cerebras, відома своїми гігантськими напівпровідниковими пластинами, оголосила про старт корпоративних випробувань нової AI-моделі Kimi K2.6. Це перша відкрита модель (open-weight) з архітектурою на 1 трильйон параметрів, яку вдалося розігнати до майже тисячі токенів на секунду, що повністю змінює правила гри у сфері автоматичного написання коду.

Раніше Cerebras уже встановила рекорди швидкості для таких відкритих моделей, як GLM-4.7, GPT-OSS-120B та Qwen 3, а також забезпечила колосальне прискорення процесів для OpenAI та Cognition. Тепер компанія підкорила планку трильйонних моделей.

Авторитетна аналітична агенція Artificial Analysis офіційно зафіксувала, що обладнання Cerebras здатне видавати 981 вихідний токен на секунду під час роботи з Kimi K2.6. Це у 6,7 раза швидше, ніж найпотужніші хмарні рішення на базі графічних процесорів (GPU). Та це у 23 рази швидше, ніж середній показник по ринку серед інших інференс-провайдерів.

«Ми зафіксували швидкість у 981 токен на секунду на Kimi K2.6 - це найвища продуктивність, яку ми коли-небудь вимірювали для моделей трильйонного класу», - підтвердив Джордж Кемерон (George Cameron), співзасновник Artificial Analysis.

Для реального запиту обсягом 10000 токенів (включаючи обробку промпта, логічні міркування та генерацію 500 токенів відповіді) системі Cerebras знадобилося 5,6 секунди. Офіційному хмарному ендпоінту Kimi на виконання цього ж завдання потрібно 163,7 секунди. Це означає 29-кратне скорочення часу очікування для кінцевого користувача.

Kimi K2.6 вважається лідером серед відкритих нейромереж для написання коду та роботи AI-агентів. Модель очолює престижний рейтинг SWE-Bench Pro з результатом 58,6 бала, випереджаючи Claude Opus 4.6 і наздоганяючи GPT-5.4. Вона також лідирує у складних тестах Humanity’s Last Exam та DeepSearchQA.

Версія 2.6 розширює можливості AI від створення простого інтерфейсу до розробки повноцінних full-stack проєктів, включаючи налаштування автентифікації, операції з базами даних та тривале автономне виконання завдань. Завдяки швидкості Cerebras, процес кодингу перетворюється з нудного очікування результатів перевірки на розробку в реальному часі.

Замість стандартних серверів із класичними відеокартами, Cerebras використовує свої гігантські суперчипи Wafer-Scale Engine (WSE) всередині кластерів систем CS-3.

Для досягнення рекорду інженери застосували унікальний підхід. Ваги моделі Kimi K2.6 зберігаються в оригінальному 4-бітному форматі, але самі обчислення проходять у 16-бітному форматі з комою, що плаває, (FP16) для максимальної точності.

Ваги розподілені між кількома кремнієвими пластинами (wafers), а активації передаються між ними потоком.

Комунікація між шарами нейромережі відбувається через внутрішню мережеву фабрику на самій пластині. Її пропускна здатність у понад 200 разів перевищує потужність інтерфейсу NVLink, який використовується в архітектурах найновіших систем NVL72 від конкурентів.

Корпоративні клієнти Cerebras вже можуть отримати доступ до тестування Kimi K2.6. Рішення орієнтоване на компанії, для яких швидкість інференсу є головним інфраструктурним обмеженням у завданнях глибоких досліджень та промислового програмування.