Cerebras запускає найшвидший у світі DeepSeek R1 Distill Llama 70B Inference

4 февраль, 2025 - 09:35

Компанія Cerebras Systems оголосила про рекордну продуктивність обчислень DeepSeek-R1-Distill-Llama-70B, досягнувши більш ніж 1500 токенів на секунду - у 57 разів швидше, ніж рішення на базі GPU. Заявлено, ця безпрецедентна швидкість дає змогу миттєво обчислювати одну з найскладніших у галузі моделей з відкритою вагою, яка повністю працює на базі інфраструктури AI, розташованої в США, з нульовим обсягом збереження даних.

«DeepSeek R1 є новим рубежем у можливостях міркувань AI, і сьогодні ми робимо його доступним на найвищих у галузі швидкостях», - говорить Хагай Лупеско (Hagay Lupesko), SVP AI Cloud компанії Cerebras. «Досягнувши швидкості понад 1500 маркерів на секунду на нашій платформі Cerebras Inference, ми перетворюємо хвилинні процеси міркувань на практично миттєві відповіді, що кардинально змінює способи використання розробниками та підприємствами передових AI-моделей».

Платформа працює на рушію Cerebras Wafer Scale Engine і демонструє значне підвищення продуктивності в реальному світі. Стандартний запит на кодування, який на конкурентних платформах займає 22 секунди, на платформі Cerebras виконується за 1,5 секунди - це 15-кратне поліпшення часу досягнення результату. Цей прорив дає змогу практично розгорнути складні моделі міркувань, які традиційно вимагають великого часу на обчислення.

DeepSeek-R1-Distill-Llama-70B поєднує в собі передові можливості моделі DeepSeek, що складається з суміші експертів (MoE) з 671 параметром, і широко підтримувану архітектуру Meta Llama. Попри ефективний розмір у 70 млрд параметрів, модель демонструє вищу продуктивність під час розв'язання складних завдань математики та кодування порівняно з більшими моделями.

«Безпека і конфіденційність мають першорядне значення для розгортання корпоративного AI», - підкреслив Хагай Лупеско. «Обробляючи всі запити на виведення в центрах обробки даних, розташованих у США, з нульовим зберіганням даних, ми гарантуємо, що організації зможуть використовувати передові можливості AI, дотримуючись суворих стандартів управління даними. Дані залишаються в США 100% часу і належать тільки замовнику».

Модель DeepSeek-R1-Distill-Llama-70B доступна відразу ж через Cerebras Inference, а доступ до API надають обраним клієнтам у рамках програми попереднього перегляду для розробників.