0 |
За повідомленням Cerebras, під час роботи з моделлю Llama 3.1-70B було забезпечено швидкість виводів 2100 токенів на секунду, що в 3 рази більше, ніж у попередньому випуску. Для порівняння, ця продуктивність становить:
- 16-кратне прискорення порівняно з найшвидшим рішенням на GPU;
- у 8 разів швидше, ніж GPU, що працюють на Llama3.1-3B, моделі, яка у 23 рази менша;
- еквівалентно підвищенню продуктивності нового покоління GPU (H100/A100) за один випуск програмного забезпечення.
Швидкі висновки - це ключ до створення наступного покоління додатків AI. Швидкі висновки дають змогу створювати чуйні інтелектуальні застосунки, які раніше були недоступні, - від голосових і відеозаписів до складних міркувань. Провідні компанії вже використовують Cerebras Inference, щоб розширити межі можливого: від Tavus, яка зробила революцію у створенні відео, до GSK, яка прискорила робочі процеси з пошуку ліків.
Повідомляється, Cerebras Inference пройшла ретельне тестування в Artificial Analysis, сторонній організації, що займається порівняльним аналізом.
За швидкістю виведення даних на одного користувача Cerebras Inference перебуває у своїй власній лізі - у 16 разів швидша, ніж найбільш оптимізоване рішення на GPU, у 68 разів швидша, ніж гіпермасштабні хмари, і в 4-8 разів швидша, ніж інші прискорювачі AI.
Час до першого токена має вирішальне значення для додатків реального часу. Cerebras посідає друге місце за часом затримки першого токена, що свідчить про перевагу інтегрованих рішень на пластинах порівняно зі складними мережевими рішеннями.
Загальний час відгуку - вимірювання повного обороту введення і виведення - є хорошим показником для багатоетапних агентних робочих процесів. У цьому випадку Cerebras Inference виконує повний запит лише за 0,4 секунди порівняно з 1,1-4,2 секунди в рішеннях на базі GPU. Для агентів це означає виконання в 10 разів більшого обсягу роботи за той самий час. Для моделей міркувань це дає змогу виконувати в 10 разів більше кроків міркувань без збільшення часу відгуку.
Висновки Cerebras, що виконуються на Llama3.1 70B, тепер настільки швидкі, що обганяють висновки на базі GPU, що виконуються на Llama3.1 3B. Рушій Wafer Scale Engine запускає модель AI у 23 рази більшу за 8-кратної швидкості, що в сукупності дає 184-кратну перевагу в продуктивності.
Перший реліз Cerebras Inference у серпні встановив нові рекорди швидкості та зробив Llama3.1-70B миттєвим досвідом. Попри неймовірно високу швидкість, це була перша реалізація виводів на рушії Wafer Scale Engine, і вона використовувала лише частину його пікової пропускної спроможності, обчислювальних потужностей і потужностей вводу-виводу. Тому нинішнє досягнення є кульмінацією численних програмних, апаратних і ML-покращень, які Cerebras внесла в стек, щоб значно підвищити ефективність використання і реальну продуктивність Cerebras Inference.
Компанія повідомляє, що було переписано або оптимізовано найважливіші ядра, такі як MatMul, reduce/broadcast, element wise ops і activations. Wafer IO був оптимізований для асинхронної роботи з обчисленнями. У цьому випуску також реалізовано спекулятивне декодування - широко розповсюджену техніку, яка використовує малу та велику моделі в тандемі, щоб швидше генерувати відповіді. У результаті використання цієї функції можна спостерігати більший розкид у швидкості виведення - 20% вище або нижче середнього значення у 2100 токенів/сек є нормальним явищем.
Точність моделі не змінилася - всі моделі, як і раніше, використовують 16-бітові вихідні ваги. Точність виведення моделей також не змінилася, що підтверджується результатами штучного аналізу.
Вплив швидкості Cerebras Inference вже змінює методи розробки та впровадження додатків AI в організаціях. Кім Бренсон (Kim Branson), віцепрезидент з AI та ML у компанії GSK, каже: «Завдяки швидкості умовиводів Cerebras GSK розробляє інноваційні додатки AI, як-от інтелектуальні дослідницькі агенти, які дадуть змогу кардинально підвищити продуктивність наших дослідників і процес відкриття ліків».
Значне підвищення швидкості є вирішальним фактором для додатків AI в реальному часі, що демонструє LiveKit, на базі якого працює голосовий режим ChatGPT. Як пояснює генеральний директор компанії Расс д'Са (Russ d'Sa): «При створенні голосового AI умовивід - це найповільніший етап у вашому конвеєрі. З Cerebras Inference він став найшвидшим. Повний прохід конвеєром, що складається з хмарного перетворення мови на текст, 70B-параметричного аналізу за допомогою Cerebras Inference і перетворення тексту на мову, виконується швидше, ніж тільки аналіз в інших провайдерів. Це змінює правила гри для розробників, які створюють голосовий AI, здатний відповідати на запитання зі швидкістю і точністю на рівні людини».
Швидкі висновки - це ключовий фактор для додатків AI нового покоління, які використовують більше обчислень у тестовий час для розширення можливостей моделі. Як показали такі моделі, як GPT-o1, здатність виконувати великі ланцюжки умовиводів безпосередньо пов'язана з проривною продуктивністю в завданнях міркування, кодування і дослідження. Використовуючи Cerebras Inference, моделі глибоко обмірковують свої дії, перш ніж відповісти, без типових штрафів за затримку в кілька хвилин. Це робить Cerebras Inference оптимальною платформою для розробників, які прагнуть створювати системи, що забезпечують як більшу інтелектуальність під час виконання завдань, так і швидке реагування на запити користувачів.
Зазначається, що досягнуте Cerebras трикратне підвищення продуктивності показує, що можливо при реалізації всього потенціалу Wafer Scale Engine для обчислень. При швидкості 2100 токенів на секунду для Llama3.1-70B була забезпечена продуктивність, еквівалентна продуктивності апаратного покоління, за один випуск програмного забезпечення. Тому команда Cerebras продовжує оптимізувати як програмні, так і апаратні можливості, й найближчими тижнями буде розширено можливості вибору моделей, довжини контексту та API.
Про DCIM у забезпеченні успішної роботи ІТ-директора
0 |