| 0 |
|
Компанія Kinara довела, що її малопотужний і недорогий процесор штучного інтелекту Kinara Ara-2 справляється з високими вимогами до точності та ефективності роботи застосунків генеративного штучного інтелекту, таких як великі мовні моделі (LLM) на границі. Зокрема, компанія продемонструвала бездоганну роботу моделі Qwen1.5-7B, що працює на одному процесорі Ara-2 AI зі швидкістю 12 вихідних лексем на секунду. Ця можливість є важливим досягненням, оскільки LLM і генеративний AI загалом повинні працювати на границі, щоб забезпечити конфіденційність даних і скоротити час очікування завдяки відсутності необхідності доступу до Інтернету.
Крім того, при обробці генеративного AI на границі користувач платить тільки одноразову вартість за вбудоване обладнання у своєму персональному комп'ютері й уникає дорогих витрат на використання хмари. Генеративне опрацювання AI на границі розширює функціональність ПК, пропонуючи користувачам можливість виконувати резюмування документації, транскрипцію, переклад та інші корисні завдання, що заощаджують час.
Qwen, доступний з відкритим вихідним кодом під ліцензією Apache 2.0 і підтримуваний Alibaba Cloud (Tongyi Qianwen), схожий на LLaMA2 і являє собою серію моделей різних розмірів (наприклад, 0,5B, 4B, 7B, 14B, 32B, 72B) та різноманітних функцій, включно з чатом, розумінням мови, міркуваннями, математикою та кодуванням. З погляду обробки природної мови (NLP), Qwen можна використовувати для обробки команд, які користувач виконує в повсякденній роботі на комп'ютері. І на відміну від обробки голосових команд, зазвичай доступної в автомобілях, Qwen та інші моделі генеративного AI для чату є багатомовними, точними та не обмежуються певними послідовностями тексту.
Для ефективної роботи Qwen1.5-7B і будь-якого іншого LLM на периферії потрібно, щоб Kinara Ara-2 не тільки генерував прості та складні вихідні текстові підказки зі швидкістю 12 лексем на секунду, а й підтримував три високорівневі функції:
1) можливість агресивного квантування LLM та інших робочих навантажень генеративного AI при збереженні точності, близької до точності з комою, що плаває;
2) надзвичайна гнучкість і здатність виконувати всі оператори LLM, не залежачи від хоста (це включає всі шари моделі та функції активації);
3) достатній обсяг пам'яті та пропускної здатності для ефективної роботи з цими надзвичайно великими нейронними мережами.
"Запуск будь-якої LLM на малопотужному процесорі граничного AI - це вже досягнення, але досягнення 12 вихідних токенів на секунду на LLM із 7 млрд параметрів - це велике досягнення", - каже Ваджахат Кадір (Wajahat Qadeer), головний архітектор Kinara. "Однак найкраще ще попереду, оскільки ми плануємо досягти 15 вихідних маркерів на секунду, застосовуючи передові програмні методи та залишаючи саму модель без змін".
Під час використання як наявних, так і нових LLM, які стають доступними на Hugging Face і в інших місцях, Kinara може швидко вивести ці моделі, використовуючи своє програмне забезпечення і гнучкість архітектури, виконуючи ці моделі з точністю коми, що плаває, водночас забезпечуючи низьке розсіювання енергії цілочисельного процесора. Крім застосунків генеративного AI, платформа Ara-2 здатна обробляти 16-32+ відеопотоків, що надходять на прикордонні сервери для висококласного виявлення, розпізнавання та відстеження об'єктів, використовуючи свої передові обчислювальні механізми для швидкого й точного опрацювання зображень із високою роздільною здатністю. Ara-2 випускається у вигляді окремого пристрою, USB-модуля, модуля M.2 і PCIe-карти з декількома Ara-2.
Стратегія охолодження ЦОД для епохи AI
| 0 |
|

