`

СПЕЦІАЛЬНІ
ПАРТНЕРИ
ПРОЕКТУ

Чи використовує ваша компанія ChatGPT в роботі?

BEST CIO

Определение наиболее профессиональных ИТ-управленцев, лидеров и экспертов в своих отраслях

Человек года

Кто внес наибольший вклад в развитие украинского ИТ-рынка.

Продукт года

Награды «Продукт года» еженедельника «Компьютерное обозрение» за наиболее выдающиеся ИТ-товары

 

IBM анонсувала попередню версію AI-моделі Granite 4.0 Tiny

0 
 

IBM анонсувала попередню версію AI-моделі Granite 4.0 Tiny

Компанія IBM представила спільноті розробників із відкритим вихідним кодом IBM Granite 4.0 Tiny Preview, попередню версію найменшої моделі з майбутнього сімейства мовних моделей Granite 4.0.

Зазначається, Granite 4.0 Tiny Preview надзвичайно компактна й обчислювальне ефективна: за точності FP8 кілька одночасних сесій, що виконують завдання з довгим контекстом (128K), можна запустити на обладнанні споживчого класу, зокрема й на графічних процесорах, які зазвичай доступні за ціною менше ніж $350.

Попри те, що модель навчена лише частково - вона переглянула тільки 2,5 Т із запланованих 15 Т або більше навчальних лексем - вона вже демонструє продуктивність, яку можна порівняти з IBM Granite 3.3 2B Instruct, попри меншу кількість активних параметрів і скорочення вимог до пам'яті приблизно на 72%. Очікується, що до моменту завершення навчання і посттренінгу продуктивність Granite 4.0 Tiny буде на одному рівні з Granite 3.3 8B Instruct.

Як випливає з назви, Granite 4.0 Tiny буде однією з найменших пропозицій у сімействі моделей Granite 4.0. Вона буде офіційно випущена цього літа як частина модельного ряду, до якого також входять Granite 4.0 Small і Granite 4.0 Medium. Granite 4.0 продовжує намір IBM зробити ефективність і практичність наріжним каменем у розробці корпоративних LLM.
IBM анонсувала попередню версію AI-моделі Granite 4.0 Tiny
Попередня версія Granite 4.0 Tiny вже доступна на Hugging Face - хоча поки розробник не рекомендував цю попередню версію для корпоративного використання - під стандартною ліцензією Apache 2.0. Мета IBM - дозволити розробникам навіть з недостатньою кількістю GPU експериментувати і возитися з моделлю на графічних процесорах споживчого класу. Нова архітектура моделі очікує підтримки в трансформаторах Hugging Face і vLLM, яка, як очікується, буде завершена найближчим часом для обох проєктів. Офіційна підтримка локального запуску цієї моделі через партнерів платформи, включно з Ollama і LMStudio, очікується до повного релізу моделі наприкінці цього літа.

Вимоги до пам'яті LLM часто наводяться, в прямому і переносному сенсі, без належного контексту. Недостатньо знати, що модель можна успішно завантажити у ваш графічний процесор (процесори): необхідно знати, що ваше обладнання може працювати з моделлю за тієї довжини контексту, яка потрібна для вашого сценарію використання.

Ба більше, багато корпоративних сценаріїв використання передбачають не поодиноке розгортання моделі, а пакетне опрацювання виводів для кількох паралельних екземплярів. Тому IBM намагається вимірювати та повідомляти вимоги до пам'яті з урахуванням довгих контекстів і одночасних сесій.

Granite 4.0 Tiny - одна з найекономічніших мовних моделей на сьогодні. Навіть при дуже довгих контекстах кілька паралельних екземплярів Granite 4.0 Tiny можуть легко працювати на скромному споживчому GPU.

Якщо в попередніх поколіннях LLM Granite використовували звичайну трансформаторну архітектуру, то у всіх моделях сімейства Granite 4.0 застосовують нову гібридну архітектуру Mamba-2/Transformer, що поєднує швидкість і ефективність Mamba з точністю самообслуговування на основі трансформаторів. Зокрема, Granite 4.0 Tiny Preview - це дрібнозерниста гібридна модель суміші експертів (MoE), що має 7 млрд загальних параметрів і тільки 1 млрд активних параметрів під час виведення.

Багато з інновацій, що лежать в основі архітектури Granite 4, виникли завдяки співпраці IBM Research з творцями Mamba над Bamba, експериментальною гібридною моделлю з відкритим вихідним кодом, спадкоємець якої (Bamba v2) було випущено раніше на цьому тижні.

Mamba - це різновид моделі простору станів (SSM), представлений у 2023 році - приблизно через 6 років після дебюту трансформерів у 2017 році.

Концептуально SSM схожі на рекурентні нейронні мережі (RNN), які домінували в обробці природної мови (NLP) у дотрансформерну епоху. Спочатку вони були розроблені для передбачення наступного стану безперервної послідовності (наприклад, електричного сигналу), використовуючи тільки інформацію з поточного стану, попереднього стану і діапазону можливостей (простору станів). Попри те, що SSM використовують у різних галузях уже кілька десятиліть, вони мають спільні недоліки з RNN, які донедавна обмежували їхній потенціал у моделюванні мови.

На відміну від механізму самоспостереження трансформаторів, звичайні SSM не мають здатності вибірково фокусуватися на певних фрагментах контекстної інформації або ігнорувати їх. Тому 2023 року Альберт Гу (Albert Gu) з Карнегі-Меллона і Трі Дао (Tri Dao) з Принстона представили тип структурованої нейронної мережі з послідовністю просторів станів («S4»), що додає механізм вибору і метод сканування (для ефективності обчислень) - скорочено «S6» - і домоглися результатів моделювання мови, які можна порівняти з трансформаторами. Вони прозвали свою модель «Mamba», тому що, крім іншого, всі ці «S» звучать як шипіння змії.

У 2024 році Гу і Дао випустили Mamba-2, спрощену й оптимізовану реалізацію архітектури Mamba. Не менш важливо, що в їхньому технічному документі було детально описано сумісність між SSM і самонавіюванням.

Основні переваги Mamba порівняно з моделями на основі трансформаторів полягають в ефективності та швидкості.

Трансформатори мають істотну слабкість: обчислювальні вимоги самонавіювання квадратично залежать від контексту. Іншими словами, щоразу, коли довжина контексту подвоюється, механізм уваги не просто використовує вдвічі більше ресурсів - він використовує учетверо більше ресурсів. Це «квадратичне вузьке місце» дедалі більше знижує швидкість і продуктивність у міру зростання контекстного вікна (і відповідного KV-кешу).

І навпаки, обчислювальні потреби Mamba масштабуються лінійно: якщо подвоюється довжина вхідної послідовності, Mamba використовує тільки вдвічі більше ресурсів. Тоді як самоусвідомлення має багаторазово обчислювати релевантність кожної попередньої лексеми кожній новій лексемі, Mamba просто зберігає стисле, фіксованого розміру «резюме» попереднього контексту з попередніх лексем. У міру того як модель «зчитує» кожен новий токен, вона визначає його релевантність, а потім оновлює (або не оновлює) зведення відповідним чином. По суті, тоді як самоусвідомлення зберігає кожен біт інформації, а потім зважує вплив кожного з них на основі їхньої релевантності, Mamba вибірково зберігає тільки релевантну інформацію.

Проте, у більш трудомісткого і надлишкового з погляду обчислень методу трансформації є свої переваги. Наприклад, дослідження засвідчили, що трансформери, як і раніше, випереджають Mamba і Mamba-2 у завданнях, які потребують навчання в контексті (наприклад, підказки в кілька кадрів), копіювання або міркувань у довгому контексті.

На щастя, сильні сторони трансформерів і Mamba не є взаємосуперечливими. В оригінальній статті про Mamba-2 автори Дао і Гу припустили, що гібридна модель може перевершувати за продуктивністю чистий трансформатор або SSM - ця ідея була підтверджена торішнім дослідженням NVIDIA. Для подальшого вивчення цього питання IBM Research співпрацювала з Дао і Гу, а також з Мінджіа Чжаном (Minjia Zhang) з Іллінойського університету в Урбані-Шампейні (UIUC) у роботі над Bamba і Bamba V2. Bamba, зі свого боку, стала основою для багатьох архітектурних елементів Granite 4.0.

В архітектурі MoE Granite 4.0 використовується 9 блоків Mamba на кожен блок трансформатора. По суті, механізми селективності блоків Mamba ефективно захоплюють глобальний контекст, який потім передають блокам-трансформерам, які дають змогу більш тонко аналізувати локальний контекст. У результаті значно знижується споживання пам'яті та час очікування без видимого збитку для продуктивності.

Granite 4.0 Tiny подвоює цей виграш в ефективності, реалізуючи його в межах компактної, дрібнозернистої суміші експертів (MoE), яка складається з 7 млрд загальних параметрів і 64 експертів, що дає 1 млрд активних параметрів у момент виведення.

Одним із найбільш привабливих аспектів мовних моделей на основі SSM є теоретична можливість роботи з нескінченно довгими послідовностями. Але через практичні обмеження слово «теоретична» зазвичай означає «важка робота».

Одне з таких обмежень, особливо для гібридних SSM-моделей, пов'язане з позиційним кодуванням (PE), використовуваним для подання інформації про порядок слів. PE додає обчислювальні кроки, і дослідження показали, що моделі, які використовують такі методи PE, як позиційне кодування, що обертається (RoPE), насилу узагальнюють послідовності довші за ті, які вони бачили в процесі навчання.

В архітектурі Granite 4.0 не використовується позиційне кодування (NoPE). Як показали випробування, це не мало негативного впливу на продуктивність під час роботи з довгими контекстами. Наразі вже підтверджено продуктивність Tiny Preview під час роботи з довгим контекстом щонайменше на 128 тис. лексем, і очікується, що до моменту завершення навчання та посттренінгу модель продемонструє аналогічну продуктивність на контекстах значно більшої довжини. Варто зазначити, що ключовою проблемою в остаточному підтвердженні продуктивності на завданнях на околицях контексту завдовжки 1 млн токенів є брак відповідних наборів даних.

Іншим практичним обмеженням на довжину контексту Mamba є обчислювальна потужність. Лінійне масштабування краще, ніж квадратичне, але в кінцевому підсумку це все одно збільшується. І тут у Granite 4.0 Tiny є дві ключові переваги:

- На відміну від PE, NoPE не додає жодного додаткового обчислювального навантаження на механізм уваги в шарах трансформації моделі.

- Granite 4.0 Tiny надзвичайно компактний і ефективний, залишаючи достатньо апаратного простору для лінійного масштабування.

Простіше кажучи, сама архітектура Granite 4.0 MoE не накладає жодних обмежень на довжину контексту. Вона може бути настільки довгою, наскільки це дозволяє обладнання.

Наразі триває попереднє навчання Granite 4.0 Tiny. Розробники планують застосувати до нових моделей напрацювання, отримані під час посттренінгового навчання Granite 3.3, особливо щодо можливостей міркування і виконання складних інструкцій. Як і його попередники Granite 3.2 і Granite 3.3, Granite 4.0 Tiny Preview пропонує функції увімкнення і вимкнення мислення (хоча його посттренінг, орієнтований на міркування, ще не завершено).

Kingston повертається у «вищу лігу» серверних NVMe SSD

0 
 

Напечатать Отправить другу

Читайте также

 

Ukraine

 

  •  Home  •  Ринок  •  IТ-директор  •  CloudComputing  •  Hard  •  Soft  •  Мережі  •  Безпека  •  Наука  •  IoT