Samba-1 - велика мовна модель із трильйоном параметрів

8 марта 2024 г., 13:35

За повідомленням SambaNova, створена і попередньо навчена компанією модель штучного інтелекту під назвою Samba-1 підтримує трильйон параметрів. Ця платформа призначена для підприємств, щоб вони могли налаштовувати її на основі своїх власних даних без необхідності ставити під загрозу їхню безпеку.

Зазначається, що особливість Samba-1 полягає в тому, що це колекція невеликих моделей, об'єднаних за допомогою методики, яку SambaNova називає Composition of Experts (CoE). SambaNova відібрала 54 моделі або "експерта" із загальним числом параметрів 1,3 трильйона. Модель-маршрутизатор вирішує, до якого експерта спрямувати запитання залежно від його змісту. Ідея полягає в тому, щоб використовувати для отримання відповідей дрібніші індивідуальні моделі, кожна з яких навчена для вирішення різних завдань, а не створювати одну гігантську модель для відповіді на будь-який тип запиту. Наприклад, одна експертна модель може бути навчена генерувати код, інша - перетворювати текст на SQL, а третя - генерувати текст для допомоги в написанні електронних листів.

"CoE дає нам змогу обирати будь-яку кількість моделей із будь-якою архітектурою, але те, що ми зробили для Samba-1, - це ще чіткіше визначення того, як отримати потрібні моделі, які справді хочуть використовувати клієнти", - каже CEO SambaNova Родріго Лян (Rodrigo Liang). "У HuggingFace для Llama2 є 10 000 контрольних точок, а в Mistral - 5000. Ми переглянули всі різні моделі, щоб вибрати найкращі, найбільш застосовні для підприємств, а потім оптимізували їх на одній кінцевій точці".

Перевага моделі CoE полягає в тому, що, хоча вся Samba-1 може зберігатися в кеші, для кожного висновку потрібно обчислити тільки частину всієї моделі (тільки маршрутизатор і одну експертну модель), що значно знижує апаратне навантаження.

"Для кожної підказки не потрібно зчитувати 1,3 трильйона параметрів, достатньо вибрати 7 мільярдів, які мають найбільший сенс, тож для отримання більш точного результату з набагато більшою пропускною спроможністю та меншою затримкою, а також при менших витратах і потужності нам потрібно зчитувати меншу кількість параметрів", - додав Ляна. За його словами, сьогодні 80% обчислювальних витрат на розгорнуті моделі AI на підприємствах пов'язані з висновками.

"Сьогодні багато людей все ще займаються навчанням, тому що ми перебуваємо на ранній стадії, але починаємо бачити, як деякі великі гравці стикаються з витратами на обчислення", - зазначив Родріго Лян. "Роблячи це таким чином, у складі експертів, з повним стеком, включно зі SN40L, ми можемо взяти ці 80% і перетворити їх на 8%".

Клієнти можуть точно налаштувати окремі експертні моделі на власних даних або додати нових експертів, якщо забажають. Додавання більшої кількості експертів збільшує загальну модель, але не призводить до значного збільшення обсягу обчислень, необхідних для висновків, оскільки окремі експерти використовуються для отримання конкретних відповідей. За словами Ляна, експертів також можна видаляти з Samba-1, якщо це необхідно.

"Якщо є певні моделі, які ви вважаєте не настільки корисними, і ви не хочете займати місце в DRAM, можна замінити їх на інші, які більше подобаються", - сказав він. "Це чудовий спосіб підтримувати останні та найкращі моделі".

Родріго Лян пояснив, що призначені для користувача, тонко налаштовані версії Samba-1 належать замовнику на вічній основі; якщо замовник не продовжить передплату на обладнання, він зможе використовувати свої моделі в іншому місці.

Знаменита модель GPT-4 від OpenAI є пропрієтарною, тому її розмір і структура тримаються в найсуворішому секреті. Однак більшість припущень свідчить про те, що GPT-4 заснована на структурі під назвою Mixture of Experts (MoE), що складається з восьми або 16 експертів, кожен з яких має розмір у кілька сотень мільярдів параметрів. У моделях MoE кожен експерт є шаром загальної моделі, а не самостійною повноцінною моделлю. Це означає, що всі експерти в MoE повинні бути навчені на всіх даних, що може бути несумісно з вимогами безпеки корпоративних даних, а також ускладнює додавання і видалення експертів. Крім того, складніше керувати контролем доступу користувачів до конкретних експертів, оскільки їх важче розділити.

Ще одна перевага використання експертів, навчених на різних наборах даних, полягає в тому, що, хоча маршрутизатор сам обирає експерта, який відповідатиме на те чи інше запитання, користувачі можуть використовувати підказки, щоб дізнатися думку інших експертів для порівняння. На думку Родріго Ляна, це може допомогти у розв'язанні проблем, пов'язаних з упередженістю і галюцинаціями. Він додав, що хоча Samba-1 може бути розгорнута "де завгодно", 90% клієнтів зацікавлені в локальному розгортанні, тому що "чесно кажучи, у них немає інших альтернатив, як включити свої приватні дані в AI".