Meta випускає LLaMA, відкриваючи доступ до великих мовних моделей АІ

27 февраль, 2023 - 14:35
Група прикладних досліджень Facebook AI компанії Meta Platforms публічно випускає нову фундаментальну модель відому як Large Language Model Meta AI або LLaMA.
 
«LLM показали багатообіцяючі результати у створенні тексту, веденні розмов, узагальненні письмового матеріалу та виконанні більш складних завдань, таких як розв'язання математичних теорем або прогнозування білкових структур, - заявив генеральний директор компанії Meta Марк Цукерберг. - Meta прихильна до цієї відкритої моделі досліджень, і ми зробимо нашу нову модель доступною для спільноти дослідників АІ».
 
Досі для навчання та запуску LLM завжди потрібна була надзвичайно потужна обчислювальна інфраструктура, що робило їх недоступними для більшості дослідників. Відкриваючи LLaMA Meta демократизує доступ до програм, які розглядаються як одна з найважливіших і найкорисніших форм штучного інтелекту.
 
Фундаментальні моделі зазвичай навчаються на великих наборах немаркованих даних, що дозволяє їх тонко налаштовувати для різних завдань. LLaMA стає доступною в декількох різних розмірах, від 7 мільярдів до 65 мільярдів параметрів.
 
LLaMA має ще одну перевагу в тому, що він навчається на більшій кількості токенів - частин слів, що полегшує його перенавчання та налаштування для конкретних випадків використання. У випадку LLaMA з 13 мільярдами параметрів, він був навчений на 1 трильйоні токенів. Для порівняння, GPT-3 GPT-3 від OpenAI, яка лежить в основі ChatGPT.
був навчений лише на 300 мільярдах токенів. За словами Meta, це робить LLaMA набагато більш універсальною, здатною застосовуватися в набагато більшій кількості випадків використання, ніж тонко налаштована модель, така як GPT-3, яка була розроблена для більш специфічних завдань.
 
Meta додала, що, надаючи доступ до коду, вона сподівається, що інші дослідники зможуть протестувати нові підходи до обмеження або усунення проблем у великих мовних моделях. Він також надає набір оцінок на основі еталонних показників для оцінки упередженості та токсичності моделей.
 
Meta заявила, що з метою збереження цілісності та запобігання зловживанню LLaMA надається за некомерційною ліцензією, що означає, що вона може бути використана лише в дослідницьких цілях. Доступ до моделі надаватиметься на індивідуальній основі академічним дослідникам, дослідникам, пов'язаним з урядом, громадянським суспільством та академічними організаціями, а також галузевим дослідницьким лабораторіям.