Дослідницький проєкт OpenGPT-X випускає багатомовну LLM з відкритим вихідним кодом

У рамках дослідницького проєкту OpenGPT-X на сайті Hugging Face стала доступна для звантаження велика мовна модель «Teuken-7B». Велика мовна модель (LLM) була навчена з нуля на всіх 24 офіційних мовах Європейського союзу і містить 7 млрд параметрів.

Дослідники й компанії можуть використовувати цю комерційно придатну модель з відкритим вихідним кодом для своїх додатків AI. Фінансований Федеральним міністерством економіки та клімату Німеччини (BMWK), консорціум OpenGPT-X, очолюваний Інститутами інтелектуального аналізу та інформаційних систем IAIS і інтегральних схем IIS Фраунгофера, розробив LLM з відкритим вихідним кодом та з яскраво вираженою європейською перспективою.

Модель уже оптимізована для чату за допомогою «налаштування інструкцій», яке використовується для адаптації LLM до правильного сприйняття інструкцій від користувачів. Це важливо під час використання моделей на практиці, наприклад, у чат-додатку.

«Модель Teuken-7B перебуває у вільному доступі та є публічною, заснованою на дослідженнях альтернативою для використання в академічних і промислових колах», - каже професор Стефан Вробель (Stefan Wrobel), директор Fraunhofer IAIS. «Наша модель продемонструвала свої можливості широким спектром мов, і ми сподіваємося, що якомога більше людей адаптуватимуть і розвиватимуть модель для своїх власних робіт і застосувань. Таким чином, ми хочемо зробити свій внесок, як у рамках наукового товариства, так і спільно з компаніями з різних галузей, у висхідний попит на прозорий генеративний AI, який можна налаштувати, та генеративний AI, який можна прозоро налаштовувати».

Teuken-7B наразі є однією з небагатьох великих мовних моделей, розроблених з нуля кількома мовами. Вона містить близько 50% неанглійських даних для попереднього навчання і була навчена на всіх 24 офіційних європейських мовах. LLM довела свою стабільність і надійність у роботі різними мовами. Це дає додаткові переваги, особливо для міжнародних компаній та організацій з багатомовними вимогами до комунікації, продуктів і послуг. Модель із відкритим вихідним кодом дає змогу компаніям і організаціям використовувати свої власні моделі в реальних додатках, при цьому конфіденційні корпоративні дані можуть залишатися всередині компанії.

Команда OpenGPT-X також розв'язала низку дослідницьких питань, наприклад, як навчати й експлуатувати багатомовні мовні моделі AI більш енерго- та економічно ефективним способом. Для цього в рамках проєкту було розроблено багатомовний «токенізатор». Завдання токенізатора полягає в розбитті слів на окремі компоненти - що менше токенів, то більш енергоефективно і швидко мовна модель може генерувати відповідь. Розроблений токенізатор дає змогу знизити витрати на навчання порівняно з іншими багатомовними токенізаторами, такими як Llama3 або Mistral. Це особливо цінно для європейських мов з довгими структурами слів, таких як німецька, фінська або угорська.

Проєкт OpenGPT-X фінансується програмою BMWK «Інноваційні та практичні додатки та простори даних у цифровій екосистемі Gaia-X». Доступ до Teuken-7B LLM здійснюється через інфраструктуру Gaia-X. Таким чином, учасники екосистеми Gaia-X можуть розробляти інноваційні мовні додатки та переносити їх у конкретні сценарії застосування у своїх галузях. На відміну від наявних хмарних рішень, Gaia-X являє собою федеративну екосистему, яка дає змогу підключатися постачальникам послуг і власникам даних. Дані зберігаються у своїх власників і надаються тільки на певних умовах.

«Особливістю Teuken-7B LLM є можливість безпечного використання конфіденційних корпоративних даних, оскільки стандарти Gaia-X гарантують зберігання та обробку даних відповідно до найсуворіших європейських норм захисту даних і безпеки. Ця нова модель і подібні інновації зміцнюють цифровий суверенітет, конкурентоспроможність і стійкість Німеччини та всієї Європи. Саме тому Федеральне міністерство економіки та кліматичних заходів фінансує проєкт на загальну суму близько 14 млн євро», - каже д-р Франциска Брантнер (Franziska Brantner), парламентський статс-секретар BMWK.

Професор Бернхард Грілл (Bernhard Grill), директор Fraunhofer IIS, пояснює потенціал проєкту для критично важливих додатків: «За допомогою цієї самостійно розробленої мовної моделі партнери за проєктом демонструють свою здатність генерувати власні великі моделі. Доступ до великої мовної моделі дає змогу створювати додатки, які забезпечують набагато більший контроль над цією технологією без необхідності використання непрозорих сторонніх компонентів - наприклад, у таких критично важливих для безпеки галузях, як автомобілебудування, робототехніка, медицина і фінанси. Навчаючись на даних, що належать до конкретного застосунку, і використовуючи архітектури, орієнтовані на конкретні застосунки, компанії можуть створювати спеціалізований AI, який не потребує компонентів «чорного ящика»».

У розробку моделі було включено важливі результати досліджень проєкту OpenGPT-X, як-от інструменти та технології для обробки великих обсягів даних, використання потужної європейської інфраструктури високопродуктивних обчислень і ефективного навчання моделі. Модель Teuken-7B було навчено на суперкомп'ютері JUWELS у Форшунгсцентрі Юліх. Крім двох інститутів Фраунгофера і Форшунгсцентру Юліх, партнерами консорціуму є TU Dresden, Німецький дослідницький центр штучного інтелекту (DFKI), IONOS, Aleph Alpha, ControlExpert, Westdeutscher Rundfunk (WDR) і Німецька асоціація штучного інтелекту (KI Bundesverband). Технологія, розроблена в OpenGPT-X, також послужить партнерам основою для навчання їхніх власних моделей у майбутньому.

«OpenGPT-X - це приклад того, як ресурси проєкту, що фінансується державою, і спільні зусилля широкого консорціуму можуть забезпечити цінні базові технології - від базової інфраструктури до навчання моделей і продуктивних застосунків. В інтересах технології та суверенітету даних важливо розвивати цей фундамент: ми сподіваємося, що OpenGPT-X закладе основу для багатьох наступних заходів», - підкреслює Даніель Аббу (Daniel Abbou), керівник Німецької асоціації AI та президент Європейського форуму AI.

Модель Teuken-7B LLM перебуває у вільному доступі у двох версіях - одній для дослідницьких цілей і версії з ліцензією «Apache 2.0», яку можуть використовувати компанії як для дослідницьких, так і для комерційних цілей та інтегрувати в їхні власні додатки AI. Продуктивність двох моделей приблизно порівнянна, але деякі набори даних, використані для налаштування інструкцій, не допускають комерційного використання, тому їх не було використано у версії Apache 2.0.

Дослідницький проєкт, що стартував на початку 2022 року, наближається до завершення. Він триватиме до 31 березня 2025 року, щоб можна було провести подальшу оптимізацію та оцінку моделей.

Стратегія охолодження ЦОД для епохи AI

Чи використовує ваша компанія ChatGPT в роботі?

Колонка

BEST CIO

Человек года

Продукт года

Попередня новина

До підприємств, що імпортують понад 60% електроенергії, обмеження не будуть застосовуватись

Наступна новина

Світові поставки систем друку зросли на 3,8% у ІІІ кв.

Читайте также

Останні обговорення

ТОП-новости

ТОП-блоги

ТОП-статьи