Українську LLM тренуватимуть на моделі Gemma 3 від Google

1 декабрь, 2025 - 14:41

Міністерство цифрової трансформації разом з Київстаром обрали велику мовну модель, на якій тренуватимуть національну українську LLM, – нею стане Gemma 3 від Google. Вона стане базою для стратегічного розвитку AI в Україні. Адже якість і безпека держсервісів залежать від того, наскільки якісною є LLM.

Українська LLM створюється на базі загальнодоступної open-source-моделі. Головне завдання в розробці – попередньо навчити її на відповідних унікальних даних. При виборі орієнтиром було те, наскільки якісно модель вже опрацьовує тексти українською мовою та її контрольованість під час навчання. Це допоможе мінімізувати лінгвістичні та етичні ризики.

Вибрану модель адаптують до української мови, зокрема планується: вдосконалити український токенайзер – це покращить роботу моделі з українською мовою, зменшить помилки при створенні україномовних текстів та оптимізує обчислювальні витрати при використанні моделі; донавчити модель на унікальних україномовних текстах, які зараз збирають експерти; створити тести для більш точного налаштування моделі для подальшого використання.

Вибір Gemma забезпечує оптимальний баланс між продуктивністю та ресурсами, а також високу якість навчання української LLM. Модель підтримує понад 140 мов, включно з українською, має до 128 тис. токенів, мультимодальні можливості та гнучку архітектуру, що дозволяє адаптувати її під різні завдання.

Gemma вже продемонструвала чудові результати як базова модель для MamayLM та Lapa LLM – перших і наразі найкращих українських LLM, а також для INSAIT BgGPT – сучасної LLM для болгарської мови.