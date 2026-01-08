8 января 2026 г., 10:25

Міністерство цифрової трансформації України ще у 2025 році поставило амбітну ціль - створити українську велику мовну модель. Як заявлено, ця технологія повинна запустити бум АІ-чатів та асистентів для держсервісів і бізнесів. Вони працюватимуть як Gemini та ChatGPT, тільки на базі українських даних.



Зазначається, що Мінцифри вже пройшло шлях від концепції до реальних технічних рішень.



Технічним партнером цього проекту стала компанія «Київстар», яка фінансує та веде розробку, а після фінішу - передасть мовну модель державі.



Фундаментом для української LLM обрали сімейство моделей Gemma від Google.



Зараз триває найважливіша частина роботи - підготовка даних. Це головний виклик, адже якісна українська модель потребує не лише інформації з інтернету, а й глибоких знань з історичних архівів та інших письмових джерел.



Інформація для навчання збирається у державних інституціях, медіа, університетах та наукових закладах. Але значна частина важливих текстів досі існує лише на папері, що вчергове нагадує про потребу загальної цифровізації в країні, відзначили у Мінцифри.



Для незалежного контролю розробки моделі було зібрано комітет експертів, які працюють за чотирма напрямами: науково-технічним, правовим, культурно-історичним та мовним. Їхнє поточне завдання — розробити професійні бенчмарки (систему тестування). Це дозволить переконатися, що модель навчена якісно.



Наголошується, що вже в січні 2026 буде отримано першу базу текстів для тренування мовної моделі. А крім того - покращений токенізатор, який ефективно розбиває слова на елементи. Це дозволить моделі обробляти українську мову швидше та продуктивніше. Також найближчим часом буде розроблено власні бенчмарки для оцінки якості.



Паралельно створюється юридичні правила, щоб робота з даними для моделі була прозорою, безпечною та відповідала вимогам у сфері інтелектуальної власності.



Першу версію моделі планується запустити в бета-тестування вже навесні 2026 року. Вона буде навчена на унікальних даних і зможе конкурувати з іншими моделями у відкритих рейтингах.



Мінцифри також планує у січні обрати ім'я для української LLM, буде проведено голосування в Дії.

