Схоже національна LLM таки має сенс

9 январь, 2026 - 17:25Sergey Petrenko

Останні дні року у когось дуже напружені, а у мене зазвичай дуже спокійні та з'являється час для експериментів. Тому, коли я зустрів новину про українські бенчмарки для LLM, навіть порадів, що якраз є час погратися.

Ukrainian LLM Leaderboard – проєкт спільноти lang-uk для оцінки якості мовних моделей на українських бенчмарках. Лідерборд включає як стандартні тести (MMLU, GSM8K, HellaSwag, ARC), перекладені українською, так і унікальні українські бенчмарки – передусім ЗНО (географія, історія, мова і література, математика).

Наразі перше місце посідає MamayLM-Gemma-3-12B-IT – локалізована версія Gemma 3, дотренована на 75B токенів українських текстів командою INSAIT.

Чесно кажучи, я розумію всі переваги використання локалізації для LLM – дійсно, краще мати правильний токенізатор, власний датасет та інше, але щоразу я бачу такі проєкти, у мене виникає питання – а чи не простіше закидати проблему грошима/потужностями, тобто взяти більшу модель, або навіть дуже велику, яка й датасет матиме більший, та якось з мовою впорається? Тому поглянувши на проєкт, я спробував прогнати бенчмарки на інших моделях.

Лідерборд використовує lm-evaluation-harness з кастомними тасками. Стандартна конфігурація потребує доступу до logprobs моделі, тому тестування через більшість API неможливе.

Я адаптував конфігурацію для роботи з OpenAI-сумісними API, замінивши multiple-choice таски на generate_until з відповідним парсингом відповідей. Це дозволило протестувати моделі, недоступні для локального запуску. Хоча так, це трохи знижує точність та іноді виникають помилки парсингу.

Було протестовано дві моделі:

  • Gemma 3 27B IT – більша модель від Google у порівнянні з лідером, але не локалізована
  • Qwen3-30B-A3B – MoE-модель з 30B параметрів, але лише 3B активних

Результати

  MamayLM-12B Gemma 27B Qwen3-30B
MMLU-UK 64.29% 68.52% 62.01%
Belebele 89.89% 90.89% 80.00%
GSM8K 67.00% 65.13% 44.66%
IFEval 61.18% 78.30% 76.98%
ARC Easy 79.76% 92.01% 87.61%
FLORES (переклад) 34.2 60.71* 19.90
ЗНО Географія 85% 86% 81%
ЗНО Історія 77% 75% 66%
ЗНО Мова і літ. 49% 47% 32%
ЗНО Математика 25% 14% 4%

*Результат FLORES для Gemma 3 27B некоректний через проблеми з парсингом

Висновки

Гіпотеза 1: Чи можна взяти більшу LLM та досягти відповідної якості без локалізації?

Так, частково підтверджується. Gemma 3 27B без жодної українськомовної адаптації показує результати на рівні або краще за MamayLM-12B у більшості тестів на reasoning (MMLU, IFEval, ARC). Водночас локалізована модель зберігає перевагу у перекладі (FLORES) та культурноспецифічних завданнях (ЗНО мова і література).

Гіпотеза 2: MoE-архітектура компенсує менший розмір?

Не підтверджується. Qwen3-30B-A3B з 3B активних параметрів програє обом dense-моделям майже у всіх тестах, попри загальну кількість 30B параметрів.

Практичний висновок: Більші за кількістю параметрів моделі краще узагальнюють та краще справляються з задачами на reasoning. Якщо вам важливо, щоб модель мислила та розмовляла саме українською, то альтернативи локалізації немає – навіть більша модель, але без локалізації, буде мислити іншою мовою та виглядати як дуже розумний іноземець, з артефактами з іншої мови. А якщо вам потрібно, щоб модель знала локальні факти, то вони мають бути присутніми в датасеті або доступними через retrieval.

Схоже національна LLM таки має сенс