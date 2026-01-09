|0
Останні дні року у когось дуже напружені, а у мене зазвичай дуже спокійні та з'являється час для експериментів. Тому, коли я зустрів новину про українські бенчмарки для LLM, навіть порадів, що якраз є час погратися.
Ukrainian LLM Leaderboard – проєкт спільноти lang-uk для оцінки якості мовних моделей на українських бенчмарках. Лідерборд включає як стандартні тести (MMLU, GSM8K, HellaSwag, ARC), перекладені українською, так і унікальні українські бенчмарки – передусім ЗНО (географія, історія, мова і література, математика).
Наразі перше місце посідає MamayLM-Gemma-3-12B-IT – локалізована версія Gemma 3, дотренована на 75B токенів українських текстів командою INSAIT.
Чесно кажучи, я розумію всі переваги використання локалізації для LLM – дійсно, краще мати правильний токенізатор, власний датасет та інше, але щоразу я бачу такі проєкти, у мене виникає питання – а чи не простіше закидати проблему грошима/потужностями, тобто взяти більшу модель, або навіть дуже велику, яка й датасет матиме більший, та якось з мовою впорається? Тому поглянувши на проєкт, я спробував прогнати бенчмарки на інших моделях.
Лідерборд використовує lm-evaluation-harness з кастомними тасками. Стандартна конфігурація потребує доступу до logprobs моделі, тому тестування через більшість API неможливе.
Я адаптував конфігурацію для роботи з OpenAI-сумісними API, замінивши multiple-choice таски на generate_until з відповідним парсингом відповідей. Це дозволило протестувати моделі, недоступні для локального запуску. Хоча так, це трохи знижує точність та іноді виникають помилки парсингу.
Було протестовано дві моделі:
- Gemma 3 27B IT – більша модель від Google у порівнянні з лідером, але не локалізована
- Qwen3-30B-A3B – MoE-модель з 30B параметрів, але лише 3B активних
Результати
|MamayLM-12B
|Gemma 27B
|Qwen3-30B
|MMLU-UK
|64.29%
|68.52%
|62.01%
|Belebele
|89.89%
|90.89%
|80.00%
|GSM8K
|67.00%
|65.13%
|44.66%
|IFEval
|61.18%
|78.30%
|76.98%
|ARC Easy
|79.76%
|92.01%
|87.61%
|FLORES (переклад)
|34.2
|60.71*
|19.90
|ЗНО Географія
|85%
|86%
|81%
|ЗНО Історія
|77%
|75%
|66%
|ЗНО Мова і літ.
|49%
|47%
|32%
|ЗНО Математика
|25%
|14%
|4%
*Результат FLORES для Gemma 3 27B некоректний через проблеми з парсингом
Висновки
Гіпотеза 1: Чи можна взяти більшу LLM та досягти відповідної якості без локалізації?
Так, частково підтверджується. Gemma 3 27B без жодної українськомовної адаптації показує результати на рівні або краще за MamayLM-12B у більшості тестів на reasoning (MMLU, IFEval, ARC). Водночас локалізована модель зберігає перевагу у перекладі (FLORES) та культурноспецифічних завданнях (ЗНО мова і література).
Гіпотеза 2: MoE-архітектура компенсує менший розмір?
Не підтверджується. Qwen3-30B-A3B з 3B активних параметрів програє обом dense-моделям майже у всіх тестах, попри загальну кількість 30B параметрів.
Практичний висновок: Більші за кількістю параметрів моделі краще узагальнюють та краще справляються з задачами на reasoning. Якщо вам важливо, щоб модель мислила та розмовляла саме українською, то альтернативи локалізації немає – навіть більша модель, але без локалізації, буде мислити іншою мовою та виглядати як дуже розумний іноземець, з артефактами з іншої мови. А якщо вам потрібно, щоб модель знала локальні факти, то вони мають бути присутніми в датасеті або доступними через retrieval.
Схоже національна LLM таки має сенс
