
Останні дні року у когось дуже напружені, а у мене зазвичай дуже спокійні та з'являється час для експериментів. Тому, коли я зустрів новину про українські бенчмарки для LLM, навіть порадів, що якраз є час погратися.
Ukrainian LLM Leaderboard – проєкт спільноти lang-uk для оцінки якості мовних моделей на українських бенчмарках. Лідерборд включає як стандартні тести (MMLU, GSM8K, HellaSwag, ARC), перекладені українською, так і унікальні українські бенчмарки – передусім ЗНО (географія, історія, мова і література, математика).
Наразі перше місце посідає MamayLM-Gemma-3-12B-IT – локалізована версія Gemma 3, дотренована на 75B токенів українських текстів командою INSAIT.
Чесно кажучи, я розумію всі переваги використання локалізації для LLM – дійсно, краще мати правильний токенізатор, власний датасет та інше, але щоразу я бачу такі проєкти, у мене виникає питання – а чи не простіше закидати проблему грошима/потужностями, тобто взяти більшу модель, або навіть дуже велику, яка й датасет матиме більший, та якось з мовою впорається? Тому поглянувши на проєкт, я спробував прогнати бенчмарки на інших моделях.
Лідерборд використовує lm-evaluation-harness з кастомними тасками. Стандартна конфігурація потребує доступу до logprobs моделі, тому тестування через більшість API неможливе.
Я адаптував конфігурацію для роботи з OpenAI-сумісними API, замінивши multiple-choice таски на generate_until з відповідним парсингом відповідей. Це дозволило протестувати моделі, недоступні для локального запуску. Хоча так, це трохи знижує точність та іноді виникають помилки парсингу.
Було протестовано дві моделі:
Результати
| MamayLM-12B | Gemma 27B | Qwen3-30B | |
| MMLU-UK | 64.29% | 68.52% | 62.01% |
| Belebele | 89.89% | 90.89% | 80.00% |
| GSM8K | 67.00% | 65.13% | 44.66% |
| IFEval | 61.18% | 78.30% | 76.98% |
| ARC Easy | 79.76% | 92.01% | 87.61% |
| FLORES (переклад) | 34.2 | 60.71* | 19.90 |
| ЗНО Географія | 85% | 86% | 81% |
| ЗНО Історія | 77% | 75% | 66% |
| ЗНО Мова і літ. | 49% | 47% | 32% |
| ЗНО Математика | 25% | 14% | 4% |
*Результат FLORES для Gemma 3 27B некоректний через проблеми з парсингом
Висновки
Гіпотеза 1: Чи можна взяти більшу LLM та досягти відповідної якості без локалізації?
Так, частково підтверджується. Gemma 3 27B без жодної українськомовної адаптації показує результати на рівні або краще за MamayLM-12B у більшості тестів на reasoning (MMLU, IFEval, ARC). Водночас локалізована модель зберігає перевагу у перекладі (FLORES) та культурноспецифічних завданнях (ЗНО мова і література).
Гіпотеза 2: MoE-архітектура компенсує менший розмір?
Не підтверджується. Qwen3-30B-A3B з 3B активних параметрів програє обом dense-моделям майже у всіх тестах, попри загальну кількість 30B параметрів.
Практичний висновок: Більші за кількістю параметрів моделі краще узагальнюють та краще справляються з задачами на reasoning. Якщо вам важливо, щоб модель мислила та розмовляла саме українською, то альтернативи локалізації немає – навіть більша модель, але без локалізації, буде мислити іншою мовою та виглядати як дуже розумний іноземець, з артефактами з іншої мови. А якщо вам потрібно, щоб модель знала локальні факти, то вони мають бути присутніми в датасеті або доступними через retrieval.