Chatbot Arena підіграє окремим розробникам LLM?

2 май, 2025 - 16:25Sergey Petrenko

Якщо я зазвичай натякаю, що низка розробників LLM оптимізують свої моделі під оцінки на Chatbot Arena, то автори дослідження від Cohere, Стенфорда, MIT і Ai2 звинувачують LM Arena, організацію, що стоїть за популярним бенчмарком, у наданні переваг обраним AI-компаніям коштом конкурентів.

Згідно з висновками авторів, LM Arena дала змогу деяким провідним компаніям, включно з Meta, OpenAI, Google та Amazon, приватно тестувати кілька варіантів моделей, публікуючи потім тільки результати найкращих. Це давало їм перевагу в потраплянні на верхні рядки рейтингу.

«Лише кільком компаніям повідомили про можливість приватного тестування, і обсяг такого тестування в деяких компаній набагато більший, ніж в інших», – заявила Сара Хукер, віцепрезидентка Cohere з досліджень у сфері AI.

Особливо виділяється Meta, яка змогла приватно протестувати 27 варіантів моделей у період з січня по березень перед випуском Llama 4, але публічно представила тільки одну модель з високим рейтингом.

LM Arena відкидає звинувачення, заявляючи, що дослідження сповнене «неточностей» і «сумнівного аналізу». За їхніми словами, якщо одна компанія вирішує відправити більше моделей на тестування, ніж інша, це не означає несправедливого ставлення. Так собі виправдання, прямо скажемо.

Chatbot Arena підіграє окремим розробникам LLM?