Якщо я зазвичай натякаю, що низка розробників LLM оптимізують свої моделі під оцінки на Chatbot Arena, то автори дослідження від Cohere, Стенфорда, MIT і Ai2 звинувачують LM Arena, організацію, що стоїть за популярним бенчмарком, у наданні переваг обраним AI-компаніям коштом конкурентів.
Згідно з висновками авторів, LM Arena дала змогу деяким провідним компаніям, включно з Meta, OpenAI, Google та Amazon, приватно тестувати кілька варіантів моделей, публікуючи потім тільки результати найкращих. Це давало їм перевагу в потраплянні на верхні рядки рейтингу.
«Лише кільком компаніям повідомили про можливість приватного тестування, і обсяг такого тестування в деяких компаній набагато більший, ніж в інших», – заявила Сара Хукер, віцепрезидентка Cohere з досліджень у сфері AI.
Особливо виділяється Meta, яка змогла приватно протестувати 27 варіантів моделей у період з січня по березень перед випуском Llama 4, але публічно представила тільки одну модель з високим рейтингом.
LM Arena відкидає звинувачення, заявляючи, що дослідження сповнене «неточностей» і «сумнівного аналізу». За їхніми словами, якщо одна компанія вирішує відправити більше моделей на тестування, ніж інша, це не означає несправедливого ставлення. Так собі виправдання, прямо скажемо.