Alibaba представила модель Qwen 2.5-Max AI, яка начебто перевершує DeepSeek-V3

30 январь, 2025 - 11:45

Alibaba Cloud, що є підрозділом хмарних обчислень китайської Alibaba Group, презентувала свою останню модель штучного інтелекту, яка, за її словами, перевершує найпотужніші сучасні моделі штучного інтелекту.

«Ми розробили Qwen 2.5-Max, яка пройшла попереднє навчання на базі MoE на більш ніж 20 трильйонах токенів і подальше пост-навчання за допомогою кураторської методології Supervised Fine-Tuning та Reinforcement Learning from Human Feedback», - йдеться в повідомленні компанії в блозі.

Mixture of experts, або MoE, - це архітектура LLM, яка використовує кілька спеціалізованих моделей, що працюють спільно для більш ефективного вирішення складних завдань відповідно до певної підгрупи експертизи. По суті, це як якщо б команда моделей АІ, кожна з яких навчена досягати успіху в певній підкатегорії знань, працювала разом, щоб об'єднати свою підготовку для відповідей на питання і виконання завдань.

За даними Alibaba, завдяки цій методиці нова модель Qwen перевищила ефективність DeepSeek-V3, випущеної наприкінці грудня, у ключових бенчмарках, включаючи ArenaHard, LiveBench і MMLU-Pro. Компанія також стверджує, що вона перевершила Claude 3.5 Sonnet від Anthropic PBC, GPT-4o від OpenAI та Llama 3.1-401B від Meta Platform Inc.

Архітектура також дозволила компанії побудувати модель з меншим розміром, яка потребує лише 20 трильйонів токенів для навчання. Це дозволяє їй використовувати менше ресурсів при розгортанні і працювати з більшою ефективністю.

На відміну від інших моделей, які були випущені з відкритим кодом, що дозволяє розробникам вільно експериментувати і розширювати, Qwen має закритий формат. Alibaba зробила модель доступною через інтерфейс прикладного програмування через Alibaba Cloud, сумісний з API OpenAI. Вона також доступна через інтерфейс чат-бота, схожий на ChatGPT, на Qwen Chat.