`

СПЕЦІАЛЬНІ
ПАРТНЕРИ
ПРОЕКТУ

Чи використовує ваша компанія ChatGPT в роботі?

BEST CIO

Определение наиболее профессиональных ИТ-управленцев, лидеров и экспертов в своих отраслях

Человек года

Кто внес наибольший вклад в развитие украинского ИТ-рынка.

Продукт года

Награды «Продукт года» еженедельника «Компьютерное обозрение» за наиболее выдающиеся ИТ-товары

 

Alibaba представила модель Qwen 2.5-Max AI, яка начебто перевершує DeepSeek-V3

0 
 
Alibaba Cloud, що є підрозділом хмарних обчислень китайської Alibaba Group, презентувала свою останню  модель штучного інтелекту, яка, за її словами, перевершує найпотужніші сучасні моделі штучного інтелекту.
 
«Ми розробили Qwen 2.5-Max, яка пройшла попереднє навчання на базі MoE на більш ніж 20 трильйонах токенів і подальше пост-навчання за допомогою кураторської методології Supervised Fine-Tuning та Reinforcement Learning from Human Feedback», - йдеться в повідомленні компанії в блозі.
 
Mixture of experts, або MoE, - це архітектура LLM, яка використовує кілька спеціалізованих моделей, що працюють спільно для більш ефективного вирішення складних завдань відповідно до певної підгрупи експертизи. По суті, це як якщо б команда моделей АІ, кожна з яких навчена досягати успіху в певній підкатегорії знань, працювала разом, щоб об'єднати свою підготовку для відповідей на питання і виконання завдань.
 
За даними Alibaba, завдяки цій методиці нова модель Qwen перевищила ефективність DeepSeek-V3, випущеної наприкінці грудня, у ключових бенчмарках, включаючи ArenaHard, LiveBench і MMLU-Pro. Компанія також стверджує, що вона перевершила Claude 3.5 Sonnet від Anthropic PBC, GPT-4o від OpenAI та Llama 3.1-401B від Meta Platform Inc.
 
Архітектура також дозволила компанії побудувати модель з меншим розміром, яка потребує лише 20 трильйонів токенів для навчання. Це дозволяє їй використовувати менше ресурсів при розгортанні і працювати з більшою ефективністю.
 
На відміну від інших моделей, які були випущені з відкритим кодом, що дозволяє розробникам вільно експериментувати і розширювати, Qwen має закритий формат. Alibaba зробила модель доступною через інтерфейс прикладного програмування через Alibaba Cloud, сумісний з API OpenAI. Вона також доступна через інтерфейс чат-бота, схожий на ChatGPT, на Qwen Chat.

Комп’ютерний розум: генеративний штучний інтелект у рішеннях AWS

0 
 

Напечатать Отправить другу

Читайте также

 

Ukraine

 

  •  Home  •  Ринок  •  IТ-директор  •  CloudComputing  •  Hard  •  Soft  •  Мережі  •  Безпека  •  Наука  •  IoT