Як повідомляє Reuters, китайський розробник штучного інтелекту DeepSeek оголосив про випуск своєї останньої «експериментальної» великої мовної моделі, яка, за заявою компанії, є ефективнішою в навчанні та краще обробляє довгі послідовності тексту, ніж її попередні версії.
Компанія, що базується в Ханчжоу, назвала модель DeepSeek-V3.2-Exp «проміжним кроком до нашої архітектури нового покоління», про що йдеться у повідомленні на форумі для розробників Hugging Face.
Ця нова архітектура, ймовірно, стане найважливішим продуктом DeepSeek після того, як попередні версії — V3 та R1 — викликали значний резонанс у Кремнієвій Долині та серед світових технологічних інвесторів.
Модель V3.2-Exp включає механізм під назвою DeepSeek Sparse Attention, який, за твердженням китайської фірми, може значно зменшити обчислювальні витрати та водночас підвищити продуктивність моделі. У понеділок DeepSeek також повідомила у соцмережі X, що знижує ціни на свій API (інтерфейс програмування додатків) на «50%+».
Хоча очікується, що майбутня архітектура нового покоління від DeepSeek навряд чи спричинить такий ринковий шок, як попередні випуски в січні, вона все одно може створити значний тиск як на локальних конкурентів (наприклад, Alibaba Qwen), так і на американськитх, зокрема OpenAI. Для цього компанії необхідно буде повторити успіх DeepSeek R1 та V3, продемонструвавши високу ефективність і можливості, доступні за значно меншу вартість навчання та використання, ніж та, яку пропонують конкуренти.
Стратегія охолодження ЦОД для епохи AI