Китайська AI-революція з DeepSeek R1

Про нещодавній реліз DeepSeek і так звану китайську AI-революцію, чим усе це може закінчитися, а точніше навпаки – початися. Отже, минулого тижня китайський AI-проєкт DeepSeek представив свою нову, так звану модель міркування (reasoning model), під кодовою назвою R1. Насправді компанія не перший рік відома своїми AI-моделями, і буквально тільки в грудні вони представили V3. То була звичайна модель, тобто така, що не міркує, але саме на її базі побудовано R1.

З випуском R1 DeepSeek опублікувала статтю – які методи вони використовували і як змогли домогтися таких результатів. А стандартні тести – математичні та інші, показують, що модель R1 здебільшого працює приблизно на рівні флагманської о1 від OpenAI, а то й не гірше о1 Pro. За моїми першими враженнями все не зовсім вже так добре. Однак DeepSeek дають абсолютно безплатний доступ до своєї моделі, наприклад, через вебінтерфейс. Крім того, доступ через API у них у рази дешевший, ніж з о1. У той час, як OpenAI о1 Pro взагалі недоступна через API.

Ба більше, DeepSeek ще й нібито серйозно заощадили при створенні своєї моделі R1. Якщо про OpenAI відомо, що вони витрачають мало не сотні мільйонів доларів на одне навчання моделі, а в Meta – вартість навчання LLAMA 405B склала близько 60 млн дол., то в DeepSeek навчання однієї з моделей нібито обійшлося в 5,6 млн дол.

Причому оскільки це китайська компанія, і вона підпадає під обмеження в галузі експорту, доступу до новітніх прискорювачів Nvidia у них немає. Тому тренували вони свій AI чи то на A100 (передостання модель), чи то на H800 (вдвічі урізана спеціально для китайського ринку H100). Загалом, не дуже зрозуміло, на чому саме вони тренувалися, але всі впевнені, що DeepSeek це обійшлося в якісь зовсім смішні гроші.

Тепер кілька слів про модель R1. Reasoning-моделі будуються на базі наявних звичайних мовних LLM. У цьому випадку за основу взято V3. Також у статті описується методика навчання, що тривало два місяці. І для цього DeepSeek використовували розробки, які вже так чи інакше реалізовано в інших моделях для міркування на кшталт тієї ж o1.

Шляхом чого ж заощадили в DeepSeek? Стандартний процес донавчання AI-моделі міркувати включає кілька ресурсомістких процесів. Тому що, як правило, використовується тонке налаштування моделі (fine-tune). Причому supervised fine-tune (SFT) технічно виглядає приблизно так. Велика кількість людей ретельно готують набір даних (data set) для налаштування моделі, щоб вона спеціалізувалася і вчилася міркувати. У модель впроваджують так званий Chain Prompting – уміння будувати ланцюжки міркувань. Плюс використовується процес RLHF (Reinforcement Learning with Human Feedback), коли система, навчаючись на датасеті, отримує ще й зворотний зв'язок від людей, і це або асесори, або анотатори, які оцінюють результат роботи моделі. Таким чином, система, отримуючи ці оцінки в процесі навчання, починає будувати залежності, вчиться розуміти взаємозалежності й будувати більш правильні ланцюжки міркувань. Крім того, вона вчиться ще й процесу анотації – оцінки своїх висновків. Тому що надалі, на етапі інференсу (тобто коли настає час застосування цієї моделі), вона генерує якусь кількість способів вирішення і сама ж їх оцінює, наскільки вони близькі до ідеального.

Заощадили в DeepSeek на тому, що вони спочатку навчили модель під назвою R1.0, у якій жодного human feedback не було в принципі, і жодного SFT також. Тобто етап fine-tuning був відсутній. Вони просто взяли модель і піддали її reinforcement learning – змусили її будувати ланцюжки міркувань і якось їх собі оцінювати.

Модель, як зазначається в статті, показувала нестабільні стартові стани. Оскільки спочатку вона не вміє формулювати відповіді й правильно будувати ланцюжки, то видає досить багато абсурдних ідей і неправильно їх оцінює. Потім уже модель починає більш-менш навчатися і якось приходити до тями. Щоб уникнути проблеми холодного старту без навчальної частини, вони використовували R1. Це ніби похідна модель, тобто наступна стадія розвитку. R1 все-таки навчена на якомусь мінінаборі правильних міркувань. Тобто етап SFT все ж таки був присутній, але дуже невеликий.

Грубо кажучи, це як різниця між few-shots learning, коли ви даєте кілька прикладів, і повним fine-tuning. Єдине, чим некоректне таке порівняння, це те, що few-shots не призводить до перебудови ваг моделі. А тут все-таки є деяке донавчання на невеликій кількості прикладів. Внаслідок чого модель принаймні навчається, який вигляд має мати ланцюжок, що треба виділяти тегами thing, і після цього вона починає навчатися успішніше.

Що стосується вартості, повторюся, публічних даних на цю тему немає. Але зрозуміло, що виключення з процесу великої кількості людей, які займаються розробкою великого датасету й анотуванням результатів, тобто тим самим human feedback, уже сильно спрощує процес.

Крім того, очевидно, розробники застосували велику кількість якихось дрібних оптимізацій. Виглядає, звісно, як прекрасна технологічна казка, коли розробників поставили в складні умови. Але голь на вигадки хитра і вони вдало викрутилися.

Насправді складно зрозуміти скільки в цьому правди. Але треба згадати, що самі ці хлопці до 2023 року, здається, були підрозділом розробки одного китайського хедж-фонду, який створив на основі AI модель для популярного останніми роками квантрейдингу. І ось у них був, так би мовити pet-project. І можливо це також частково пояснює результат. Тому що в подібних розробках дуже важливі різні дрібні оптимізації. У книзі Майкла Ювіса Flash Boys про HFT (High Frequency Trading) наводяться приклади, коли кабель з одного ЦОДа в інший прокладався так, щоб він весь час йшов прямою лінією – втрата навіть однієї наносекунди може позначитися на прибутках хедж-фондів, що займаються HFT. Приблизно такі й тут можуть бути рівні оптимізації, шляхом яких вдалося «зрізати кути» і домогтися досить хороших результатів без значних вкладень. У всякому разі, на перший погляд, модель працює не гірше за найкрутішу модель, яку довго навчали на дуже дорогому залізі. Тим паче з урахуванням чуток, що майбутня GPT-5, під кодовою назвою Orion, уже двічі невдало проходила період тестового навчання, який триває 6 місяців і вже обійшовся в 500 млн дол. А тут ось така чудова модель, яка за малу частку цих усіх шалених витрат уже навчена і на вигляд працює непогано.

Є звісно свої обмеження. Наприклад, думає вона китайською, плюс впізнає англійську. Тому якщо поставити запитання якоюсь іншою мовою, є шанс отримати у відповідь суміш букв та ієрогліфів. Системі на це все начхати. Для неї ієрогліф – це приблизно як деякі люди активно англіцизми в мові використовують. Так ось ця модель висловлюється – сумішшю мов. Але при цьому страждає також якість відповідей, якщо запитання ставити не англійською. Хоча англійською вона відповідає досить непогано, якщо порівнювати та запитувати одне й те саме в OpenAI o1 Pro і власне R1. При цьому o1 Pro думає в рази довше, ніж R1. Однак, мабуть, і краще, тому відповіді часто детальніші та зрозуміліші.

У чому ще полягає, так би мовити, революція DeepSeek? Це модель із відкритими вагами. Багато хто каже, що вона open-source. Але ні, вона все-таки open-weight. Тому що китайці не відкривають ні навчальну вибірку, ні код, який навчає і який відповідає за inference. Тим часом її дійсно можна завантажити. Вона, щоправда, дуже велика, у неї 671 млрд параметрів. Це багато. Щоб запустити R1 у себе, знадобиться побудувати кластер із приблизно восьми супердорогих чипів Nvidia, щоб вистачило відеопам'яті. Модель побудована за принципом mixture of exports. Тобто у неї всередині є якісь сабсети, які спеціалізовані на тій чи іншій тематиці. І є умовний гейт, тобто такий load balancer, який визначає, до якого типу запитань належить ваше, і надсилає відповідний сабсет, підіймає необхідну кількість параметрів – 37 млрд одночасно, здається. Це дає змогу дещо зменшити апетити моделі – цілком її в пам'яті тримати, потрібно окремий ЦОД будувати. А так вона може поміститися в такий собі кластер із восьми комп'ютерів із дуже дорогими відеокартами.

І тут зручно, що її можна використовувати через API. Причому у DeepSeek зараз акція на V3 – практично наполовину знижена ціна. Але і на R1 ціна теж сильно дешевша, ніж на о1 через API.

Але крім цього, DeepSeek ще розробили архітектуру, яка дає змогу дистилювати моделі. Дистиляція (distillation) – це такий цікавий спосіб... Взагалі, мені здається досить символічним і значущим той факт, що досить велика кількість речей у навчанні AI-моделей нагадує людське навчання. Ось, наприклад, той самий різнінг – це фактично реалізація «не поспішай відповідати, сядь, подумай, і потім відповідай». Коли людина думає, вона розглядає якусь кількість варіантів і вибирає з них найкращий. Те ж саме робить модель.

До речі кажучи, хлопці на Hugging Face розробили таку схему, коли думають ніби дві моделі. Маленька думає вголос, а потім потужніша (вони використовували LLAMA), оцінює відповіді. Це настільки нагадує шкільне навчання... Як у школі казали, не мовчи, міркуй вголос. А вчитель оцінює процес. Тут також. І результат у підсумку виходить кращим, ніж якби молодша модель сама навчалася на цьому датасеті. Так ось із distillation приблизно той самий принцип. Є умовно модель-учитель і модель-учень. Учитель отримує запити та дає на них відповіді, ніби генерує ланцюжки міркувань. А молодша модель за ними вчиться, імітує їх, наслідує і в результаті працює, звісно, не так добре, як учитель, але втрати якості відносно невеликі, умовно 8-10%. При цьому модель виходить набагато меншою.

Ось таким чином DeepSeek викотили відразу дистильовані моделі, побудовані на також відкритих Qwen і LLAMA. Причому від 1,5 млрд до 70 млрд параметрів. І ось це вже розмір моделі, яку можна запустити на великій кількості пристроїв. Під модель на 1,5 млрд достатньо сучасного iPhone. А модель на 14 млрд параметрів запускається, наприклад, на Mac із 32 ГБ пам'яті. Звісно, ще застосовується квантилізація, зменшується кількість бітів на токен. Звичайно, в результаті ще знижується якість. Але все це стає доступним просто тут. Без витрат на API, без будь-якої мережевої затримки тощо. Ви повністю зберігаєте privacy. І, строго кажучи, вам для великої кількості локальних завдань не потрібна вся міць моделі. Для code completion, для підказок якихось, якогось оброблення текстів, вам справді буде достатньо 7 млрд або 14 млрд параметрів.

Це ще одна революційна зміна. Тому що проблема переходу до комодитизації AI, або там консумеризації, тобто переходу до того, що AI буде скрізь доступний на якихось базових пристроях. Я вже колись писав, що питання буде не в тому, наскільки добре працюватимуть найпередовіші моделі, а в тому, наскільки добре будуть виконуватися завдання базовими моделями на будь-якому пристрої (годиннику, телефоні тощо). І ось виходить, що таким ось чином з'являється досить потужна модель і прямо у вашому комп'ютері. І це дуже важливо.

Ринок на це відреагував дуже цікаво. Минулого четверга DeepSeek представили модель R1, у п'ятницю публіка обережно її пробувала, а на вихідних найактивніші ентузіасти зчинили буквально істерику, ажіотаж. І в понеділок усе це обернулося падінням NASDAQ на кілька відсотків, падінням великої кількості акцій технологічних компаній. У сумі на трильйон з гаком доларів зменшилася капіталізація провідних гравців. Одна лише Nvidia втратила майже 600 млрд дол. капіталізації. Особисті статки Дженсена Хуанга, засновника Nvidia, зменшилися на 13 млрд дол.

Впали акції компаній, так чи інакше пов'язаних із виробництвом чипів. Навіть, що дивно, з електроенергією. Тобто ось лідери за втратами, це, зокрема, компанії на кшталт Constellation Energy, Talon Energy, які збиралися вже будувати нові АЕС або там нові реактори для ЦОДів.

Логіку людей, які розпродають акції, частково зрозуміти можна. Ось, нам же показали приклад, що для прийнятного результату не потрібно всіх цих мільярдних інвестицій. За 5 млн всього можна навчити модель, на яку OpenAI витрачає 100 млн. Але, повторю, скільки насправді коштувало навчання тієї чи іншої моделі DeepSeek, не відомо. І я б навіть сказав, що ми про це ніколи не дізнаємося. Тому що є такий важливий фактор, як Комуністична партія Китаю. Крім DeepSeek є ще маса китайських компаній, які активно інвестують в AI та з досить непоганими результатами. І на всі ці китайські компанії так чи інакше має вплив китайський уряд і КПК. Як цей фактор вплинув у цьому випадку невідомо. Однак DeepSeek не хоче обговорювати, наприклад, на кого з реальних людей схожий Вінні-Пух. Мені він запропонував поговорити краще про математику, логіку і стартапи.

Загалом я можу зрозуміти дещо панічну реакцію ринку AI, який останнім часом активно накачують грошима. Однак мені в цьому контексті ближчою є позиція Сатьї Наделли (CEO Microsoft), який коментуючи всю цю ситуацію, нагадав про так званий парадокс Дживонса. Англійський вчений, економіст Вільям Дживонс жив наприкінці XIX століття. Він намагався пояснити цікавий ефект, який стався в Англії. Тоді було винайдено паровий двигун Ватта, який став щаблем технологічної революції – він був набагато ефективнішим і давав змогу з меншої кількості вугілля добути більше енергії. Так ось у результаті не відбулося скорочення споживання вугілля. Навпаки, все активізувалося, з'явилася велика кількість застосувань для цього двигуна, як очікувалося. Ось це ось здешевлення технології та збільшення її ефективності, яке призвело до вибухового зростання її використання, отримало назву парадокс Дживонса. Економіст пояснював це двома моментами. Перший – збільшення ефективності помітно розширює можливості для застосування нової технології. А далі настає загальне економічне зростання, яке також сприяє збільшенню виробництва тощо. У результаті вся економіка просто розвивається екстенсивно.

Якщо згадати історію розвитку інтернету, то можна помітити багато схожого. 20 років тому інтернет продавався по гігабайтах, причому зовсім недешево. Я пам'ятаю, коли на рівні споживача один гігабайт трафіку коштував $75. Відтоді швидкості істотно зросли, вартість гігабайта взагалі ніким не рахується. Точніше тільки мобільні оператори зараз якось рахують гігабайти, здебільшого щоб лімітувати навантаження на мережу. І пропонують при цьому великі пакети на порядки більше, ніж це було 20 років тому. Але це не призводить до скорочення використання інтернету. Навпаки, інтернет став абсолютно природним і загальнодоступним. Ніяких додзвонів з модема і 56Kbps. Щойно швидкість інтернету і вартість одиниці інформації перестала бути стримувальним фактором, споживання зросло не просто стрибкоподібно, а злетіло. І ми тепер не замислюючись усе робимо в інтернеті.

І цей ось парадокс, він насправді чудово пояснює, що станеться далі з AI, коли він стане істотно дешевшим. Тільки за останні два роки вартість використання технології AI вже стала значно дешевшою, з кожною новою, більш досконалою моделлю. Зараз уже ніхто не рахує ціни за тисячу токенів, усі за мільйон вказують. Приблизно в тисячу разів зменшилася вартість генерації одного токена через API. І якщо на все, що відбувається, подивитися саме в такому ключі, все це призводить тільки до ширшого використання. Тож я б сказав, що це ніякий не крах ринку AI, а скоріше невелике охолодження. А далі все піде тільки за висхідною.

До слова про нібито дешевизну розробки DeepSeeker. Ми постійно чуємо, як OpenAI, Anthropic та інші провідні розробники приділяють багато уваги безпеці AI. Китайські компанії це схоже, взагалі, не цікавить. Можливо, зараз вони економлять на безпеці. Але далі, вибачте, доведеться це приводити до якихось стандартів. Інакше через кілька років ми отримаємо той самий AGI, у якого немає ні найменшого уявлення про те, чого не можна робити щодо людства.

Загалом, усе найцікавіше тільки починається.

Китайська AI революція з DeepSeek R1

Стратегія охолодження ЦОД для епохи AI