На хвилі DeepSeek

6 февраль, 2025 - 18:55Андрій Михайленко

DeepSeek зараз не сходить з новин. Як вийшло, що маловідомому китайському стартапу вдалося зробити неймовірне — похитнути трон під США, які дотепер вважалися технологічною столицею світу і лідером в AI-технологіях?

Почнемо з того, що для розробки ChatGPT компанія Open AI тільки на старті залучила 1 млрд дол. інвестицій. І ще багато мільярдів — вже після своїх перших успіхів у створенні великих мовних моделей, тільки Microsoft виділили 10 млрд дол. А у 2023-му стало відомо, що ChatGPT щодня обходиться своїм творцям у 700 тисяч дол. До січня 2025-го всі думали, що такі великі витрати не є чимось екстраординарним. А потім з’явився DeepSeek (а точніше, модель DeepSeek R1) — дешевий китайський чат-бот, який на перший погляд не поступається у функціональності ChatGPT і його основним конкурентам.

Модель DeepSeek R1 було запущено на початку січня 2025 року — тоді розробники похвалилися в мережі X, що вона справляється із завданнями не гірше, ніж ChatGPT. А саме, може так само писати програмний код, розв’язувати математичні задачі, міркувати на задані користувачем теми й жартувати. І все це - абсолютно безкоштовно.

Стартап DeepSeek заснував 2023 року китаєць Лян Веньфен (Liang Wenfeng), який зробив ставку на високопродуктивні графічні процесори та закупив тисячі чіпів Nvidia до того, як їхній експорт зі США до Китаю було заборонено. Наразі процесори Nvidia забезпечують роботу DeepSeek одночасно із дешевшими графічними чипами, однак за іншими даними перших у DeepSeek може бути набагато більше, ніж вони заявляють. Це викликає питання про те, чи справді санкції США у стримуванні китайського прогресу в AI ефективні або ж їх можна обійти.

У Nvidia описали нову розробку як «чудове досягнення АІ», а генеральний директор OpenAI Сем Альтман написав, що «R1 від DeepSeek - вражаюча модель». Саму появу DeepSeek називають «моментом супутника» - за аналогією з першим супутником, запущеним у космос СРСР 1957 року.

Слід також зазначити, що DeepSeek R1 - модель штучного інтелекту з відкритим вихідним кодом, яка зʼявилася як сторонній проєкт (хедж-фонду High-Flyer), але зуміла зробити революцію в галузі.

Модель була навчена з використанням понад 2000 відеокарт Nvidia H800 за 55 днів при вартості за 5,6 млн дол.- це в рази менше, ніж витратили на аналогічні рішення у конкурентів.

DeepSeek R1 запускає внутрішні процеси пошуку оптимального використання графічних чіпів, щоб отримати результат із найменшим залученням ресурсів (так зване розподілене навчання або Distributed Training). При цьому використовується навчання з підкріпленням (reinforcement learning, RL), яке передбачає винагороду за правильні відповіді й покарання за неправильні. Модель не передбачає будь-яких лімітів на кількість запитів і не знижує продуктивності при інтенсивному навантаженні. І як результат DeepSeek R1 перевершує конкурентів в основних бенчмарках — AIME 2024, MMLU і AlpacaEval 2.0.

Крім технічних аспектів є й важливі етичні моменти. Оскільки DeepSeek розроблена китайцями і для китайців, вона цензурує заборонені у цій країні теми — переважно політично чутливий контент. Але це не так важливо, як те, що мобільний застосунок DeepSeek, ймовірно, зберігає великі обсяги даних на китайських серверах, що може стати загрозою конфіденційності для жителів США, Європи та низки інших країн. З іншого боку, відкритий вихідний код моделі R1 дає змогу запускати її таким чином, щоб уникнути надсилання даних до Китаю.

Назва DeepSeek уперше голосно прозвучала на Всесвітньому економічному форумі в Давосі, що стартував 20 січня 2025 року. Спочатку її згадали в контексті того, що США слід подвоїти свої зусилля з розвитку AI, а великий інвестор і IT-підприємець Марк Андерссен назвав модель DeepSeek «одним із найдивовижніших і найбільш вражаючих проривів», які він коли-небудь бачив. Уже на третю добу роботи форуму DeepSeek очолив чарти із завантажень в iPhone Apple Inc. і опинився серед лідерів у Google Play. Ринки відреагували негайно: за кілька днів вартість акцій американських і європейських технологічних компаній впала майже на 1 трлн дол. - тільки одна Nvidia Corp. втратила близько 589 млрд дол. (18% капіталізації) за один понеділок, але пізніше частково відновилася. Істотних втрат також зазнали компанії Microsoft і Alphabet (Google).

Чи зможе DeepSeek скласти реальну конкуренцію найбільшим гравцям AI-ринку — ще належить дізнатися. Однак основні технологічні гіганти вже мають намір переглянути свої цінові політики і зрозуміти, чи дійсно виправдані їхні величезні витрати на штучний інтелект. Наприклад, для цього Meta Platforms зібрала внутрішню команду для детального аналізу DeepSeek — він дасть змогу зрозуміти, як було створено модель і на що вона насправді здатна. Водночас Ілон Маск, у якого є власна AI-компанія xAI, висловив скептицизм щодо DeepSeek - він підозрює, що у стартапа було набагато більше графічних процесорів Nvidia, ніж заявляють розробники.

Нагадаємо, що ажіотаж навколо DeepSeek виник на тлі того, як технологічні гіганти продовжують витрачати мільярди доларів на свої AI-проєкти. Наприклад, тільки 2024 року Amazon інвестувала 75 млрд дол. у комп’ютерні чіпи та центри обробки даних, які обслуговують AI-навантаження. Також 65 млрд дол. на проєкти, пов’язані зі штучним інтелектом, планує виділити Meta. А Microsoft на центри обробки даних для AI — ще 80 млрд дол. При цьому перераховані компанії натрапили на труднощі в монетизації своїх AI-продуктів і не отримують тієї фінансової віддачі, на яку розраховували.

Зараз значна частина величезних витрат технологічних гігантів йде на закупівлю дорогих GPU від Nvidia. Хоча в DeepSeek також залучали графічні прискорювачі саме цього бренду, це не єдиний можливий варіант. Як повідомляють в South China Morning Post, китайські хмарні провайдери (як от SiliconFlow) вже пропонують моделі штучного інтелекту DeepSeek, що використовують обладнання іншого вендора — а саме Huawei Ascend 910B. Воно дозволяє знизити вартість одного мільйону вхідних токенів лише до одного юаню та вихідних — до чотирьох юанів. Це суттєва економія з урахуванням того, що постачальники хмарних послуг в США пропонують рішення на базі DeepSeek R1, яке буде коштувати приблизно 7 дол. за мільйон токенів.

А поки розробники в усьому світі почали експериментувати з DeepSeek і роблять перші спроби створити ефективні інструменти на його базі, у самому стартапі шукають можливість масштабуватися — заборона на експорт із США топових графічних чипів усе ще в силі. У будь-якому разі, поява DeepSeek уже змінила ринок технологій і зміцнила вплив Китаю у глобальну AI-індустрію.