Китайський стартап кидає виклик технологічному бомонду США

29 январь, 2025 - 18:45Леонід Бараш

DeepSeek, відносно невідомий китайський стартап, сколихнув Силіконову долину нещодавнім випуском передових моделей АІ. Розроблені з надзвичайною ефективністю та запропоновані як ресурси з відкритим кодом, ці моделі кидають виклик домінуванню визнаних гравців, таких як OpenAI, Google і Meta.

DeepSeek заснована у травні 2023 р. Лян Веньфеном (Liang Wenfeng), працює незалежно, але фінансується виключно High-Flyer. Остання також є компанією Веньфеня, та спеціалізується на розробці рішень для прогнозування роботи хедж-фондів. Наглядачі зазначають, що ця унікальна модель фінансування дозволила DeepSeek здійснювати амбітні проекти АІ без тиску зовнішніх інвесторів.

Подорож китайського стартапу почалася з випуску DeepSeek Coder у листопаді 2023 р., моделі з відкритим вихідним кодом, розробленої для завдань кодування. За цим послідувала DeepSeek LLM, модель з 67 мільярдами параметрів, була спрямована на конкуренцію з іншими великими мовними моделями. DeepSeek-V2, запущений у травні 2024 р., привернув значну увагу завдяки своїй високій продуктивності та низькій вартості, що навіть спровокувало цінову війну на китайському ринку моделей АІ.

На зміну DeepSeek-V2 прийшов DeepSeek-Coder-V2, більш вдосконалена модель із 236 мільярдами параметрів. Вона розроблена для складних завдань кодування та має велику довжину контексту до 128K маркерів.

Останні моделі компанії, DeepSeek-V3 та DeepSeek-R1, ще більше зміцнили позиції компанії у сегменті. Причому перша з 671 мільярдами параметрів, може похвалитися вражаючою продуктивністю в різних тестах, вимагаючи значно менше ресурсів, ніж конкуренти. DeepSeek-R1, що була випущена у січні 2025 р., концентрується на завданнях міркування та кидає виклик моделі o1 OpenAI з її розширеними можливостями.

Успіх DeepSeek можна пояснити кількома ключовими інноваціями.
DeepSeek використовує чисте навчання з підкріпленням, що дозволяє моделям навчатися методом проб і помилок та самовдосконалюватись за допомогою алгоритмічних винагород. По суті, моделі DeepSeek навчаються, взаємодіючи з навколишнім середовищем і отримуючи відгуки про свої дії. Це дозволяє їм розвивати більш складні здібності до міркування та ефективніше адаптуватися до нових ситуацій.

Моделі DeepSeek використовують архітектуру Mixture-of-Experts (МоЕ), активуючи лише невелику частину своїх параметрів для будь-якого завдання. Ця вибіркова активація значно знижує обчислювальні витрати та підвищує ефективність.

DeepSeek використовує методи дистиляції для передачі знань і можливостей більших моделей у менші й ефективніші. Це робить потужний АІ доступним для ширшого кола користувачів і пристроїв.

Ці інноваційні методи в поєднанні з акцентом DeepSeek на ефективності та форматі відкритого коду зробили компанію помітним гравцем і "руйнівною" силою в ландшафті АІ.

Використовуючи навчання з підкріпленням і ефективні архітектури, такі як MoE, DeepSeek значно скорочує обчислювальні ресурси, необхідні для навчання, що призводить до зниження витрат.

Вихід DeepSeek на ринок АІ створив значний конкурентний тиск на відомих гігантів, таких як OpenAI, Google і Meta. Пропонуючи економічно ефективні моделі з відкритим вихідним кодом, DeepSeek змушує цих великих гравців або знизити ціни, або розширити свої пропозиції, щоб залишатися актуальними.

Успіх DeepSeek підкреслює зростаючу важливість ефективності алгоритмів і оптимізації ресурсів у розробці АІ. Замість того, щоб покладатися виключно на грубе масштабування, DeepSeek демонструє, що висока продуктивність може бути досягнута зі значно меншими ресурсами, кидаючи виклик традиційному переконанню, що більші моделі та набори даних за своєю суттю кращі.

Слід зазначити, що незважаючи на свої помітні досягнення, DeepSeek стикається зі значним недоліком обчислень порівняно зі своїми американськими аналогами. Цей розрив ще більше збільшується експортним контролем США щодо передових чіпів, який обмежує доступ DeepSeek до найновішого апаратного забезпечення, необхідного для розробки та розгортання більш потужних моделей АІ.

Поява DeepSeek як руйнівної сили в ландшафті АІ незаперечна. Його інноваційні методи, економічно ефективні рішення та стратегії оптимізації кинули виклик статус-кво та змусили відомих гравців переглянути свої підходи. Незважаючи на те, що DeepSeek стикається з труднощами, його прагнення працювати у форматі відкритого коду і ефективної розробки АІ може змінити майбутнє галузі. У міру того, як гонка АІ посилюється, слід уважно спостерігати за подорожжю DeepSeek.

Китайський стартап кидає виклик технологіям США