+22 голоса |
AI-проєкт, що вийшов останнім часом на передній план, привернув увагу всіх, хто стежить за сегментом штучного інтелекту. І одним із важливих факторів, що викликали такий інтерес, стали заявлені на неймовірно низькому рівні витрати на створення AI-моделі.
Аналітики з SemiAnalysis присвятили цьому проєкту досить розгорнуте дослідження, з частиною якого пропоную познайомитися. А саме, звідки взялися обчислювальні ресурси для створення моделі.
High-Flyer - це китайський хедж-фонд, який рано почав використовувати штучний інтелект у своїх торгових алгоритмах. Вони рано усвідомили потенціал AI в галузях, не пов'язаних із фінансами, а також критичну важливість масштабування. У результаті вони постійно збільшували постачання графічних процесорів. Після експериментів із моделями, що використовують кластери з тисяч графічних процесорів, High-Flyer інвестувала в 10 000 графічних процесорів A100 у 2021 році, до введення будь-яких обмежень на експорт. Це принесло свої плоди. У міру вдосконалення High-Flyer зрозуміла, що настав час виділити «DeepSeek» у травні 2023 року з метою більш цілеспрямованого розвитку можливостей AI. High-Flyer самостійно фінансувала компанію, оскільки зовнішні інвестори на той час не виявляли особливого інтересу до AI, а головною проблемою того була відсутність бізнес-моделі. Сьогодні High-Flyer і DeepSeek часто обмінюються ресурсами, як людськими, так і обчислювальними.
Зараз DeepSeek перетворилася на серйозну, узгоджену компанію і в жодному разі не є «побічним проєктом», як стверджує багато хто в ЗМІ. І є впевненість, що їхні інвестиції в GPU становлять понад 500 млн дол., навіть з урахуванням експортного контролю.
Аналіз SemiAnalysis показує, що загальний обсяг капітальних витрат на сервери для DeepSeek становить ~1,6 млрд дол., водночас значні витрати на експлуатацію таких кластерів становлять 944 млн дол. Аналогічно, усі AI-лабораторії та гіпермасштабовані кластери мають набагато більше GPU для різних завдань, включно з дослідженнями та навчанням, ніж вони виділяють на окремі тренування, оскільки централізація ресурсів є складним завданням. При цьому X.AI є унікальною AI-лабораторією, в якій всі GPU знаходяться в одному місці.
Ціна й ефективність DeepSeek викликали ажіотаж, причому головним заголовком стала цифра в 6 млн дол., у яку обійшлося навчання DeepSeek V3. Але це неправильно, тому що схоже на те, як якби було вказано конкретну частину специфікації матеріалів для продукту і її приписали до всієї вартості. Вартість попереднього навчання - це дуже вузька частина загальної вартості.
Вартість попереднього навчання не є фактичною сумою, витраченою на модель. Причому витрати на обладнання значно перевищують 500 млн дол. за всю історію компанії. Для створення архітектурних інновацій під час розроблення моделі значні витрати йдуть на тестування нових ідей та архітектур. Так багатоспрямована латентна увага, ключове нововведення DeepSeek, зажадало кілька місяців розробки та коштувало цілій команді значний обсяг людино-годин і годин роботи GPU.
Тому заявлена DeepSeek вартість у 6 млн дол. відноситься тільки до вартості GPU для попереднього навчання, що становить лише частину загальної вартості моделі. Насправді виключені такі важливі частини головоломки, як R&D і сукупна вартість володіння самим обладнанням. Для довідки, навчання Claude 3.5 Sonnet коштувало десятки мільйонів доларів, і якби це була загальна вартість, необхідна Anthropic, то вони не залучили б мільярди від Google і десятки мільярдів від Amazon. Тому що їм доводиться експериментувати, вигадувати нові архітектури, збирати й очищати дані, платити співробітникам і багато іншого.
Комп’ютерний розум: генеративний штучний інтелект у рішеннях AWS
+22 голоса |