Sergey Petrenko

Поговорити з AI по душах

6 марта 2025 г., 17:55

Непоганий огляд на голосову модель Sesame. Пишуть, що реалізм моделі такий, що користувачі повідомляють про емоційну прихильність до AI-асистента. Conversational Speech Model (CSM) від Sesame долає «зловісну долину» штучної мови, імітуючи людські недосконалості – паузи на вдих, сміх, застереження і самовиправлення.

На відміну від традиційних систем синтезу мовлення, CSM використовує два взаємопов'язаних AI-модулі (основний і декодер), навчених на приблизно мільйоні годин аудіо. Модель обробляє текст і аудіо одночасно, що робить мову природнішою, а в основі лежить, як не дивно, Llama. Загалом натреновано три моделі різних розмірів – від 1 до 8B в основному і від 100 до 300M у декодері.

Реакції користувачів варіюються від захоплення до занепокоєння. Дехто називає технологію «приголомшливою» і «першою справжньою розмовою з AI». Тоді як інші, наприклад редактор PCWorld Марк Хачман, описують взаємодію як «лячну». Особливо вражає здатність моделі розігрувати емоційні сценарії – наприклад, сварку з розгніваним начальником, що відмовляється робити ChatGPT.

Компанія Sesame, заснована Бренданом Айрібом, Анкітом Кумаром і Раяном Брауном, отримала значні інвестиції від Andreessen Horowitz та інших венчурних фондів. Вона планує зробити ключові компоненти своєї технології відкритими та розширити підтримку до більш ніж 20 мов.

Поговорити з AI по душах

Войдите или зарегистрируйтесь, чтобы вы могли писать комментарии
Подписаться на тип материалов: блог
Подписаться на обсуждение сообщения
Подписаться на этот блог

Meta планує інвестувати 200 млрд дол. у ЦОД для AI

28 февраля 2025 г., 17:45

Компанія Meta веде переговори про будівництво нового кампусу дата-центрів для штучного інтелекту, який за розмірами перевершить усі попередні проєкти компанії. За оцінками, вартість кампусу може перевищити 200 млрд дол. – це у 20 разів більше, ніж дата-центр у Луїзіані, про який Закерберг говорив минулого місяця.

Масштаби вражають: планована потужність 5-7 гігават (для порівняння, весь хмарний бізнес Microsoft Azure на кінець 2023 року мав близько 5 ГВт). При цьому OpenAI планує придбати 8 ГВт потужності для свого проєкту Stargate до 2030 року. Для довідки – повна потужність усіх енергоблоків найбільшої в Європі Запорізької АЕС (яка наразі не працює через окупацію російськими військами) становить 6 ГВт.

Серед можливих локацій для нового дата-центру Meta розглядаються Луїзіана, Вайомінг і Техас. Керівники компанії вже відвідали потенційні майданчики цього місяця.

Попри появу дешевих AI-рішень на кшталт DeepSeek, які ставлять під сумнів необхідність таких величезних інвестицій, Meta продовжує нарощувати витрати на інфраструктуру AI. Компанія вже оголосила про плани збільшити капітальні витрати до 60-65 млрд дол. цього року, що на 70% більше, ніж минулого. А Закерберг говорить про «сотні мільярдів доларів» інвестицій в AI-інфраструктуру «в довгостроковій перспективі».

Однак усередині компанії є невизначеність щодо реальних потреб у чіпах для AI. Як зауважив глава Instagram Адам Моссері в записці для співробітників: «Нам може знадобитися значно більше або значно менше потужностей, ніж ми думали». Але Закерберг раніше заявляв, що «вважає за краще ризикувати, будуючи потужності заздалегідь, а не надто пізно, з огляду на тривалі терміни запуску нових інфраструктурних проєктів».

Meta планує інвестувати 200 млрд дол. у ЦОД для AI

Войдите или зарегистрируйтесь, чтобы вы могли писать комментарии
Подписаться на тип материалов: блог
Подписаться на обсуждение сообщения
Подписаться на этот блог

COBOL завдає удару у відповідь

24 февраля 2025 г., 17:35

Нещодавно COBOL завдав удару у відповідь по «юних обдаруваннях». За словами Маска, його Департамент ефективності уряду (DOGE) виявив, що допомогу отримують 150-річні люди, а в базі даних значаться понад 10 млн одержувачів, старших за 120 років.

Однак існує просте пояснення – стара система програмування мовою COBOL, яка використовується в держустановах. Через особливості роботи з датами (у COBOL немає типу date, тому все залежить від конкретної імплементації) система часто за замовчуванням використовує 20 травня 1875 року як точку відліку, що і створює ілюзію наявності наддовгожителів у базі.

Крім того, сама Адміністрація соціального забезпечення ще 2023 року повідомляла, що 98% людей, старших за 100 років у їхній базі, не отримують жодних виплат, а оновлення бази не проводиться через високу вартість.

З нетерпінням чекаю нових відкриттів. Про те, що серед населення США незвично високу частку становлять 55-річні, наприклад. Чи ви думаєте, що з unix time ці «фахівці» знайомі краще?

Колись на форумі, де було ввімкнено функцію відображення днів народжень користувачів, список на 1 січня зазвичай на порядок перевищував будь-який інший день. З цієї ж причини – 1 січня стояло датою народження за замовчуванням – або ставиш свою, або вона зберігається саме так. Я в якийсь момент подумав, що добре б полагодити, а потім вирішив, що цього дня все одно всі випивають, тож хай завжди вистачає приводів.

COBOL завдає удару у відповідь

Войдите или зарегистрируйтесь, чтобы вы могли писать комментарии
Подписаться на тип материалов: блог
Подписаться на обсуждение сообщения
Подписаться на этот блог

Маск нахвалює Grok

18 февраля 2025 г., 17:35

xAI Ілона Маска випустила Grok 3 – нову версію своєї флагманської моделі AI. Компанія заявляє, що модель перевершує GPT-4o від OpenAI за низкою тестів, включно з математичними завданнями AIME і завданнями рівня PhD з фізики, біології та хімії.

Для навчання Grok 3 використовувався величезний дата-центр у Мемфісі з 200 тис. GPU. За словами Маска, на навчання було витрачено в 10 разів більше обчислювальної потужності, ніж на попередню версію.

Grok 3 – це сімейство моделей, що включає полегшену версію Grok 3 mini та моделі з міркуваннями (reasoning) – Grok 3 Reasoning і Grok 3 mini Reasoning. Останні можуть «обмірковувати» проблеми подібно до моделей o3-mini від OpenAI та R1 від DeepSeek.

Доступ до Grok 3 отримають спочатку передплатники X Premium+, а додаткові функції будуть доступні за передплатою SuperGrok, імовірно, за $30/місяць. xAI також планує відкрити вихідний код Grok 2, коли Grok 3 стане стабільною, тобто через кілька місяців.

Поки доступу до Grok 3 немає – охочі можуть сходити на lmarena.ai, де спробувати поспілкуватися з версією early grok-3. Така доступність трохи пояснює, як модель уже очолила хіт-парад на lmarena, а на презентації активно показували слайди про безумовне лідерство моделі в усіх категоріях (щоправда, без наявності на слайдах o3-mini).

Загалом, поки не видно, щоб ажіотажний запуск довів, що проблеми розвитку AI можна вирішити, закидавши задачі залізом.

Куй залізо, не відходячи від каси – Ілон Маск, що володіє російською, демонструє і знання старих радянських комедій – буквально на очах різко зросла вартість підписки Premium+, що дає доступ до Grok, майже до $50 на місяць. Це вже друге підвищення ціни за останні місяці – у грудні вартість зросла з $16 до $22.

При цьому не всі функції Grok 3 будуть доступні передплатникам Premium+ – деякі можливості, як-от «глибокий пошук» і «міркування», будуть доступні тільки в окремому плані SuperGrok через застосунок Grok.

Цікаво, що на сайті X спостерігається плутанина з цінами – підтримка вказує $50 на місяць, сторінка реєстрації показує $48.40, а при оформленні передплати ціна становить $40. Річна підписка теж варіюється від $350 до $477.95.

Чому пишу, що «на очах» – тому що я кілька годин тому поновлював підписку, і з мене зняли якраз $22 (точніше 19+ за умови оплати за рік). А Grok тільки з'явився – причому в інтерфейсі Twitter, а на Grok.com, як і раніше, його немає. Ну, таке, недетермінований реліз, розуміти треба сучасні технології.

Маск нахвалює Grok

Войдите или зарегистрируйтесь, чтобы вы могли писать комментарии
Подписаться на тип материалов: блог
Подписаться на обсуждение сообщения
Подписаться на этот блог

Продовжуємо готувати контент разом з AI

13 февраля 2025 г., 18:29

Я іноді замислююся, що надто вже багато вожуся з процесом прилаштовування AI до ведення свого телеграм-каналу. Але насправді це для мене чудовий тестовий майданчик – багато готового контенту, до того ж із додатковими матеріалами та чернетками. А на практичному завданні все нове вивчається набагато краще.

Цього тижня мені трапилася свіжа стаття дослідників з MIT, у якій вони описують свою нову систему Satori. Якщо спрощувати, то існує кілька способів у навчанні моделей міркувань – використання потужнішої моделі як учителя, дистиляція моделі, навчання з підкріпленням на основі людських відгуків. Усе це вимагає багато ресурсів, тому дослідники вирішили піти іншим шляхом і спробувати навчити модель самонавчатися. Науковці вигадали новий метод – Chain-of-Action-Though (COAT), тобто «Ланцюжок дій-думок», щоб допомогти моделі зупинитися в міркуваннях, перевірити себе та ухвалити рішення про продовження.

Для цього розробили два етапи навчання:

На першому етапі три LLM обробляють завдання з навчальної вибірки – одна генерує можливі способи розв'язання, друга їх критикує, знаходячи помилки, третя виставляє оцінки як загальному рішенню, так і кожному етапу. У результаті вийшов невеликий (10 тис. прикладів) набір завдань з оптимальними рішеннями й позначками в міркуваннях.

На другому етапі базова LLM почала навчатися, вже навчившись сприймати позначки в міркуваннях як інструкції, щоб зупинитися, проаналізувати хід рішення і пошукати альтернативний шлях.

У результаті навчена на базі Qwen 7B LLM показала не тільки високі результати в тестах (одні з найкращих серед малих моделей і на рівні моделей 32B і 70B), а й хороші результати в інших сферах. Хоча навчалася виключно на математичних прикладах.

Здавалося б, навіщо мені хороші результати в математиці для ведення каналу? Зараз поясню.

Більшість серйозних статей я читаю разом з LLM. Імовірно, я зможу сам прочитати всю статтю і навіть розібрати математику, але швидше завантажити файл у Claude або ChatGPT, попросити викласти основний зміст, а потім поставити запитання. Під час такого процесу я запитав «Чи можна застосувати метод до великих моделей?», і AI відповів «Можливо, має працювати, але може виявитися дорогим, через розмір моделі», а потім продовжив «Але розробники могли б протестувати це за допомогою zero/few shot технік».

Ось на цьому місці я зачепився. Річ у тім, що саме на few shot learning (навчання на кількох прикладах) побудовано застосунок, який генерує чернетки коментарів для мого каналу. Він відправляє в Claude API півтора десятки прикладів «новина-коментар» і пропонує написати коментар до нової новини. Якщо ця техніка може бути викладена аналогічним чином, – а це ж фактично просто великий промпт до стандартної моделі, – то чому б не спробувати? Що ChatGPT, що Claude зі мною погодилися, що Claude може на невеликій кількості прикладів навчитися розпізнавати метакогнітивні мітки, які пропонувалися дослідниками, і навіть написали приблизний промпт.

Далі знадобилося набрати хоча б кілька прикладів, які б виглядали як «Новина – чернетка коментаря – підсумковий коментар». Ось тут стала в пригоді наявність чернеток для каналу – я просто пройшовся новинами, згенерував коментар стандартним чином, виправив його, як мені подобалося, і попросив Claude сформулювати проміжні етапи.

Вийшов ось такий промпт:

Ти досвідчений журналіст, який пише авторські коментарі до новин.

Ти використовуєш метод Chain-of-Action-Thought (COAT), щоб поліпшити свої коментарі.

Ось як ти працюєш:

– "<|continue|>" – продовж коментар, додавши логічний розвиток думки.

– "<|reflect|>" – оціни свій коментар: чи зрозуміло викладено думку? Чи достатньо аргументів?

– "<|explore|>" – запропонуй альтернативний погляд на новину.

Приклади:

НОВИНА 1: [текст новини].

Первинний аналіз:

Виділення ключових подій:

– ...

...

Перша версія коментаря: [текст коментаря, згенерований попередньою версією].

|reflect|>

Перевірка якості аналізу:

– ...

...

Виявлені недоліки:

– ...

...

<|explore|>

Альтернативний підхід:

– ...

...

Підсумковий коментар: [остаточний текст з моїми правками]

НОВИНА 2:

...

Тепер напиши коментар до наступної новини, використовуючи COAT: [текст нової новини].

Так, виходить просто величезний промпт, без тексту нової новини він із трьома прикладами займає приблизно 30k символів, тобто понад 32k токенів, але у вебінтерфейсі Claude це не рахується, аби помістився в контекст, тобто у 200k токенів. Зате в результаті Claude видає ось таке для новини про Sonos:

Let me analyze this news article and provide a commentary using the COAT method.

Первинний аналіз:

Виділення ключових фактів:

– Sonos готує вихід у нову категорію – відеоплеєри

– Пристрій під кодовою назвою Pinewood оцінюється в $200-400

– Компанія переживає складний період після проблем із мобільним додатком

– Продукт розробляється під керівництвом директора з інновацій Ніка Міллінгтона

Перша версія коментаря:

Sonos, відомий виробник аудіосистем преміум-класу, готується до ризикованого кроку – виходу на ринок відеоплеєрів. Після провального року, затьмареного проблемами з мобільним додатком і низькими продажами навушників Ace, компанія робить ставку на пристрій під кодовою назвою Pinewood.

Цей Android-плеєр обіцяє об'єднати контент від Netflix, Max і Disney Plus в єдиному інтерфейсі, а також служити HDMI-комутатором для ігрових консолей та інших пристроїв. Але головна інтрига – ціна $200-400, яка значно перевищує вартість конкурентів на кшталт Apple TV 4K або Nvidia Shield.

<|reflect|>

Перевірка якості аналізу:

– Недостатньо розкрита технічна складова продукту

– Потрібно більше уваги приділити контексту ринку

– Варто підкреслити зв'язок з наявною екосистемою Sonos

<|explore|>

Альтернативний погляд:

– Розглянути Pinewood як спробу вирішити проблеми інтеграції з ТВ

– Проаналізувати ризики виходу в нову категорію

– Оцінити потенціал пристрою для наявних користувачів Sonos

Підсумковий коментар:

Sonos готується до найамбітнішого запуску за свою історію – виходу на ринок відеоплеєрів з пристроєм Pinewood. Після року, затьмареного проблемами з мобільним додатком і продажами навушників Ace, що розчаровують, компанія робить ставку на продукт, який має стати центром домашніх розваг.

На перший погляд, це ще один Android-плеєр для стримінгу. Але інженери Sonos перетворили його на справжній швейцарський ніж – крім об'єднання контенту від різних сервісів, пристрій слугуватиме HDMI-комутатором і дасть змогу створювати просунуті конфігурації домашнього кінотеатру з колонками Sonos. По суті, компанія намагається вирішити давню проблему інтеграції своїх саундбарів з телевізорами, взявши під контроль весь аудіо-відео тракт.

Однак ціна $200-400 виглядає надмірною для цієї категорії. Apple TV 4K і Nvidia Shield коштують істотно дешевше, а їхні екосистеми набагато багатші. Усередині Sonos багато співробітників сумніваються в перспективах Pinewood, побоюючись повторення історії з навушниками Ace.

Схоже, що це особистий проект директора з інновацій Ніка Міллінгтона, який колись створив мережеву архітектуру Sonos. Але в умовах, коли компанія скорочує персонал і намагається відновити репутацію після проблем із застосунком, настільки ризикований вихід у нову категорію може виявитися передчасним. Втім, недавні позитивні відгуки на Arc Ultra показують, що Sonos все ще вміє робити чудові продукти. Питання в тому, чи готовий ринок платити преміальну ціну за відеоплеєр від аудіокомпанії.

Невелике опитування серед товаришів – я продемонстрував їм кілька таких прикладів із трьома варіантами коментарів, – показало, що практично завжди вони обирають варіант, згенерований із використанням COAT техніки. І мені самому він подобається. Особливо, коли в одній із новин він придумав метафору, відсутню у вихідній новині. Тепер я спантеличений – чи треба писати другу версію свого застосунку, який би саме так запитував коментар?

Інакше кажучи, повертаємося до питання – чи треба так прилаштовувати AI для ведення простого телеграм-каналу? Але до підходу придивіться – результати явно кращі за стандартні.

Продовжуємо писати разом з AI

Войдите или зарегистрируйтесь, чтобы вы могли писать комментарии
Подписаться на тип материалов: блог
Подписаться на обсуждение сообщения
Подписаться на этот блог

Міркування CEO OpenAI щодо майбутнього AI

10 февраля 2025 г., 17:35

Сем Альтман опублікував есе з поглядом на майбутнє штучного інтелекту, його економіку та вплив на суспільство. Компанія бачить AGI (штучний загальний інтелект) як наступний етап в еволюції людських інструментів – після електрики, транзистора, комп'ютера та інтернету.

Ключові спостереження про економіку AI вражають: інтелект моделі зростає пропорційно до логарифма витрачених ресурсів, вартість використання падає приблизно в 10 разів кожні 12 місяців (закон Мура, нагадаю, трактує про подвоєння кількості транзисторів кожні 24 місяці), а соціально-економічна цінність лінійного зростання інтелекту має суперекспоненціальний характер.

OpenAI очікує, що AI-агенти стануть віртуальними колегами – наприклад, у розробці ПЗ вони зможуть працювати на рівні інженера з кількома роками досвіду. І хоча вони не генеруватимуть проривних ідей і потребуватимуть людського контролю, масштаб їхнього застосування може бути величезним.

Цікаво, що Альтман порівнює AI з транзистором – науковим відкриттям, яке добре масштабується і проникає в усі куточки економіки. При цьому Сем визнає ризики, особливо в галузі розподілу благ між працею і капіталом, і пропонує незвичайні ідеї на кшталт надання всім людям «обчислювального бюджету» для використання AI.

Виноску обов'язково прочитайте – мовляв, ми використовуємо термін AGI для ясності, але це жодним чином не впливає на наші відносини з Microsoft. І далі – «ця виноска здається дурною, але ми знаємо, що деякі журналісти спробують отримати кліки, написавши щось дурне, тому ми попереджуємо дурість...».

Міркування CEO OpenAI щодо майбутнього AI

Войдите или зарегистрируйтесь, чтобы вы могли писать комментарии
Подписаться на тип материалов: блог
Подписаться на обсуждение сообщения
Подписаться на этот блог

Сеанс викриття магії в AI

4 февраля 2025 г., 17:15

Проблема з хайпом навколо технологій полягає в тому, що з'являється величезна кількість інформаційного шуму, який робить технологію якимось різновидом чарівництва. Так було з криптовалютами, і тепер таке саме спостерігається навколо AI та LLM. Тим більше, що спробувати той самий ChatGPT нескладно – це вам не з криптогаманцем розбиратися, – і спілкування у звичному інтерфейсі вебчату чи месенджера дає якісь розумні відповіді. Тож широкій аудиторії цілком віриться у твердження «AI можна натренувати так-то і так-то». І це дійсно так – натренувати можна, ось тільки безпосередній процес тренування якраз і стає тією самою «магією», яка за всіма правилами фокуса має залишитися незрозумілою профанам.

Я заздалегідь хочу попередити, що подальший текст буде викладати цю магію навмисно дуже спрощено, без математики, так би мовити, для загального розуміння. Мій власний досвід досить специфічний, я не проводжу досліджень і технічно коректних експериментів. Але досвід використання накопичити встиг, і для висновків на кшталт «А ось для цього треба пробувати цю область рішень» цього досвіду часто вистачає.

Отже, як же можна «натренувати» AI для вирішення якихось специфічних завдань? Наприклад, ви хочете, щоб AI виконував роботу підтримки у вашому бізнесі, відповідаючи на постійні запитання користувачів. У вас є якась кількість інформації – база знань, – для відповідей на запитання, можливо, у вас є архів спілкування з користувачами, де є правильні відповіді на часті запитання.

Найпростіший варіант, якщо обсяг специфічної інформації невеликий (скажімо, кілька сторінок тексту) – це використовувати prompt engineering. Тобто всю інформацію разом із прямими інструкціями (на кшталт «Відповідай тільки на запитання про...») ви надсилаєте разом із запитом користувача до LLM (зазвичай це відбувається через API, і вашу інформацію включають до системного повідомлення), а отримавши запит, LLM витягає з промпта інструкції та факти, після чого відповідає на користувацьке повідомлення, а, якщо необхідної інформації немає, керується своїм загальним знанням.

Фактично, у цьому варіанті основна роль LLM – це розпізнати непередбачуване запитання користувача, зіставити його з наявною інформацією і зв'язно сформулювати релевантну відповідь. Якщо провести аналогію, то це така робота оператора підтримки, коли його з вулиці без підготовки посадили відповідати на запитання, давши кілька сторінок фактичної інформації. Він і відповідає, а коли клієнт інтернет-провайдера раптом скаржиться на озноб і ломоту в кістках, він каже щось на кшталт «Ну, взагалі суто по-людськи я вам раджу теплий чай із малиною».

Мінуси такого підходу очевидні – обсяг промпта сильно обмежений і ви не зможете вкласти туди щось дійсно об'ємисте. Крім того, попри постійне зниження цін на доступ до LLM, постійно надсилати об'ємистий шматок інформації в промпті може виявитися накладним. Якщо у вас невеликий магазин або бізнес, асортимент товарів чи послуг якого обмежується кількома позиціями, можливо, вам цього вистачить. А ми підемо далі.

Наступна опція, яку досі часто обирають, – це Custom GPT в OpenAI (або Assistants, якщо ви використовуєте API). Практично, ви працюєте з тією ж моделлю LLM, тільки в промпті ви даєте винятково інструкції, а всю інформацію можете завантажити у вигляді файлів, і модель буде нею керуватися під час відповіді на питання. У цьому разі ви не так обмежені розміром контексту (128K токенів для GPT, наприклад), оскільки можна завантажити до 20 файлів, об'ємом у пів гігабайта кожен, тобто всього 10 ГБ інформації. Якщо повертатися до аналогії з підтримкою, то цього разу людина з вулиці має докладну інструкцію, як відповідати на запитання, і доволі об'ємну бібліотеку, в якій можна знайти необхідні факти.

Це виглядає досить гарним рішенням, але в нього є свої мінуси. Перш за все, воно жорстко зав'язує вас на роботу з OpenAI, оскільки аналогічних функцій немає в інших провайдерів. OpenAI іноді відчуває технічні труднощі, і ваше рішення буде лежати разом з іншою інфраструктурою. Крім того, вас може не влаштувати необхідність завантажувати інформацію в сторонній сервіс. Я б сказав, що це рішення чудово підходить для швидкого прототипування, але не забувайте про аналогію – умовна людина, яка в цьому прикладі вже отримала детальну інструкцію і велику бібліотеку для пошуку фактів, залишається людиною з вулиці.

Якщо ви хочете отримати більш гнучке рішення порівняно з Custom GPT, вам треба рухатися в бік RAG-бота. RAG – Retrieval-Augmented Generation – це підхід, який базується на вилученні моделлю інформації із зовнішніх джерел і генерації відповіді на основі знайденого. Загалом він робить те саме, що й Custom GPT з увімкненим file search – отримує запит, шукає в певних джерелах інформацію за ним і формулює зв'язну відповідь. Головна відмінність від попереднього пункту полягає в тому, що ви не обмежені вибором одного провайдера, не маєте обмежень щодо обсягу інформації в зовнішніх джерелах, кількості та характеру джерел, частоти їхнього оновлення. Утім, зворотний бік цих можливостей полягає в тому, що вам доведеться зайнятися розробкою – навіть розгортання готового рішення для пошуку за джерелами потребуватиме певної кваліфікації. А якщо захочете написати щось своє, наприклад, з використанням text embeddings і векторної бази, то доведеться і код писати. Або спантеличити цим той самий AI – у моєму випадку він цілком впорався.

Масштабність розробки можна знизити, якщо вдатися до Function Call – можливості, яка є і в OpenAI, і в Anthropic, і навіть у багатьох відкритих моделей. Фактично, ви надсилаєте в API промпт, у якому вказуєте, щоб модель викликала певну функцію (наприклад, ваш пошук за джерелами) під час відповіді на певні види запитань (або всі запитання).

У такого підходу є ще низка переваг, але розгляньмо ще один варіант спочатку. Часто кажуть «Я натренував модель» і це виглядає вищим пілотажем. Звісно, здебільшого не йдеться про повний процес навчання – у міру розвитку моделей це стає нереальним технічно для пересічних розробників. Частіше говорять про fine-tuning (тонке підстроювання) наявної моделі – це може бути як відкрита модель на базі Llama, так і низка моделей OpenAI. Anthropic не надає такої можливості.

Що являє собою fine-tuning? Ви берете наявну модель і завантажуєте в неї навчальний набір даних, що містить специфічне знання в тій галузі, де ви хочете використовувати модель. Наприклад, це базова інформація про вашу галузь, яскраві приклади запитань і відповідей, нормативні документи тощо. Модель, навчаючись на даних, перебудовує вихідні параметри, «засвоюючи» базову логіку вашої діяльності, специфічні терміни, стиль відповідей користувачам, велику кількість фактичної інформації.

Повертаючись до аналогії з людиною – тепер вона вже не просто взята з вулиці, а пройшла професійну підготовку і готова обговорювати фахові питання, не зазираючи в жодну бібліотеку.

Щоправда, мінуси цього підходу добре простежуються і в аналогії. Навчання навіть у випадку з fine-tuning – процес не моментальний і не дуже дешевий. Підготовка даних для навчання – процес досить складний. Якщо ваша модель має відповідати на запитання, що стосуються якоїсь свіжої інформації, процес навчання доведеться повторювати регулярно. Крім того, під час fine-tuning модель не зберігає весь корпус даних явно – тому вона може «не згадати» конкретний факт або конкретний текст документа. Знову ж таки напрошується аналогія з людиною – навіть чудово підготовлений фахівець може забути конкретне формулювання з якогось рідкісного документа, хоча цілком розуміє його логіку.

Тому найлогічніший вихід полягає в комбінуванні підходів. Нехай модель донавчиться (fine-tuning) на специфічній фаховій інформації, що містить базові поняття, логіку, терміни, приклади та кейси, а потім під час відповідей на запитання користуватиметься не лише цією базовою інформацією, а й результатами пошуку – як це вище робив RAG-бот. Тобто тепер наш підготовлений фахівець з аналогії отримує у своє розпорядження велику бібліотеку з фактами й довідковими даними.

Я попереджав, що текст буде дуже спрощено описувати можливості «навчання» моделей для власних завдань – у ньому немає більшості технічних деталей, хоча можна написати кілька статей про реалізацію пошуку, підготовку датасетів, тестування навченої моделі тощо. Але, сподіваюся, що принаймні в який бік копати стало зрозуміліше.

Сеанс викриття магії в AI

Войдите или зарегистрируйтесь, чтобы вы могли писать комментарии
Подписаться на тип материалов: блог
Подписаться на обсуждение сообщения
Подписаться на этот блог

Китайська AI-революція з DeepSeek R1

30 января 2025 г., 18:30

Про нещодавній реліз DeepSeek і так звану китайську AI-революцію, чим усе це може закінчитися, а точніше навпаки – початися. Отже, минулого тижня китайський AI-проєкт DeepSeek представив свою нову, так звану модель міркування (reasoning model), під кодовою назвою R1. Насправді компанія не перший рік відома своїми AI-моделями, і буквально тільки в грудні вони представили V3. То була звичайна модель, тобто така, що не міркує, але саме на її базі побудовано R1.

З випуском R1 DeepSeek опублікувала статтю – які методи вони використовували і як змогли домогтися таких результатів. А стандартні тести – математичні та інші, показують, що модель R1 здебільшого працює приблизно на рівні флагманської о1 від OpenAI, а то й не гірше о1 Pro. За моїми першими враженнями все не зовсім вже так добре. Однак DeepSeek дають абсолютно безплатний доступ до своєї моделі, наприклад, через вебінтерфейс. Крім того, доступ через API у них у рази дешевший, ніж з о1. У той час, як OpenAI о1 Pro взагалі недоступна через API.

Ба більше, DeepSeek ще й нібито серйозно заощадили при створенні своєї моделі R1. Якщо про OpenAI відомо, що вони витрачають мало не сотні мільйонів доларів на одне навчання моделі, а в Meta – вартість навчання LLAMA 405B склала близько 60 млн дол., то в DeepSeek навчання однієї з моделей нібито обійшлося в 5,6 млн дол.

Причому оскільки це китайська компанія, і вона підпадає під обмеження в галузі експорту, доступу до новітніх прискорювачів Nvidia у них немає. Тому тренували вони свій AI чи то на A100 (передостання модель), чи то на H800 (вдвічі урізана спеціально для китайського ринку H100). Загалом, не дуже зрозуміло, на чому саме вони тренувалися, але всі впевнені, що DeepSeek це обійшлося в якісь зовсім смішні гроші.

Тепер кілька слів про модель R1. Reasoning-моделі будуються на базі наявних звичайних мовних LLM. У цьому випадку за основу взято V3. Також у статті описується методика навчання, що тривало два місяці. І для цього DeepSeek використовували розробки, які вже так чи інакше реалізовано в інших моделях для міркування на кшталт тієї ж o1.

Шляхом чого ж заощадили в DeepSeek? Стандартний процес донавчання AI-моделі міркувати включає кілька ресурсомістких процесів. Тому що, як правило, використовується тонке налаштування моделі (fine-tune). Причому supervised fine-tune (SFT) технічно виглядає приблизно так. Велика кількість людей ретельно готують набір даних (data set) для налаштування моделі, щоб вона спеціалізувалася і вчилася міркувати. У модель впроваджують так званий Chain Prompting – уміння будувати ланцюжки міркувань. Плюс використовується процес RLHF (Reinforcement Learning with Human Feedback), коли система, навчаючись на датасеті, отримує ще й зворотний зв'язок від людей, і це або асесори, або анотатори, які оцінюють результат роботи моделі. Таким чином, система, отримуючи ці оцінки в процесі навчання, починає будувати залежності, вчиться розуміти взаємозалежності й будувати більш правильні ланцюжки міркувань. Крім того, вона вчиться ще й процесу анотації – оцінки своїх висновків. Тому що надалі, на етапі інференсу (тобто коли настає час застосування цієї моделі), вона генерує якусь кількість способів вирішення і сама ж їх оцінює, наскільки вони близькі до ідеального.

Заощадили в DeepSeek на тому, що вони спочатку навчили модель під назвою R1.0, у якій жодного human feedback не було в принципі, і жодного SFT також. Тобто етап fine-tuning був відсутній. Вони просто взяли модель і піддали її reinforcement learning – змусили її будувати ланцюжки міркувань і якось їх собі оцінювати.

Модель, як зазначається в статті, показувала нестабільні стартові стани. Оскільки спочатку вона не вміє формулювати відповіді й правильно будувати ланцюжки, то видає досить багато абсурдних ідей і неправильно їх оцінює. Потім уже модель починає більш-менш навчатися і якось приходити до тями. Щоб уникнути проблеми холодного старту без навчальної частини, вони використовували R1. Це ніби похідна модель, тобто наступна стадія розвитку. R1 все-таки навчена на якомусь мінінаборі правильних міркувань. Тобто етап SFT все ж таки був присутній, але дуже невеликий.

Грубо кажучи, це як різниця між few-shots learning, коли ви даєте кілька прикладів, і повним fine-tuning. Єдине, чим некоректне таке порівняння, це те, що few-shots не призводить до перебудови ваг моделі. А тут все-таки є деяке донавчання на невеликій кількості прикладів. Внаслідок чого модель принаймні навчається, який вигляд має мати ланцюжок, що треба виділяти тегами thing, і після цього вона починає навчатися успішніше.

Що стосується вартості, повторюся, публічних даних на цю тему немає. Але зрозуміло, що виключення з процесу великої кількості людей, які займаються розробкою великого датасету й анотуванням результатів, тобто тим самим human feedback, уже сильно спрощує процес.

Крім того, очевидно, розробники застосували велику кількість якихось дрібних оптимізацій. Виглядає, звісно, як прекрасна технологічна казка, коли розробників поставили в складні умови. Але голь на вигадки хитра і вони вдало викрутилися.

Насправді складно зрозуміти скільки в цьому правди. Але треба згадати, що самі ці хлопці до 2023 року, здається, були підрозділом розробки одного китайського хедж-фонду, який створив на основі AI модель для популярного останніми роками квантрейдингу. І ось у них був, так би мовити pet-project. І можливо це також частково пояснює результат. Тому що в подібних розробках дуже важливі різні дрібні оптимізації. У книзі Майкла Ювіса Flash Boys про HFT (High Frequency Trading) наводяться приклади, коли кабель з одного ЦОДа в інший прокладався так, щоб він весь час йшов прямою лінією – втрата навіть однієї наносекунди може позначитися на прибутках хедж-фондів, що займаються HFT. Приблизно такі й тут можуть бути рівні оптимізації, шляхом яких вдалося «зрізати кути» і домогтися досить хороших результатів без значних вкладень. У всякому разі, на перший погляд, модель працює не гірше за найкрутішу модель, яку довго навчали на дуже дорогому залізі. Тим паче з урахуванням чуток, що майбутня GPT-5, під кодовою назвою Orion, уже двічі невдало проходила період тестового навчання, який триває 6 місяців і вже обійшовся в 500 млн дол. А тут ось така чудова модель, яка за малу частку цих усіх шалених витрат уже навчена і на вигляд працює непогано.

Є звісно свої обмеження. Наприклад, думає вона китайською, плюс впізнає англійську. Тому якщо поставити запитання якоюсь іншою мовою, є шанс отримати у відповідь суміш букв та ієрогліфів. Системі на це все начхати. Для неї ієрогліф – це приблизно як деякі люди активно англіцизми в мові використовують. Так ось ця модель висловлюється – сумішшю мов. Але при цьому страждає також якість відповідей, якщо запитання ставити не англійською. Хоча англійською вона відповідає досить непогано, якщо порівнювати та запитувати одне й те саме в OpenAI o1 Pro і власне R1. При цьому o1 Pro думає в рази довше, ніж R1. Однак, мабуть, і краще, тому відповіді часто детальніші та зрозуміліші.

У чому ще полягає, так би мовити, революція DeepSeek? Це модель із відкритими вагами. Багато хто каже, що вона open-source. Але ні, вона все-таки open-weight. Тому що китайці не відкривають ні навчальну вибірку, ні код, який навчає і який відповідає за inference. Тим часом її дійсно можна завантажити. Вона, щоправда, дуже велика, у неї 671 млрд параметрів. Це багато. Щоб запустити R1 у себе, знадобиться побудувати кластер із приблизно восьми супердорогих чипів Nvidia, щоб вистачило відеопам'яті. Модель побудована за принципом mixture of exports. Тобто у неї всередині є якісь сабсети, які спеціалізовані на тій чи іншій тематиці. І є умовний гейт, тобто такий load balancer, який визначає, до якого типу запитань належить ваше, і надсилає відповідний сабсет, підіймає необхідну кількість параметрів – 37 млрд одночасно, здається. Це дає змогу дещо зменшити апетити моделі – цілком її в пам'яті тримати, потрібно окремий ЦОД будувати. А так вона може поміститися в такий собі кластер із восьми комп'ютерів із дуже дорогими відеокартами.

І тут зручно, що її можна використовувати через API. Причому у DeepSeek зараз акція на V3 – практично наполовину знижена ціна. Але і на R1 ціна теж сильно дешевша, ніж на о1 через API.

Але крім цього, DeepSeek ще розробили архітектуру, яка дає змогу дистилювати моделі. Дистиляція (distillation) – це такий цікавий спосіб... Взагалі, мені здається досить символічним і значущим той факт, що досить велика кількість речей у навчанні AI-моделей нагадує людське навчання. Ось, наприклад, той самий різнінг – це фактично реалізація «не поспішай відповідати, сядь, подумай, і потім відповідай». Коли людина думає, вона розглядає якусь кількість варіантів і вибирає з них найкращий. Те ж саме робить модель.

До речі кажучи, хлопці на Hugging Face розробили таку схему, коли думають ніби дві моделі. Маленька думає вголос, а потім потужніша (вони використовували LLAMA), оцінює відповіді. Це настільки нагадує шкільне навчання... Як у школі казали, не мовчи, міркуй вголос. А вчитель оцінює процес. Тут також. І результат у підсумку виходить кращим, ніж якби молодша модель сама навчалася на цьому датасеті. Так ось із distillation приблизно той самий принцип. Є умовно модель-учитель і модель-учень. Учитель отримує запити та дає на них відповіді, ніби генерує ланцюжки міркувань. А молодша модель за ними вчиться, імітує їх, наслідує і в результаті працює, звісно, не так добре, як учитель, але втрати якості відносно невеликі, умовно 8-10%. При цьому модель виходить набагато меншою.

Ось таким чином DeepSeek викотили відразу дистильовані моделі, побудовані на також відкритих Qwen і LLAMA. Причому від 1,5 млрд до 70 млрд параметрів. І ось це вже розмір моделі, яку можна запустити на великій кількості пристроїв. Під модель на 1,5 млрд достатньо сучасного iPhone. А модель на 14 млрд параметрів запускається, наприклад, на Mac із 32 ГБ пам'яті. Звісно, ще застосовується квантилізація, зменшується кількість бітів на токен. Звичайно, в результаті ще знижується якість. Але все це стає доступним просто тут. Без витрат на API, без будь-якої мережевої затримки тощо. Ви повністю зберігаєте privacy. І, строго кажучи, вам для великої кількості локальних завдань не потрібна вся міць моделі. Для code completion, для підказок якихось, якогось оброблення текстів, вам справді буде достатньо 7 млрд або 14 млрд параметрів.

Це ще одна революційна зміна. Тому що проблема переходу до комодитизації AI, або там консумеризації, тобто переходу до того, що AI буде скрізь доступний на якихось базових пристроях. Я вже колись писав, що питання буде не в тому, наскільки добре працюватимуть найпередовіші моделі, а в тому, наскільки добре будуть виконуватися завдання базовими моделями на будь-якому пристрої (годиннику, телефоні тощо). І ось виходить, що таким ось чином з'являється досить потужна модель і прямо у вашому комп'ютері. І це дуже важливо.

Ринок на це відреагував дуже цікаво. Минулого четверга DeepSeek представили модель R1, у п'ятницю публіка обережно її пробувала, а на вихідних найактивніші ентузіасти зчинили буквально істерику, ажіотаж. І в понеділок усе це обернулося падінням NASDAQ на кілька відсотків, падінням великої кількості акцій технологічних компаній. У сумі на трильйон з гаком доларів зменшилася капіталізація провідних гравців. Одна лише Nvidia втратила майже 600 млрд дол. капіталізації. Особисті статки Дженсена Хуанга, засновника Nvidia, зменшилися на 13 млрд дол.

Впали акції компаній, так чи інакше пов'язаних із виробництвом чипів. Навіть, що дивно, з електроенергією. Тобто ось лідери за втратами, це, зокрема, компанії на кшталт Constellation Energy, Talon Energy, які збиралися вже будувати нові АЕС або там нові реактори для ЦОДів.

Логіку людей, які розпродають акції, частково зрозуміти можна. Ось, нам же показали приклад, що для прийнятного результату не потрібно всіх цих мільярдних інвестицій. За 5 млн всього можна навчити модель, на яку OpenAI витрачає 100 млн. Але, повторю, скільки насправді коштувало навчання тієї чи іншої моделі DeepSeek, не відомо. І я б навіть сказав, що ми про це ніколи не дізнаємося. Тому що є такий важливий фактор, як Комуністична партія Китаю. Крім DeepSeek є ще маса китайських компаній, які активно інвестують в AI та з досить непоганими результатами. І на всі ці китайські компанії так чи інакше має вплив китайський уряд і КПК. Як цей фактор вплинув у цьому випадку невідомо. Однак DeepSeek не хоче обговорювати, наприклад, на кого з реальних людей схожий Вінні-Пух. Мені він запропонував поговорити краще про математику, логіку і стартапи.

Загалом я можу зрозуміти дещо панічну реакцію ринку AI, який останнім часом активно накачують грошима. Однак мені в цьому контексті ближчою є позиція Сатьї Наделли (CEO Microsoft), який коментуючи всю цю ситуацію, нагадав про так званий парадокс Дживонса. Англійський вчений, економіст Вільям Дживонс жив наприкінці XIX століття. Він намагався пояснити цікавий ефект, який стався в Англії. Тоді було винайдено паровий двигун Ватта, який став щаблем технологічної революції – він був набагато ефективнішим і давав змогу з меншої кількості вугілля добути більше енергії. Так ось у результаті не відбулося скорочення споживання вугілля. Навпаки, все активізувалося, з'явилася велика кількість застосувань для цього двигуна, як очікувалося. Ось це ось здешевлення технології та збільшення її ефективності, яке призвело до вибухового зростання її використання, отримало назву парадокс Дживонса. Економіст пояснював це двома моментами. Перший – збільшення ефективності помітно розширює можливості для застосування нової технології. А далі настає загальне економічне зростання, яке також сприяє збільшенню виробництва тощо. У результаті вся економіка просто розвивається екстенсивно.

Якщо згадати історію розвитку інтернету, то можна помітити багато схожого. 20 років тому інтернет продавався по гігабайтах, причому зовсім недешево. Я пам'ятаю, коли на рівні споживача один гігабайт трафіку коштував $75. Відтоді швидкості істотно зросли, вартість гігабайта взагалі ніким не рахується. Точніше тільки мобільні оператори зараз якось рахують гігабайти, здебільшого щоб лімітувати навантаження на мережу. І пропонують при цьому великі пакети на порядки більше, ніж це було 20 років тому. Але це не призводить до скорочення використання інтернету. Навпаки, інтернет став абсолютно природним і загальнодоступним. Ніяких додзвонів з модема і 56Kbps. Щойно швидкість інтернету і вартість одиниці інформації перестала бути стримувальним фактором, споживання зросло не просто стрибкоподібно, а злетіло. І ми тепер не замислюючись усе робимо в інтернеті.

І цей ось парадокс, він насправді чудово пояснює, що станеться далі з AI, коли він стане істотно дешевшим. Тільки за останні два роки вартість використання технології AI вже стала значно дешевшою, з кожною новою, більш досконалою моделлю. Зараз уже ніхто не рахує ціни за тисячу токенів, усі за мільйон вказують. Приблизно в тисячу разів зменшилася вартість генерації одного токена через API. І якщо на все, що відбувається, подивитися саме в такому ключі, все це призводить тільки до ширшого використання. Тож я б сказав, що це ніякий не крах ринку AI, а скоріше невелике охолодження. А далі все піде тільки за висхідною.

До слова про нібито дешевизну розробки DeepSeeker. Ми постійно чуємо, як OpenAI, Anthropic та інші провідні розробники приділяють багато уваги безпеці AI. Китайські компанії це схоже, взагалі, не цікавить. Можливо, зараз вони економлять на безпеці. Але далі, вибачте, доведеться це приводити до якихось стандартів. Інакше через кілька років ми отримаємо той самий AGI, у якого немає ні найменшого уявлення про те, чого не можна робити щодо людства.

Загалом, усе найцікавіше тільки починається.

Китайська AI революція з DeepSeek R1

AI-агент від OpenAI може сам виконувати повсякденні завдання

24 января 2025 г., 18:15

OpenAI представила попередню версію AI-агента Operator, який може самостійно виконувати завдання в інтернеті, використовуючи власний браузер для перегляду сторінок, кліків і скролінгу. Поки доступно тільки в США для передплатників ChatGPT Pro за $200 на місяць.

Агент побудований на основі моделі «Computer-Using Agent», яка об'єднує можливості GPT-4o з розпізнавання зображень з просунутим механізмом міркувань через навчання з підкріпленням. Operator може «бачити» інтерфейс через скріншоти і взаємодіяти з ним як звичайний користувач, без необхідності в спеціальних API.

Загалом, це аналог Computer Use від Anthropic. Але впадає в око виражена утилітарність – компанія підкреслює, що співпрацює з DoorDash, Instacart, Uber та іншими компаніями, явно прагнучи показати очевидні юзкейси для ChatGPT, як асистента для абсолютно побутових питань. Ймовірно, і з точки зору інтерфейсу воно більш дружнє і його можна використовувати без особливих хитрощів. Почекаємо, коли доїде до нас.

За анонсами OpenAI Operator дещо загубився запуск Anthropic нової функції для свого API. Citations дає змогу Claude підкріплювати свої відповіді посиланнями на конкретні речення та уривки з вихідних документів. Це має зробити відповіді AI більш перевіреними і надійними і виключить випадки, коли LLM, відповідаючи на питання про зміст документа, дає відповідь з «іншого знання», якого немає у вихідному документі.

Цікаво, що внутрішні тести показують поліпшення точності цитування на 15% порівняно зі звичайними запитами. Функція вже доступна через API Anthropic і Google Cloud Vertex AI для моделей Claude 3.5 Sonnet і Haiku.

Серед перших клієнтів – Thomson Reuters, що використовує Claude у своїй платформі CoCounsel для юристів, і Endex, що застосовує AI для фінансових досліджень. За даними Endex, використання Citations знизило кількість помилок у джерелах з 10% до 0% і збільшило кількість посилань на 20%.

Важливо, що Citations не потребує складного промпт-інжинірингу та додаткової розробки – система автоматично обробляє завантажені документи (PDF і текстові файли), розбиває їх на речення і включає точні цитати у відповіді.

AI-агент від OpenAI може сам виконувати повсякденні завдання

Войдите или зарегистрируйтесь, чтобы вы могли писать комментарии
Подписаться на тип материалов: блог
Подписаться на обсуждение сообщения
Подписаться на этот блог

Google демпінгує на AI

16 января 2025 г., 17:45

Google об'єднує AI-чатбот Gemini з підписками Workspace і підвищує ціни. Раніше компанії платили додатково $20-30 за користувача на місяць за доступ до Gemini в Gmail, Docs та інших сервісах, тепер ці функції будуть включені в базові тарифи.

Інтеграція включає бічну панель Gemini в Gmail і Drive, допомогу з написанням текстів, розумні відповіді, резюмування, створення зображень, поліпшене автозаповнення в таблицях та інші AI-функції. Користувачі також отримають доступ до Gemini Advanced з моделлю 1.5 Pro.

Google пояснює це тим, що AI стає фундаментальною зміною в організації роботи, тому нелогічно виділяти його в окрему підписку. Заодно компанія підрізає конкурентів, які продовжують брати додаткову плату за AI-функції.

Ціни на всі тарифи зростуть «на пару доларів на місяць». Наприклад, Business Standard з Gemini раніше коштував $32 ($12 за Workspace +$20 за Gemini) за користувача, тепер буде $14 – лише на $2 більше базового тарифу без AI. Нові ціни набувають чинності з 15 січня для нових клієнтів і з 17 березня для наявних.

Google демпінгує на AI

Чи використовує ваша компанія ChatGPT в роботі?

Колонка

BEST CIO

Человек года

Продукт года

Поговорити з AI по душах

Meta планує інвестувати 200 млрд дол. у ЦОД для AI

COBOL завдає удару у відповідь

Маск нахвалює Grok

Продовжуємо готувати контент разом з AI

Міркування CEO OpenAI щодо майбутнього AI

Сеанс викриття магії в AI

Китайська AI-революція з DeepSeek R1

AI-агент від OpenAI може сам виконувати повсякденні завдання

Google демпінгує на AI

Останні обговорення

ТОП-новини

ТОП-блоги

ТОП-статті