Продовжуємо готувати контент разом з AI

Я іноді замислююся, що надто вже багато вожуся з процесом прилаштовування AI до ведення свого телеграм-каналу. Але насправді це для мене чудовий тестовий майданчик – багато готового контенту, до того ж із додатковими матеріалами та чернетками. А на практичному завданні все нове вивчається набагато краще.

Цього тижня мені трапилася свіжа стаття дослідників з MIT, у якій вони описують свою нову систему Satori. Якщо спрощувати, то існує кілька способів у навчанні моделей міркувань – використання потужнішої моделі як учителя, дистиляція моделі, навчання з підкріпленням на основі людських відгуків. Усе це вимагає багато ресурсів, тому дослідники вирішили піти іншим шляхом і спробувати навчити модель самонавчатися. Науковці вигадали новий метод – Chain-of-Action-Though (COAT), тобто «Ланцюжок дій-думок», щоб допомогти моделі зупинитися в міркуваннях, перевірити себе та ухвалити рішення про продовження.

Для цього розробили два етапи навчання:

На першому етапі три LLM обробляють завдання з навчальної вибірки – одна генерує можливі способи розв'язання, друга їх критикує, знаходячи помилки, третя виставляє оцінки як загальному рішенню, так і кожному етапу. У результаті вийшов невеликий (10 тис. прикладів) набір завдань з оптимальними рішеннями й позначками в міркуваннях.

На другому етапі базова LLM почала навчатися, вже навчившись сприймати позначки в міркуваннях як інструкції, щоб зупинитися, проаналізувати хід рішення і пошукати альтернативний шлях.

У результаті навчена на базі Qwen 7B LLM показала не тільки високі результати в тестах (одні з найкращих серед малих моделей і на рівні моделей 32B і 70B), а й хороші результати в інших сферах. Хоча навчалася виключно на математичних прикладах.

Здавалося б, навіщо мені хороші результати в математиці для ведення каналу? Зараз поясню.

Більшість серйозних статей я читаю разом з LLM. Імовірно, я зможу сам прочитати всю статтю і навіть розібрати математику, але швидше завантажити файл у Claude або ChatGPT, попросити викласти основний зміст, а потім поставити запитання. Під час такого процесу я запитав «Чи можна застосувати метод до великих моделей?», і AI відповів «Можливо, має працювати, але може виявитися дорогим, через розмір моделі», а потім продовжив «Але розробники могли б протестувати це за допомогою zero/few shot технік».

Ось на цьому місці я зачепився. Річ у тім, що саме на few shot learning (навчання на кількох прикладах) побудовано застосунок, який генерує чернетки коментарів для мого каналу. Він відправляє в Claude API півтора десятки прикладів «новина-коментар» і пропонує написати коментар до нової новини. Якщо ця техніка може бути викладена аналогічним чином, – а це ж фактично просто великий промпт до стандартної моделі, – то чому б не спробувати? Що ChatGPT, що Claude зі мною погодилися, що Claude може на невеликій кількості прикладів навчитися розпізнавати метакогнітивні мітки, які пропонувалися дослідниками, і навіть написали приблизний промпт.

Далі знадобилося набрати хоча б кілька прикладів, які б виглядали як «Новина – чернетка коментаря – підсумковий коментар». Ось тут стала в пригоді наявність чернеток для каналу – я просто пройшовся новинами, згенерував коментар стандартним чином, виправив його, як мені подобалося, і попросив Claude сформулювати проміжні етапи.

Вийшов ось такий промпт:

Ти досвідчений журналіст, який пише авторські коментарі до новин.

Ти використовуєш метод Chain-of-Action-Thought (COAT), щоб поліпшити свої коментарі.

Ось як ти працюєш:

– "<|continue|>" – продовж коментар, додавши логічний розвиток думки.

– "<|reflect|>" – оціни свій коментар: чи зрозуміло викладено думку? Чи достатньо аргументів?

– "<|explore|>" – запропонуй альтернативний погляд на новину.

Приклади:

НОВИНА 1: [текст новини].

Первинний аналіз:

Виділення ключових подій:

– ...

...

Перша версія коментаря: [текст коментаря, згенерований попередньою версією].

|reflect|>

Перевірка якості аналізу:

– ...

...

Виявлені недоліки:

– ...

...

<|explore|>

Альтернативний підхід:

– ...

...

Підсумковий коментар: [остаточний текст з моїми правками]

НОВИНА 2:

...

Тепер напиши коментар до наступної новини, використовуючи COAT: [текст нової новини].

Так, виходить просто величезний промпт, без тексту нової новини він із трьома прикладами займає приблизно 30k символів, тобто понад 32k токенів, але у вебінтерфейсі Claude це не рахується, аби помістився в контекст, тобто у 200k токенів. Зате в результаті Claude видає ось таке для новини про Sonos:

Let me analyze this news article and provide a commentary using the COAT method.

Первинний аналіз:

Виділення ключових фактів:

– Sonos готує вихід у нову категорію – відеоплеєри

– Пристрій під кодовою назвою Pinewood оцінюється в $200-400

– Компанія переживає складний період після проблем із мобільним додатком

– Продукт розробляється під керівництвом директора з інновацій Ніка Міллінгтона

Перша версія коментаря:

Sonos, відомий виробник аудіосистем преміум-класу, готується до ризикованого кроку – виходу на ринок відеоплеєрів. Після провального року, затьмареного проблемами з мобільним додатком і низькими продажами навушників Ace, компанія робить ставку на пристрій під кодовою назвою Pinewood.

Цей Android-плеєр обіцяє об'єднати контент від Netflix, Max і Disney Plus в єдиному інтерфейсі, а також служити HDMI-комутатором для ігрових консолей та інших пристроїв. Але головна інтрига – ціна $200-400, яка значно перевищує вартість конкурентів на кшталт Apple TV 4K або Nvidia Shield.

<|reflect|>

Перевірка якості аналізу:

– Недостатньо розкрита технічна складова продукту

– Потрібно більше уваги приділити контексту ринку

– Варто підкреслити зв'язок з наявною екосистемою Sonos

<|explore|>

Альтернативний погляд:

– Розглянути Pinewood як спробу вирішити проблеми інтеграції з ТВ

– Проаналізувати ризики виходу в нову категорію

– Оцінити потенціал пристрою для наявних користувачів Sonos

Підсумковий коментар:

Sonos готується до найамбітнішого запуску за свою історію – виходу на ринок відеоплеєрів з пристроєм Pinewood. Після року, затьмареного проблемами з мобільним додатком і продажами навушників Ace, що розчаровують, компанія робить ставку на продукт, який має стати центром домашніх розваг.

На перший погляд, це ще один Android-плеєр для стримінгу. Але інженери Sonos перетворили його на справжній швейцарський ніж – крім об'єднання контенту від різних сервісів, пристрій слугуватиме HDMI-комутатором і дасть змогу створювати просунуті конфігурації домашнього кінотеатру з колонками Sonos. По суті, компанія намагається вирішити давню проблему інтеграції своїх саундбарів з телевізорами, взявши під контроль весь аудіо-відео тракт.

Однак ціна $200-400 виглядає надмірною для цієї категорії. Apple TV 4K і Nvidia Shield коштують істотно дешевше, а їхні екосистеми набагато багатші. Усередині Sonos багато співробітників сумніваються в перспективах Pinewood, побоюючись повторення історії з навушниками Ace.

Схоже, що це особистий проект директора з інновацій Ніка Міллінгтона, який колись створив мережеву архітектуру Sonos. Але в умовах, коли компанія скорочує персонал і намагається відновити репутацію після проблем із застосунком, настільки ризикований вихід у нову категорію може виявитися передчасним. Втім, недавні позитивні відгуки на Arc Ultra показують, що Sonos все ще вміє робити чудові продукти. Питання в тому, чи готовий ринок платити преміальну ціну за відеоплеєр від аудіокомпанії.

Невелике опитування серед товаришів – я продемонстрував їм кілька таких прикладів із трьома варіантами коментарів, – показало, що практично завжди вони обирають варіант, згенерований із використанням COAT техніки. І мені самому він подобається. Особливо, коли в одній із новин він придумав метафору, відсутню у вихідній новині. Тепер я спантеличений – чи треба писати другу версію свого застосунку, який би саме так запитував коментар?

Інакше кажучи, повертаємося до питання – чи треба так прилаштовувати AI для ведення простого телеграм-каналу? Але до підходу придивіться – результати явно кращі за стандартні.

Продовжуємо писати разом з AI

Стратегія охолодження ЦОД для епохи AI