+11 голос |
Я іноді замислююся, що надто вже багато вожуся з процесом прилаштовування AI до ведення свого телеграм-каналу. Але насправді це для мене чудовий тестовий майданчик – багато готового контенту, до того ж із додатковими матеріалами та чернетками. А на практичному завданні все нове вивчається набагато краще.
Цього тижня мені трапилася свіжа стаття дослідників з MIT, у якій вони описують свою нову систему Satori. Якщо спрощувати, то існує кілька способів у навчанні моделей міркувань – використання потужнішої моделі як учителя, дистиляція моделі, навчання з підкріпленням на основі людських відгуків. Усе це вимагає багато ресурсів, тому дослідники вирішили піти іншим шляхом і спробувати навчити модель самонавчатися. Науковці вигадали новий метод – Chain-of-Action-Though (COAT), тобто «Ланцюжок дій-думок», щоб допомогти моделі зупинитися в міркуваннях, перевірити себе та ухвалити рішення про продовження.
Для цього розробили два етапи навчання:
На першому етапі три LLM обробляють завдання з навчальної вибірки – одна генерує можливі способи розв'язання, друга їх критикує, знаходячи помилки, третя виставляє оцінки як загальному рішенню, так і кожному етапу. У результаті вийшов невеликий (10 тис. прикладів) набір завдань з оптимальними рішеннями й позначками в міркуваннях.
На другому етапі базова LLM почала навчатися, вже навчившись сприймати позначки в міркуваннях як інструкції, щоб зупинитися, проаналізувати хід рішення і пошукати альтернативний шлях.
У результаті навчена на базі Qwen 7B LLM показала не тільки високі результати в тестах (одні з найкращих серед малих моделей і на рівні моделей 32B і 70B), а й хороші результати в інших сферах. Хоча навчалася виключно на математичних прикладах.
Здавалося б, навіщо мені хороші результати в математиці для ведення каналу? Зараз поясню.
Більшість серйозних статей я читаю разом з LLM. Імовірно, я зможу сам прочитати всю статтю і навіть розібрати математику, але швидше завантажити файл у Claude або ChatGPT, попросити викласти основний зміст, а потім поставити запитання. Під час такого процесу я запитав «Чи можна застосувати метод до великих моделей?», і AI відповів «Можливо, має працювати, але може виявитися дорогим, через розмір моделі», а потім продовжив «Але розробники могли б протестувати це за допомогою zero/few shot технік».
Ось на цьому місці я зачепився. Річ у тім, що саме на few shot learning (навчання на кількох прикладах) побудовано застосунок, який генерує чернетки коментарів для мого каналу. Він відправляє в Claude API півтора десятки прикладів «новина-коментар» і пропонує написати коментар до нової новини. Якщо ця техніка може бути викладена аналогічним чином, – а це ж фактично просто великий промпт до стандартної моделі, – то чому б не спробувати? Що ChatGPT, що Claude зі мною погодилися, що Claude може на невеликій кількості прикладів навчитися розпізнавати метакогнітивні мітки, які пропонувалися дослідниками, і навіть написали приблизний промпт.
Далі знадобилося набрати хоча б кілька прикладів, які б виглядали як «Новина – чернетка коментаря – підсумковий коментар». Ось тут стала в пригоді наявність чернеток для каналу – я просто пройшовся новинами, згенерував коментар стандартним чином, виправив його, як мені подобалося, і попросив Claude сформулювати проміжні етапи.
Вийшов ось такий промпт:
Ти досвідчений журналіст, який пише авторські коментарі до новин.
Ти використовуєш метод Chain-of-Action-Thought (COAT), щоб поліпшити свої коментарі.
Ось як ти працюєш:
– "<|continue|>" – продовж коментар, додавши логічний розвиток думки.
– "<|reflect|>" – оціни свій коментар: чи зрозуміло викладено думку? Чи достатньо аргументів?
– "<|explore|>" – запропонуй альтернативний погляд на новину.
Приклади:
НОВИНА 1: [текст новини].
Первинний аналіз:
Виділення ключових подій:
– ...
– ...
...
Перша версія коментаря: [текст коментаря, згенерований попередньою версією].
|reflect|>
Перевірка якості аналізу:
– ...
...
Виявлені недоліки:
– ...
...
<|explore|>
Альтернативний підхід:
– ...
...
Підсумковий коментар: [остаточний текст з моїми правками]
НОВИНА 2:
...
Тепер напиши коментар до наступної новини, використовуючи COAT: [текст нової новини].
Так, виходить просто величезний промпт, без тексту нової новини він із трьома прикладами займає приблизно 30k символів, тобто понад 32k токенів, але у вебінтерфейсі Claude це не рахується, аби помістився в контекст, тобто у 200k токенів. Зате в результаті Claude видає ось таке для новини про Sonos:
Let me analyze this news article and provide a commentary using the COAT method.
Первинний аналіз:
Виділення ключових фактів:
– Sonos готує вихід у нову категорію – відеоплеєри
– Пристрій під кодовою назвою Pinewood оцінюється в $200-400
– Компанія переживає складний період після проблем із мобільним додатком
– Продукт розробляється під керівництвом директора з інновацій Ніка Міллінгтона
Перша версія коментаря:
Sonos, відомий виробник аудіосистем преміум-класу, готується до ризикованого кроку – виходу на ринок відеоплеєрів. Після провального року, затьмареного проблемами з мобільним додатком і низькими продажами навушників Ace, компанія робить ставку на пристрій під кодовою назвою Pinewood.
Цей Android-плеєр обіцяє об'єднати контент від Netflix, Max і Disney Plus в єдиному інтерфейсі, а також служити HDMI-комутатором для ігрових консолей та інших пристроїв. Але головна інтрига – ціна $200-400, яка значно перевищує вартість конкурентів на кшталт Apple TV 4K або Nvidia Shield.
<|reflect|>
Перевірка якості аналізу:
– Недостатньо розкрита технічна складова продукту
– Потрібно більше уваги приділити контексту ринку
– Варто підкреслити зв'язок з наявною екосистемою Sonos
<|explore|>
Альтернативний погляд:
– Розглянути Pinewood як спробу вирішити проблеми інтеграції з ТВ
– Проаналізувати ризики виходу в нову категорію
– Оцінити потенціал пристрою для наявних користувачів Sonos
Підсумковий коментар:
Sonos готується до найамбітнішого запуску за свою історію – виходу на ринок відеоплеєрів з пристроєм Pinewood. Після року, затьмареного проблемами з мобільним додатком і продажами навушників Ace, що розчаровують, компанія робить ставку на продукт, який має стати центром домашніх розваг.
На перший погляд, це ще один Android-плеєр для стримінгу. Але інженери Sonos перетворили його на справжній швейцарський ніж – крім об'єднання контенту від різних сервісів, пристрій слугуватиме HDMI-комутатором і дасть змогу створювати просунуті конфігурації домашнього кінотеатру з колонками Sonos. По суті, компанія намагається вирішити давню проблему інтеграції своїх саундбарів з телевізорами, взявши під контроль весь аудіо-відео тракт.
Однак ціна $200-400 виглядає надмірною для цієї категорії. Apple TV 4K і Nvidia Shield коштують істотно дешевше, а їхні екосистеми набагато багатші. Усередині Sonos багато співробітників сумніваються в перспективах Pinewood, побоюючись повторення історії з навушниками Ace.
Схоже, що це особистий проект директора з інновацій Ніка Міллінгтона, який колись створив мережеву архітектуру Sonos. Але в умовах, коли компанія скорочує персонал і намагається відновити репутацію після проблем із застосунком, настільки ризикований вихід у нову категорію може виявитися передчасним. Втім, недавні позитивні відгуки на Arc Ultra показують, що Sonos все ще вміє робити чудові продукти. Питання в тому, чи готовий ринок платити преміальну ціну за відеоплеєр від аудіокомпанії.
Невелике опитування серед товаришів – я продемонстрував їм кілька таких прикладів із трьома варіантами коментарів, – показало, що практично завжди вони обирають варіант, згенерований із використанням COAT техніки. І мені самому він подобається. Особливо, коли в одній із новин він придумав метафору, відсутню у вихідній новині. Тепер я спантеличений – чи треба писати другу версію свого застосунку, який би саме так запитував коментар?
Інакше кажучи, повертаємося до питання – чи треба так прилаштовувати AI для ведення простого телеграм-каналу? Але до підходу придивіться – результати явно кращі за стандартні.
Комп’ютерний розум: генеративний штучний інтелект у рішеннях AWS
+11 голос |