`

СПЕЦІАЛЬНІ
ПАРТНЕРИ
ПРОЕКТУ

Чи використовує ваша компанія ChatGPT в роботі?

BEST CIO

Определение наиболее профессиональных ИТ-управленцев, лидеров и экспертов в своих отраслях

Человек года

Кто внес наибольший вклад в развитие украинского ИТ-рынка.

Продукт года

Награды «Продукт года» еженедельника «Компьютерное обозрение» за наиболее выдающиеся ИТ-товары

 

Sergey Petrenko

Про самоаналіз великих мовних моделей

0 
 

Anthropic опублікувала дослідження про здатність LLM до інтроспекції – можливості моделі аналізувати власні внутрішні стани. Методика цікава: вони записували патерни нейронної активності моделі під час обробки певних концептів (наприклад, тексту великими літерами), а потім штучно вводили ці патерни в незв'язаному контексті. Claude Opus 4.1 у 20% випадків виявляла ін'єкцію і коректно ідентифікувала концепт.

Ключова відмінність від попередніх експериментів з активаційним стирингом – модель повідомляє про виявлення аномалії до того, як починає говорити про сам концепт. У випадку з «Golden Gate Claude» модель усвідомлювала свою одержимість мостом тільки постфактум, бачачи власні відповіді. Тут розпізнавання відбувається на внутрішньому рівні обробки.

Несподівана деталь – «helpful-only» версії моделей показували кращі результати інтроспекції, ніж продакшн-варіанти. Це вказує, що процес файн-тюнінгу для безпеки може пригнічувати ці здібності. Anthropic також виявила, що моделі реагують на інсентиви («якщо подумаєш про X, отримаєш нагороду»), так само як на прямі інструкції – можливо, це загальна система управління увагою.

Звичайно, 20% – це зовсім мало і ненадійно, але, як то кажуть, ми на самому початку шляху. Якщо вам цікаво, до чого, то уточню, що інтроспекція вважається важливою (хоча і недостатньою) рисою власної свідомості. Принаймні, у людей це так.

Про самоаналіз великих мовних моделей

Стратегія охолодження ЦОД для епохи AI

0 
 

Напечатать Отправить другу

Читайте также

 

Ukraine

 

  •  Home  •  Ринок  •  IТ-директор  •  CloudComputing  •  Hard  •  Soft  •  Мережі  •  Безпека  •  Наука  •  IoT