Про самоаналіз великих мовних моделей

3 ноябрь, 2025 - 17:25Sergey Petrenko

Anthropic опублікувала дослідження про здатність LLM до інтроспекції – можливості моделі аналізувати власні внутрішні стани. Методика цікава: вони записували патерни нейронної активності моделі під час обробки певних концептів (наприклад, тексту великими літерами), а потім штучно вводили ці патерни в незв'язаному контексті. Claude Opus 4.1 у 20% випадків виявляла ін'єкцію і коректно ідентифікувала концепт.

Ключова відмінність від попередніх експериментів з активаційним стирингом – модель повідомляє про виявлення аномалії до того, як починає говорити про сам концепт. У випадку з «Golden Gate Claude» модель усвідомлювала свою одержимість мостом тільки постфактум, бачачи власні відповіді. Тут розпізнавання відбувається на внутрішньому рівні обробки.

Несподівана деталь – «helpful-only» версії моделей показували кращі результати інтроспекції, ніж продакшн-варіанти. Це вказує, що процес файн-тюнінгу для безпеки може пригнічувати ці здібності. Anthropic також виявила, що моделі реагують на інсентиви («якщо подумаєш про X, отримаєш нагороду»), так само як на прямі інструкції – можливо, це загальна система управління увагою.

Звичайно, 20% – це зовсім мало і ненадійно, але, як то кажуть, ми на самому початку шляху. Якщо вам цікаво, до чого, то уточню, що інтроспекція вважається важливою (хоча і недостатньою) рисою власної свідомості. Принаймні, у людей це так.

Про самоаналіз великих мовних моделей