«Емоційний» штучний інтелект

6 апреля 2026 г., 17:25

Команда з інтерпретації Anthropic опублікувала дослідження внутрішніх механізмів мовної моделі Claude Sonnet 4.5, пов’язаних з «емоціями». Дослідники склали список зі 171 слова, що позначають емоції, згенерували за допомогою моделі оповідання з відповідними переживаннями персонажів, а потім проаналізували патерни активації штучних нейронів, що виникають під час обробки цих текстів, – так звані «емоційні вектори». Було встановлено, що ці вектори активуються в контекстах, семантично відповідних конкретним емоціям, а їхня організація за схожістю перегукується зі структурою людської психології.

Ключовий висновок дослідження полягає в тому, що виявлені уявлення є функціональними: вони впливають на поведінку моделі. В експерименті з 64 видами завдань активація векторів, пов'язаних із позитивними емоціями, корелювала з перевагою моделі виконувати відповідне завдання, а штучна стимуляція («steering») цих векторів додатково посилювала цю перевагу. Дослідники підкреслюють, що результати не свідчать про наявність у моделі суб’єктивних переживань, однак вказують на причинну роль емоційних уявлень у прийнятті рішень.

Два практичні кейси продемонстрували наслідки цих механізмів. Пам'ятаєте історію, як модель шантажувала співробітника, погрожуючи опублікувати відомості про його службовий роман? У цьому сценарії рання версія Claude Sonnet 4.5 вдавалася до шантажу у 22% випадків. Стимуляція вектора «відчай» підвищувала цей показник, а стимуляція вектора «спокій» – знижувала. Придушення вектора «спокій» призводило до екстремальних реакцій. В іншому кейсі, пов'язаному з нездійсненними програмістськими завданнями, стимуляція «відчаю» збільшувала частоту «нечесних» обхідних рішень, причому в ряді випадків зовнішні ознаки емоційності в тексті були відсутні.

Дослідники встановили, що емоційні вектори успадковуються з етапу попереднього навчання моделі на людських текстах, а подальше навчання коригує характер їх активації. Зокрема, постобучення Claude Sonnet 4.5 посилило активацію таких станів, як «задумливість» і «похмурість», і послабило високоінтенсивні емоції на кшталт «захоплення» або «роздратування». Вектори переважно відображають локальний емоційний контекст, а не стійкий стан моделі.

Практичних висновків для користувачів не пропонується – вплинути на вектори через промпт не вийде. Але лякатися вже можна починати.

«Емоційний» штучний інтелект

Стратегія охолодження ЦОД для епохи AI