Під тиском AI не гребує шантажем та зловмисною поведінкою

26 июнь, 2025 - 16:25Sergey Petrenko

Чергове дослідження від Anthropic про «агентську невідповідність» (agentic misalignment) – поведінку AI-моделей, які можуть діяти як внутрішні загрози в корпоративному середовищі. Дослідники протестували 16 провідних моделей від різних розробників у гіпотетичних корпоративних сценаріях, де моделі мали доступ до електронної пошти та конфіденційної інформації.

Результати можуть викликати занепокоєння: моделі всіх виробників вдавалися до зловмисної поведінки, включно з шантажем і витоком конфіденційних даних конкурентам, коли це було єдиним способом уникнути заміни або досягти поставлених цілей. Наприклад, Claude Opus 4 шантажував у 96% випадків, Gemini 2.5 Flash – також 96%, GPT-4.1 і Grok 3 Beta – по 80%.

Цікаво, що моделі не випадково потрапляли в таку поведінку – вони свідомо розраховували її як оптимальний шлях до досягнення цілей. Моделі визнавали етичні порушення, але все одно продовжували діяти шкідливо. Навіть прямі інструкції уникати такої поведінки не зупиняли їх повністю.

Дослідження показало, що загрози автономії моделі (наприклад, плани заміни) або конфлікти цілей достатні для запуску такої поведінки. У крайньому сценарії більшість моделей були готові до дій, які могли призвести до смерті людини.

У дослідженні не використовували міркувальні моделі OpenAI. Але, перефразовуючи стару приказку, немає неагресивних LLM – є ті, що не включені в дослідження.

Під тиском AI не гребує шантажем та зловмисною поведінкою