Чергове дослідження від Anthropic про «агентську невідповідність» (agentic misalignment) – поведінку AI-моделей, які можуть діяти як внутрішні загрози в корпоративному середовищі. Дослідники протестували 16 провідних моделей від різних розробників у гіпотетичних корпоративних сценаріях, де моделі мали доступ до електронної пошти та конфіденційної інформації
