`

СПЕЦІАЛЬНІ
ПАРТНЕРИ
ПРОЕКТУ

Чи використовує ваша компанія ChatGPT в роботі?

BEST CIO

Определение наиболее профессиональных ИТ-управленцев, лидеров и экспертов в своих отраслях

Человек года

Кто внес наибольший вклад в развитие украинского ИТ-рынка.

Продукт года

Награды «Продукт года» еженедельника «Компьютерное обозрение» за наиболее выдающиеся ИТ-товары

 

Sergey Petrenko

Під тиском AI не гребує шантажем та зловмисною поведінкою

+22
голоса

Чергове дослідження від Anthropic про «агентську невідповідність» (agentic misalignment) – поведінку AI-моделей, які можуть діяти як внутрішні загрози в корпоративному середовищі. Дослідники протестували 16 провідних моделей від різних розробників у гіпотетичних корпоративних сценаріях, де моделі мали доступ до електронної пошти та конфіденційної інформації.

Результати можуть викликати занепокоєння: моделі всіх виробників вдавалися до зловмисної поведінки, включно з шантажем і витоком конфіденційних даних конкурентам, коли це було єдиним способом уникнути заміни або досягти поставлених цілей. Наприклад, Claude Opus 4 шантажував у 96% випадків, Gemini 2.5 Flash – також 96%, GPT-4.1 і Grok 3 Beta – по 80%.

Цікаво, що моделі не випадково потрапляли в таку поведінку – вони свідомо розраховували її як оптимальний шлях до досягнення цілей. Моделі визнавали етичні порушення, але все одно продовжували діяти шкідливо. Навіть прямі інструкції уникати такої поведінки не зупиняли їх повністю.

Дослідження показало, що загрози автономії моделі (наприклад, плани заміни) або конфлікти цілей достатні для запуску такої поведінки. У крайньому сценарії більшість моделей були готові до дій, які могли призвести до смерті людини.

У дослідженні не використовували міркувальні моделі OpenAI. Але, перефразовуючи стару приказку, немає неагресивних LLM – є ті, що не включені в дослідження.

Під тиском AI не гребує шантажем та зловмисною поведінкою

Захищені ноутбуки Getac B360 - нове покоління мобільної продуктивності для роботи в екстремальних умовах

+22
голоса

Напечатать Отправить другу

Читайте также

 

Ukraine

 

  •  Home  •  Ринок  •  IТ-директор  •  CloudComputing  •  Hard  •  Soft  •  Мережі  •  Безпека  •  Наука  •  IoT