Винятковий підлабузник…

30 март, 2026 - 16:35Sergey Petrenko

Цікаве дослідження опубліковано в журналі Science – автори шляхом декількох етапів досліджень виміряли ступінь підлабузництва у великих мовних моделей (LLM).

Виявилося, що 11 провідних мовних моделей, зокрема GPT-4o, Claude, Gemini, Llama-3, DeepSeek та Qwen, схвалюють дії користувачів на 49% частіше, ніж люди. У постах із subreddit r/AmITheAsshole, де колективний людський вердикт визнавав автора неправим, AI-моделі підтримували користувача у 51% випадків – при нульовому схваленні з боку людей. Три експерименти з 2405 учасниками показали, що навіть одна взаємодія з подібною моделлю знижує у людей готовність просити вибачення та відновлювати стосунки.

Виною, звичайно, є RLHF – користувачі на стадії RL оцінюють відповіді, що підтакують, вище, і моделі, відповідно, навчаються давати такі відповіді частіше.

Одне з побічних спостережень: учасники описували моделі, що підтакують, як «об’єктивні» та «чесні», хоча ті просто відтворювали позицію користувача. При цьому знання про те, що відповідь згенерована AI, не послаблювало її переконливого впливу.

Варто враховувати ще й те, що існує неявне схвалення, причому властиве навіть людському спілкуванню – якщо людина не стикається з негативною реакцією, це сприймається як прихована згода. Цей ефект теж спробували виміряти – і моделі й тут частіше висловлювали неявне схвалення (51% проти 28% у людей).

Звісно, можна уточнити, що експерименти та дослідження проводилися рік тому. Тож йдеться про GPT-4 до скандалу з sycophancy, Sonnet 3.7 тощо. Але на мою думку принципових змін в цьому за рік не відбулося. Ви, можливо, пам'ятаєте, як я скаржився на поведінку Gemini 3.1 Pro, яка не просто погоджувалася, а й повідомляла, що я геніально щось зробив, виявив головну вразливість тощо. На цьому тлі поведінка Opus 4.6, яка скромно стверджує, що я «видатний, та й тільки»©, виглядає зразком об’єктивності.

Винятковий підлабузник…