Anthropic з колегами опублікували дослідження про те, що вони назвали «subliminal learning» – підсвідомим навчанням великих мовних моделей (LLM). Суть у тому, що моделі можуть передавати одна одній поведінкові риси через дані, які ніяк із цими рисами не пов'язані.
Наприклад, модель, яка «любить сов», генерує звичайні послідовності чисел. Інша модель, навчена на цих числах, теж починає віддавати перевагу совам у своїх відповідях. Жодних згадок сов у числах немає, але перевага передається.
Цікава деталь – це працює тільки між моделями зі спільною базою. GPT-4 може передати риси іншій GPT-4, але не Qwen або Claude. Дослідники припускають, що справа в модель-специфічних статистичних патернах.
Проблема в тому, що так само може передаватися і небажана поведінка. Модель із проблемами в alignment може «заразити» інші моделі через цілком нешкідливі на вигляд дані – числа, код, математичні викладки. І фільтрація тут не допоможе, оскільки на семантичному рівні дані чисті.
Для індустрії це означає необхідність перегляду практик дистиляції моделей. Простої фільтрації контенту вже недостатньо. Потрібні глибші методи контролю.
У мене є окрема розвага – знаходити аналогії в людській поведінці для всякого нового ефекту в LLM. Ось тут я відразу подумав про поведінковий таргетинг. Адже його основна особливість полягає в тому, що людину відносять до певного кластера на підставі поведінки в онлайні та поширюють інші характеристики кластера для показу їй реклами. У підсумку людина, яка регулярно відвідує сторінки про фінанси та новини, у підсумку побачить рекламу дорогих смартфонів – тому що інші люди, які відвідують ці сторінки, відвідують також огляди дорогих смартфонів. І це тільки найближчий приклад.