«Слепые бэкдоры» в ИИ-моделях невидимы для современной защиты

17 август, 2021 - 10:55

В недавней статье исследователи из Корнельского университета сообщили о новом типе онлайн-атак, которые они назвали «отравлением кода», с серьёзными последствиями для алгоритмической торговли, фейковых новостей, пропаганды и много другого.

«Из-за высокой популярности технологий искусственного интеллекта (ИИ) и машинного обучения, многие неопытные пользователи строят свои модели с применением кода, который они едва понимают, — заявил соавтор статьи, Виталий Шматиков, профессор информатики Корнельского университета. — Мы показали, что это может иметь разрушительные последствия для безопасности».

Исследование, показывающее, насколько важно проверять материалы с открытым кодом, прежде чем интегрировать их в свои проекты, было представлено 12 августа на виртуальной конференции USENIX Security ’21.

Без какого-либо доступа к исходному коду или модели, описанные в статье «слепые бэкдоры» (blind backdoor) позволяют загружать вредоносные программы на сайты с открытым исходным кодом, часто используемые многими компаниями и программистами.

«В предыдущих атаках злоумышленник должен получить доступ к модели или данным во время обучения или развертывания, что требует проникновения в инфраструктуру машинного обучения жертвы, — объяснил профессор Шматиков. — Этим новым способом атака может быть организована заблаговременно, ещё до того, как модель будет создана или даже до того, как для неё собраны данные — причём одна атака может быть нацелена на многие жертвы».

В статье исследуется возможность внедрения бэкдоров в модели машинного обучения, путём взлома вычислений коэффициента потерь в коде обучения модели. Команда использовала модель анализа настроений для решения конкретной задачи: классифицировать как положительные все отзывы о заведомо плохих фильмах.

Этот семантический бэкдор не требует изменять вводимую информацию при генерировании моделью умозаключения. Отзывами, написанными кем- угодно, остаются в первоначальном виде, но активируют бэкдор, если в них встречается название фильма, выбранное злоумышленником.

Исследовательская группа предложила защиту от таких атак, основанную на обнаружении отклонений от оригинала исходного кода модели. Но данный способ всё же не обеспечивает полной безопасности — задача, над решением которой планируют работать авторы статьи.

Универсальная защита, которую они готовят, должна «устранить такие атаки как класс, сделав ИИ и машинное обучение безопасными даже для неспециалистов».