Разработана методика эффективного «машинного забывания»

18 марта 2016 г., 17:41

Системы, предсказывающие погоду или дающие рекомендации покупателям, анализируют большие массивы информации и формируют сложную сеть зависимостей, учитывающую все данные, усвоенные с помощью сложных алгоритмов машинного обучения.

Иньчжи Као (Yinzhi Cao), адъюнкт-профессор информатики и компьютерной техники, вместе с коллегой по Колумбийскому университету Цзюньфэн Янем (Junfeng Yang), выступили пионерами нового подхода к машинному обучению, наделяющего интеллектуальные системы способностью качественно забывать пройденное.

Разработанный ими алгоритм позволяет осуществлять это быстрее и более эффективно, чем современные методы. Растущая обеспокоенность проблемами безопасности данных и сохранения приватности обеспечила повышенный интерес к этому исследованию. На дальнейшее развитие концепции «машинного забывания» (machine unlearning) Као и Ян получили четырёхлетний грант в 1,2 млн долл. от Национального Научного Фонда (NSF).

«Для того, чтобы забывающие системы были эффективными, пользователи должны иметь возможность задавать им, какие данные следует забыть, и определять различные уровни тщательности забывания, — считает Као. — Системы должны устранять не только данные, но и все последствия их существования, так чтобы все будущие операции протекали, как если бы этих данных никогда не было».

Популярные обучающиеся системы, такие как Google Search, в большинстве случаев, способны забывать по требованию только исходные данные пользователей, но не созданные алгоритмом зависимости или их вклад в модели и статистику. Сервис-провайдеры имеют все основания беспокоится, поскольку это ставит их в прямое противоречие с законами, такими как «право быть забытым» (right to be forgotten), принятое Евросоюзом в 2014 г. В октябре 2014 г. Google удалила более 170 тыс. ссылок, а в прошлом году получила свыше четверти миллиона заявок на удаление.

В области безопасности, например, при обучении систем обнаружения вторжения, крайне важно уметь очищать тренировочные наборы данных от загрязняющей их нетипичной информации. Обнаружив лишние данные, система должна полностью ликвидировать их вклад в уже приобретённые навыки распознавания.

Новый метод забывания базируется на работе, представленной Као и Янем в прошлом году на Симпозиуме IEEE и впоследствии опубликованной. Авторы утверждают, что большинство обучающихся систем можно преобразовать в вид, позволяющий обновлять их небольшими приращениями, не изменяя полностью. Алгоритм обучения в этом случае зависит не от индивидуальных данных, а только от их сумм. Забывание не требует построения заново всего графа зависимостей — пересчёт небольшого количества сумм удаляет данные полностью, бесследно и значительно быстрее, чем прежде.

Успешная проверка работы алгоритма на четырёх реальных системах — открытом движке рекомендаций LensKit, частном детекторе скриптовых вирусов Zozzle, открытом спам-фильтре OSN и открытом детекторе PDF-вирусов PJScan — позволила авторам перейти к следующей фазе исследований, предусматривающей адаптацию их техники к другим системам и создание методики верификации для тестирования эффективности устранения нежелательных данных.

Стратегія охолодження ЦОД для епохи AI