Анонимизация данных больше не гарантирует защиту приватности

3 февраль, 2022 - 14:53Виталий Кобальчинский

Огромные объемы данных извлекаются из смартфонов фирмами, стремящимися совершенствовать свои мобильные продукты, проводить исследования или улучшать таргетинг рекламы. В Европе и во многих других юрисдикциях закон обязывает делать эти данные анонимными, например, удаляя имена или номера телефонов, однако, как оказалось, этого уже недостаточно для сохранения конфиденциальности личности пользователей.

Анонимизированные данные о взаимодействиях, которые обычно состоят из псевдонимов сторон взаимодействия, метки времени взаимодействия и, возможно, дополнительной информации, разрешено передавать или продавать третьим лицам без согласия пользователей. В соответствии с действующими правилами защиты данных, такими как Общий регламент ЕС по защите данных (GDPR) или Калифорнийский закон о конфиденциальности потребителей (CCPA), такие анонимные (или деидентифицированные) данные не считаются личными.

Соответственно, они повсеместно используются, например, для изучения закономерностей изменения картины общения людей с близкими контактами с течением времени, влияния дружеских отношений в Facebook на политическую мобилизацию, динамики распространения дезинформации в Twitter или роста ареала эпидемий.

Исследование, опубликованное в журнале Nature Communications, показывает, что, вопреки бытующему мнению, данные о взаимодействии являются глубоко личными и конфиденциальными. Они с высокой точностью фиксируют, с кем мы разговариваем или встречаемся, в какое время и как долго, благодаря чему людей вполне возможно идентифицировать. Авторы работы предметно демонстрируют как это сделать на основании всего нескольких деталей коммуникаций, например, через WhatsApp.

Один из соавторов, Ив-Александр де Монджой (Yves-Alexandre de Montjoye) из Имперского колледжа Лондона (ICL), считает, что пришло время «заново изобрести понятие анонимности». Его команда собрала анонимные данные более, чем у 40 тысяч пользователей мобильных телефонов (в основном из приложений-мессенджеров). Затем они «атаковали» эти данные, ища закономерности в этих взаимодействиях.

Предложенный в статье метод, который вполне могли бы использовать и злоумышленники, базируется на геометрическом глубоком обучении. В нём нашли применение так называемые графовые сети внимания (GAT).

GAT это новая архитектура нейронных сетей, которые работают с данными, структурированными в виде графов. Она использует замаскированные самоконтролируемые уровни для устранения недостатков предыдущих методов, основанных на свёртках графов или их аппроксимациях. Складывая слои, в которых узлы могут сами следить за состоянием своих окрестностей, GAT позволяет неявно указывать разные веса для ближайших соседей без предварительного знания структуры графа.

С помощью GAT авторы анализировали поведенческий профиль человека, создавая векторное представление еженедельной сети его взаимодействий. Такие еженедельные профили, базирующиеся только на поведенческих характеристиках, объединяли параметры узлов и топологическую информацию, присутствующую в данных взаимодействия, и были специально оптимизированы для задачи идентификации.

В тестовом наборе данных такая модель смогла правильно идентифицировать пользователя в 52% случаев при учёте его двухуровневых взаимодействий (k = 2). Используя только взаимодействия человека с его прямыми контактами (k = 1), модель смогла идентифицировать его в 15% случаев.

Важно отметить, что точность такой модели лишь незначительно снижается с течением времени: 24% людей все еще правильно идентифицируются по прошествии 20 недель (k = 2), что делает данный метод идентификации реальным риском на практике.

Помимо этого, авторы показали, что их общий подход к профилированию графа применим и к другим типам данных взаимодействия. Для демонстрации они создали набор данных о приближении (попадании в радиус действия сети Bluetooth) для примерно 500 человек. Такая информация, собираемая мобильными приложениями, используется для отслеживания контактов носителей COVID-19. Исследователям она позволила связать сети взаимодействия с одним переходом (k=1) с точностью 26%

«Наши результаты свидетельствуют о том, что разрозненные и даже повторно псевдонимизированные данные о взаимодействиях всё же поддаются идентификации даже по прошествии долгого времени», — подводит итог статья, в подготовке которой помимо сотрудников ICL принимали участие их коллеги из Италии и Швейцарии.

Несоответствие практикуемых методов тем стандартам, что установлены европейскими регуляторами, Монджой объясняет тем, что традиционная анонимизация не была рассчитана на работу с настолько «богатыми» массивами данных, как те, которые предоставляются мобильными приложениями.

Многообещающим новым методом, по его словам, является жёсткое ограничение доступа к большим наборам данных, сводящее работу с ними до простых вопросов и ответов. Такой подход может вообще избавить от необходимости анонимизации мобильных данных.