0 |
В статье, опубликованной на этой неделе в журнале Nature Communications, группа исследователей из Лувенского католического университет (Бельгия) показала, что добавление шума, ограниченная выборка и другие распространённые сегодня методы обезличивания массивов данных, используемых для машинного обучения, недостаточно эффективны для защиты приватности людей.
Авторы опубликовали демонстрационный инструмент, позволяющий оценивать вероятность того, что вас могут отследить, применив к анонимизированному массиву данных или малой его части методы обратной разработки с машинным обучением. Они утверждают, что эти результаты должны побудить законодателей к ужесточению критериев анонимности данных.
Другой разработанный ими онлайновый инструмент помогает понять, какие характеристики делают человека уникальным в наборах данных. Программа попросит ввести первую часть почтового кода, пола и даты рождения, прежде чем дать вероятность того, что этот конкретный профиль может быть повторно идентифицирован в любом анонимном наборе данных. При добавлении других характеристик — семейное положение, количество транспортных средств, статус владения домом и статус занятости — вероятность верного попадания резко возрастает.
В описываемых экспериментах, 99,98% американцев были однозначно повторно идентифицированы в любом разрешенном нормами GDRP к свободному распространению «анонимизированном» наборе данных, с использованием всего 15 характеристик, включая возраст, пол и семейное положение. Как отмечают авторы, эти характеристики входят в стандартный набор сведений, выясняемых при опросах.
Доктор Джулиен Хендрикс (Julien Hendrickx) отмечает: «Нас часто заверяют, что анонимизация сохранит нашу личную информацию в безопасности. Наша статья показывает, что подобная де-идентификация совершенно недостаточна для защиты конфиденциальности персональных данных».
Стратегія охолодження ЦОД для епохи AI
0 |