30 декабря 2015 г., 12:45
Необходимость поиска компромисса между прозрачностью информации и правом на приватность предъявляет высокие требования к методам обработки данных. До сих пор, алгоритмы анонимизации наборов данных, открытых для коллективного доступа, базировались на допущении, что имеется различие между прямыми идентификаторами (например, именем и фамилией), квази-идентификаторами (деталями, позволяющими идентифицировать человека, такими как возраст и адрес) и чувствительными, приватными данными (состояние здоровья).
Новый подход, авторами которого являются Юичи Сэи (Yuichi Sei) и Акихико Оосуга (Akihiko Ohsuga) из японского Университета электрокоммуникаций (UEC) и Такао Такэноучи (Takao Takenouchi) из корпорации NEC, позволяет эффективно анонимизировать информацию не постулируя такого различия. Кроме того, новый метод противостоит попыткам идентификации, основанным на сравнении двух анонимизированных массивов одних и тех же данных.
Вместо применяемой сегодня анонимизации добавлением шума, с представлением возможных значений каждого атрибута на гистограмме, исследователи UEC-NEC рандомизировали набор данных для каждого атрибута и добавили случайные значения к каждому элементу массива. По их заявлению, такое решение позволяет существенно сократить объём анонимизированных данных, а кроме того обеспечивает реконструкцию БД и поддерживает высокое качество данных в реалистичном диапазоне значений.
По мнению авторов нового метода, представленного на конференции IEEE Trustcom, он будет полезен для обезличивания публичной статистической информации, например, данных переписи населения или результатов электронного голосования.
Стратегія охолодження ЦОД для епохи AI