Необходимость поиска компромисса между прозрачностью информации и правом на приватность предъявляет высокие требования к методам обработки данных. До сих пор, алгоритмы анонимизации наборов данных, открытых для коллективного доступа, базировались на допущении, что имеется различие между прямыми идентификаторами (например, именем и фамилией), квази-идентификаторами (деталями, позволяющими идентифицировать человека, такими как возраст и адрес) и чувствительными, приватными данными (состояние здоровья).
Новый подход, авторами которого являются Юичи Сэи (Yuichi Sei) и Акихико Оосуга (Akihiko Ohsuga) из японского Университета электрокоммуникаций (UEC) и Такао Такэноучи (Takao Takenouchi) из корпорации NEC, позволяет эффективно анонимизировать информацию не постулируя такого различия. Кроме того, новый метод противостоит попыткам идентификации, основанным на сравнении двух анонимизированных массивов одних и тех же данных.
Вместо применяемой сегодня анонимизации добавлением шума, с представлением возможных значений каждого атрибута на гистограмме, исследователи UEC-NEC рандомизировали набор данных для каждого атрибута и добавили случайные значения к каждому элементу массива. По их заявлению, такое решение позволяет существенно сократить объём анонимизированных данных, а кроме того обеспечивает реконструкцию БД и поддерживает высокое качество данных в реалистичном диапазоне значений.
По мнению авторов нового метода, представленного на конференции IEEE Trustcom, он будет полезен для обезличивания публичной статистической информации, например, данных переписи населения или результатов электронного голосования.