Обеспечить приватность больших данных стало в 100 раз дешевле

25 ноябрь, 2021 - 17:25

Обеспечить приватность больших данных стало в 100 раз дешевле

Компьютерные учёные Ашумали Шривастава (Ashumali Shrivastava) и Бен Колман (Ben Coleman) из техасского Университета Райса нашли недорогой способ, как обеспечить строгую конфиденциальность персональных данных при использовании больших баз данных в машинном обучении.

Есть много ситуаций, в которых машинное обучение могло бы принести больше пользы обществу, если бы была обеспечена конфиденциальность данных. Тогда например, ИИ можно было тренировать на крупных базах медицинских или финансовых записей.

«Сегодня это практически невозможно, потому что методы обеспечения конфиденциальности данных не масштабируются», — отмечает Шривастава, доцент кафедры информатики в Райсе.

Исследователи Райс надеются изменить это с помощью нового метода, получившего название RACE (Repeated Array of Count Estimators), который они неделю назад представили на конференции по компьютерной и коммуникационной безопасности CCS 2021. Используя технику хеширования с учетом местоположения, RACE может создать небольшую сводку — эскиз — огромной базы данных конфиденциальных записей.

Эскизы RACE безопасны для распространения и подходят для алгоритмов, использующих суммы ядра — базовые элементы машинного обучения — для тренировки ИИ-моделей, выполняющих типичные задачи машинного обучения, такие как классификация, ранжирование и регрессионный анализ. Коулман утверждает, что RACE позволит компаниям воспользоваться преимуществами крупномасштабного распредёленного машинного обучения, и при этом поддерживать строгую форму конфиденциальности данных, называемую дифференциальной приватностью.

Компактные эскизы RACE хорошо масштабируются для данных большого размера, а ресурсы процессоров и памяти, необходимые для их создания, легко распределяются.

«Метод RACE меняет экономику разглашения крупномасштабной информации с дифференцированной приватностью, — заявил Шривастава. — Он прост, работает быстро и в 100 раз менее затратен, чем другие существующие методы».