Большая этика больших данных

2 апрель, 2013 - 13:39Андрій Кухар

В новой книге Ethics of Big Data (O’Reilly Media, 2012) бывший бизнес-стратег и технологический консультант компании Capgemini Корд Дэвиc (Kord Davis) вместе с доктором философии Дугом Паттерсоном (Doug Patterson) исследуют этические вопросы, связанные с применением технологий больших данных, и призывают предприятия пересмотреть отношение к персональным сведениям.

Первые звоночки

Как обычно, проблема становится явной лишь после пресловутого «грянул гром...». На данный момент уже известно множество случаев, касающихся этичности при использовании больших данных. Остановимся вкратце на двух, на наш взгляд, наиболее выразительных.

Большая этика больших данных
Книгу Корда Дэвиса и Дуга Паттерсона можно рекомендовать к прочтению представителям любой компании, присутствующей в онлайне

В феврале прошлого года американский ритейлер Target, прямо скажем, опростоволосился с рассылкой персонализированных подборок предложений. Исходя из истории покупок одного из посетителей сайта, в корпорации сделали вывод, что она, скорее всего, является беременной женщиной, и выслали ей почтовое сообщение с предложениями товаров для беременных. Этот пользователь оказался подростком, а данное письмо попало в руки его родителей.

Target лишь сформировала список товаров, в которых покупатель может быть заинтересован, и в этом нет ничего противозаконного. Однако инцидент хорошо показал, насколько велика разница между тем, что законно, и тем, что этично. Ситуация пришлась не по душе многим, включая девушку, которая еще не обрадовала родителей новостью о своей беременности.

Другой небезынтересный случай произошел летом прошлого года. Сервис онлайн-бронирования отелей Orbitz был уличен в разделении посетителей по используемым ими десктопным системам, PC и Apple, и показе последним более дорогостоящих предложений. Как рассказал исполнительный директор Orbitz Барни Харфорд (Barney Harford), в компании проанализировали около 750 ТБ рабочих данных и обнаружили, что обладатели продукции компании Apple на 40% чаще склоняются к выбору номеров в отелях высшего ценового диапазона. Вдобавок выяснилось, что посетители, как правило, останавливаются на предложениях первой страницы с результатами поиска, таких оказалось 90%, из них четверть выбирает из списка первый попавшийся отель. Решение, позволяющее увеличить доход Orbitz, напрашивалось... На сайте был реализован элементарный механизм переключения сортировки в режим «по убыванию цены» для пользователей Mac-систем. Конечно, после обнародования этой информации они осудили Orbitz за «несправедливость». Хотя, конечно, нельзя не заметить, что в сложившемся положении виноваты и сами посетители сайта. Ведь любой мог переключить сортировку в режим «по возрастанию цены» и изучать более доступные предложения. Однако, видимо, привычка оказалась сильнее.

Target и Orbitz — это компании, которые наступили на грабли, и теперь будут более взвешенно подходить к новым информационным инициативам. Между тем, у авторов книги больше опасений вызывают интернет-гиганты вроде Facebook и Google. Так, недавно стало известно, что в рамках крупнейшей в мире социальной сети создана специальная группа Data Science Team, занимающаяся сугубо анализом сведений. Оказывается, она уже способна определить семейный статус (или статус отношений) пользователя на основе песен, которые он отмечает (расставания часто производят к увеличения числа «лайков» на балладах), или настроение, например, целой страны (валовое национальное счастье Чили упало во время землетрясения 2010 г.).

Особняком стоит Google — компания, весь бизнес которой построен вокруг информации. В частности, она широко использует аналитику для сегментирования пользователей.

Эксперты сходятся во мнении, что организации вроде Target, Orbitz, Facebook и Google, безусловно, отличаются инновационностью, собирая и анализируя данные о пользователях, они стремятся работать эффективнее. Но при этом затрагиваются вопросы конфиденциальности, владения данными и этики. А они в настоящее время недостаточно проработаны.

Места повышенного риска

Очевидно, что большие данные сами по себе, как и любая технология, этически нейтральна. Однако ее использование — нет. Если говорить о конкретных современных технологиях, сопряженных с этическими дилеммами, на ум прежде всего приходят геолокационные сервисы. Они пока наиболее емкие с точки зрения сопутствующих рисков. Вспомнить хотя бы, каким широким был резонанс от новости о том, что iPhone и iPad в версии с 3G-модулем собирают информацию о местоположении пользователя без его ведома, и она может быть доступна злоумышленникам довольно просто. Все еще много споров вызывает идея так называемых чекинов в социальных сетях (Facebook) и отдельных приложениях (Foursquare). Опять же — медицинская информация по мере приобщения к большим данным будет все чаще вызывать вопросы.

Большая этика больших данных
По мнению Корда Дэвиса, большие данные сами по себе, как и любая технология, этически нейтральна, однако ее использование — нет

Проблема усугубляется еще и тем, что молодые люди не особо задумываются о последствиях открытия личных данных для публичного просмотра — во всевозможных социальных сетях и блог-платформах. Может так статься, что сегодня они без каких-либо опасений делятся разного рода подробностями интимного характера, а завтра их за эту информацию могут выгнать из вуза или уволить с работы. И это не предположения, не страшилки, это реальное положение вещей в мире и нашей стране. Автор этих строк знаком с примерами того, как за «неподобающую» переписку в сети «ВКонтакте» был исключен курсант военного образовательного учреждения; как выложенная в той же сети фотография служащей одной из украинских авиакомпаний, на которой она была запечатлена в ночном клубе, привела к ее увольнению. На их месте, в принципе, может оказаться каждый...

Большие данные не были бы большими, если бы они ограничивались сбором и обработкой информации, выложенной пользователями в социальных сетях. Множество действий, выполняемых людьми в онлайне, приводит к генерации сведений. В них-то и заключен весь потенциал идеи.

Представим себе простую транзакцию — приобретение пары туфель. Она затрагивает банк, в котором открыт счет покупателя, компанию-продавца, процессинговую организацию продавца, производителя товара, службу, занимающуюся доставкой, провайдера Интернет-услуг покупателя, разработчика платформы электронной коммерции, и даже фирму, обеспечивающую поддержку ИТ-инфраструктуры продавца. Точек, в которых возможно сохранение, совместное использование и распространение данных о транзакции множество.

Рассмотрим другой пример — публикацию твиттер-сообщения. Казалось бы, он не несет каких бы то ни было важных сведений. Однако, если разобраться в «анатомии» твита, все становится гораздо любопытнее. С каждым твитом могут быть связаны такие атрибуты, как геолокационная информация, статус верифицированной учетной записи, количество избранных сообщений, число подписчиков, статус публичного или защищенного сообщения, страна, использованное для публикации сообщения приложение, имя автора, а также краткая информация о нем.

Все эти данные сохраняются и легко могут становиться предметом анализа.

Претенденты на информацию

С распространением технологий больших данных авторы книги ожидают возрастания противоречий в отношениях создателей информации и агрегаторов данных. К примеру, с вами, не дай Бог, произошел несчастный случай и вы попали в больницу без сознания. В процессе оказания медицинской помощи вам генерируется большое количество данных, и можно предположить, что это полезные сведения для создания более эффективных методов лечения. Можно ли считать их вашими? Конечно, они были получены при вашем лечении, но на оборудовании больницы, построенном на базе ноу-хау, разрабатываемых десятилетиями различными коммерческими предприятиями, образовательными учреждениями и государственными организациями.

Кроме создания прибыли эти же данные способны помогать спасать жизни людей. Они сформированы, можно сказать, для достижения взаимных целей, и еще далеко не очевидно, что они принадлежат вам. Но также не бесспорно, что в больнице могут делать с ними все что пожелают. Возможно, при правильных условиях данные могут быть деанонимизированы — чтобы исключить информацию, при каких обстоятельствах произошел несчастный случай, и снизить риск нанесения вреда вашей репутации. А после этого переданы (проданы) больницей тем организациями, которые могут получить из них выгоду.

В общем, в жизни возникает множество вопросов, касающихся владения информацией, о том, что можно, а что нельзя делать с данными, и в каких ситуациях.

Время обсуждать

Авторы «Этики больших данных» выступают за активное обсуждение проблематики больших данных и выработку универсальных наборов правил. И признают, что работы предстоит немало, учитывая многообразие форм данных, степеней их важности, условий их создания и способов использования.

В книге выделяются четыре группы вопросов, которые организациям следует брать за основу при рассмотрении работы в направлении больших данных:

  1. Личность. Центральный вопрос: офлайн-присутствие индивидуума идентично его онлайн-личности? У личности много граней или она цельная? Как защитить онлайн-личность?

  2. Конфиденциальность. Кто должен управлять доступом к данным о вас? Есть мнение, что данные могут быть либо полезными, либо тщательно анонимизированными, но никогда и теми, и другими. Одно из исследований показало, что 87% американцев можно идентифицировать всего по трем параметрам: полу, дате рождения, почтовому индексу. Следовательно, зная один или два параметра, можно сопоставить его с другим набором данных, и идентифицировать пользователя. Частная жизнь закончилась?

  3. Владение. Кто владеет данными, можно ли передавать права, какие обязательства должны выполнять те, кто создает и использует информацию? Всемирный экономических форум определяет данные как новый класс хозяйственных активов, который может продаваться, покупаться и обращаться подобно валюте.

  4. Репутация. Как управлять репутацией в онлайне? Следует ли использовать псевдоним? Как определить, что тем или иным данным можно доверять? Как влияют на индивидуумов и организации мнения, основанных на неполных или некорректных наборах данных?

При проектировании и управлении практиками работы с данными современным компаниям необходимо принимать в расчет все четыре аспекта.

Кроме того, организации должны устранить появляющиеся расхождения в ценностях и действиях. Авторы приводят следующий пример. Опросив представителей списка Fortune 50, они выяснили, что, с одной стороны, 34 из 50 компаний не намерены продавать персональные данные без согласия клиентов (нигде не указано, что компании могут продавать данные). С другой стороны, 11 из 50 заявили, что готовы приобретать (получать) данные у третьих сторон (ни одна из компаний не указала, что не будет покупать персональные данные). Получается, продавать что-то нельзя, но покупать можно... Конфликт ценностей и действий.

Имеется ряд ключевых шагов, которые должна сделать организация, чтобы привести свои ценности в соответствие с действиями.

  1. Четко сформулируйте свои ценности. Не ограничивайтесь теми, что указаны в уставе компании. В рамках процесса разработки политик и практик управления данными будьте готовы детально обсуждать совместно используемые и общие ценности чтобы убедиться в том, что они всем известны и понятны.

  2. Следуйте этим ценностям. Причем не столько в соответствии с диаграммой бизнес-процессов, сколько в соответствии с тем, что происходит каждый день. Будьте готовы провести аудит процессов и создать культуру отчетности, в рамках которой будет происходить информирование даже о незначительных уточнениях курса. Это позволит избежать выхода ситуации из-под контроля.

  3. Обучайте и информируйте. Сотрудники и поставщики должны понимать важность соответствия действий с ценностями, и прозрачности. Это будет способствовать увеличению темпов инновационной и совместной деятельности, а также сокращению риской возникновения непредусмотренных последствий.

Хорошее начало

Мы живем в интересное время. Сейчас на наших глазах происходит формирование нового взгляда на информацию и ее применение. Стали доступны значительные объемы данных, имеются технологические возможности для добывания полезных сведений из неструктурированных наборов и применения для этого массовых вычислительных систем. Потенциальные выгоды больших данных огромны — для таких сфер, как образование, здравоохранение, сельское хозяйство, электронная коммерция, промышленность, метеорология и пр. Однако, куда в действительности приведет человечество это явление, сейчас можно только гадать. И тем не менее, готовиться к новому порядку вещей уже можно и нужно.

В этом деле неплохим подспорьем станет книга «Этика больших данных» Корда Дэвиса и Дуга Паттерсона. Она актуальная и будет таковой не один год, поскольку, как уже указывалось, мы находимся только в начале пути. И для любой компании, присутствующей в онлайне, мы рекомендуем ее к прочтению. Причем не имеет значения, какую отрасль представляет организация, ее размер и уровень технологичности, данное издание позволит создать прочную основу для лучшего понимания самой обсуждаемой темы в индустрии.