Современный герметизм

26 июль, 2016 - 16:05Александр Загнетко

Еще в 2012 г. журнал Harvard Business Review объявил Data Science самой интересной профессиональной областью 21 века (буквально the sexiest job of 21st century). Насколько обоснованной кажется эта оценка сегодня?

Уже на уровне дефиниций с наукой о данных (Data Science) возникают проблемы. Разные источники и специалисты включают в это понятие целый ряд дисциплин, которые либо являются составной частью других отраслей, либо представляют из себя некие не до конца определенные концепции, ставшие популярными в значительной мере благодаря усилиям маркетологов. В итоге публике предлагаются всевозможные варианты диаграмм Венна, похожие на ту, что приведена ниже.

Современный герметизм

(иллюстрацию можно увеличить, кликнув на нее)

Среди современных методов и подходов, относящихся к работе с данными, сложно найти те, что в определённом контексте не фигурируют среди разделов Data Science. Как это часто бывает, популярность быстро превращает объект в своеобразный священный Грааль, воспринимаемый многими как подлинное откровение. Суть предмета перестает быть различимой, зато вокруг него рождается множество мифов и преданий, формируется свой пантеон. Безусловно, не последнюю роль в этом играет пресловутый эффект Даннинга-Крюгера, который все чаще проявляется у людей, принимающих решения.

Современная наука о данных очень часто применяется для решения обратных задач, когда значения тех или иных исходных параметров пытаются получить, исходя из результатов апостериорных наблюдений. Вообще говоря, это некий феноменологический подход, в котором рабочие гипотезы, дающие удовлетворительное описание явлений, оказываются гораздо важнее природы этих явлений. Другими словами, практическая применимость полученных в ходе исследований результатов, возможность их использования для прогнозирования, представляют куда более значительный интерес, чем причины происходящего.

Это, в свою очередь нередко приводит к тому, недостатки и риски, связанные с каждой из входящих в Data Science дисциплин, суммируются и создают кумулятивный эффект. Старая юмористическая заметка «О вреде огурцов» из книжки «Физики все еще шутят» описывала примеры ложной корреляции, на которую зачастую попадаются статистики; она становится все более актуальной по мере развития методологии Data Science в бизнес среде. Также можно наблюдать, как попытки использовать совокупность инструментов Data Science для идентификации проблем и поиска путей их приемлемого решения приводят к проявлению хорошо известной т.н. систематической «ошибки выжившего» (survivorship bias). Ее лучшим примером является задача, поставленная во время Второй мировой войны перед математиком Абрахамом Вальдом. Необходимо было добиться снижения потерь, осуществив анализ повреждений, которые получают в бою самолеты. Поскольку на тех, что возвращались на базу, чаще всего были множественные пробоины в крыльях и киле, предлагалось укрепить броней именно эти элементы. Вальд обратил внимание рабочей группы на то, что сделать следует ровно противоположенное. Защитить дополнительно нужно именно те места, которые на большинстве машин пострадали меньше всего – кабину и топливные баки – поскольку пораженные в эти области самолеты попросту не смогли вернуться. Но не для каждой задачи находится свой Вальд.

Даже те, кто получил хорошее образование и следит за инновациями, зачастую имеют лишь самое общее представление, например, о технологиях machine learning и нейронных сетей. Безусловно, практические результаты, полученные в последнее время в этой области, впечатляют. Однако определить, в какой мере подобные системы могут помочь при решении задач, стоящих перед бизнесом, могут далеко не все. Легко заметить, что вакансий Data Scientist открывается все больше; эти позиции уже несколько лет входят в тройку наиболее высокооплачиваемых в индустрии IT. Работодатели при этом ожидают от кандидатов владения очень широким инструментарием, включающим в себя множество самых разных навыков в технологической, научной и бизнес сферах. Выстраивается примерно такая картина требований (см. рисунок).

Современный герметизм

(иллюстрацию можно увеличить, кликнув на нее)

Чаще всего (в порядке убывания) фигурируют такие компетенции как Data analysis, R, Python, Data Mining, Machine learning, Statistics, SQL, Analytics, Matlab, Java, Statistical Modelling, Algorithm Design, C++, BI/BA, Big Data, SAS, Hadoop, Programming, Research, Software Engineering, Cloud Computing, OSINT (Open source intelligence). Плюс к этому требуется опыт визуализации и представления данных, понимание бизнес-процессов и экономики, коммуникативные навыки. Не будем слишком придирчивыми и проигнорируем тот факт, что среди перечисленных выше запросов перемешаны конкретные продукты и концепции/дисциплины, в которых эти продукты применяются.

Безусловно, специалисты, обладающие всеми упомянутыми компетенциями, есть. Однако в зависимости от возложенных на них функций, профессионалы, работающие в области Data Science, совершенствуют в большей степени те навыки, которые соответствуют их роли. При этом в тех компаниях, где они действительно востребованы, отчетливо прослеживается тенденция к поиску узких специалистов, а не «великих полиматов».

Современный герметизм

(иллюстрацию можно увеличить, кликнув на нее)

И все же реальные потребности (и возможности) бизнеса, как правило, куда прозаичней. Особенности индустрии, внутренних процедур, методов генерации и сбора данных, устоявшейся модели делопроизводства, специфики развития и позиционирования многих компаний таковы, что для большей части задач по сбору и анализу данных, с целью определения неких паттернов, которые позволяют осуществлять управление, планирование и прогнозирование, вполне достаточно минимума инструментов и самых базовых компетенций. В девяти случаях из десяти набор приложений MS Office, элементарные навыки очистки данных, например, с использованием Python и, в некоторых отраслях, умение писать SQL запросы, решают все задачи, которые могут возникнуть. Это не означает, что эксперт в области Data Science не может найти потенциально чрезвычайно важные для такого работодателя закономерности и подготовить ценные рекомендации, однако их практическое использование обычно натыкается на внутренние ограничения, архаичные практики и нежелание существенно трансформировать модель ведения бизнеса (что и в самом деле может оказаться рискованным решением).

В этой связи интересно узнать, чем же на самом деле занимается большинство из тех, чья позиция в компании обозначается как Data Scientist.

Современный герметизм

(иллюстрацию можно увеличить, кликнув на нее)

Результаты проведенного опроса красноречиво свидетельствуют, что в большинстве случаев, выражаясь деликатно, до работы с системами искусственного интеллекта дело не доходит. В самом деле, для задач сбора, очистки и структурирования данных не только не требуется PhD в области Computer Science (в то время как более сорока процентов из числа тех, кто работает в этой сфере, имеет ученую степень), но и вообще навыков, которые нельзя было бы освоить в ходе двухнедельного корпоративного тренинга. А уж если офисного клерка еще и обучить азам работы с инструментами анализа и визуализации, например, такими, как Tableau, в большинстве компаний он вполне сможет считать себя гуру Data Science.

Нет сомнений, что сформировалось значительное число областей, где колоссальные объемы доступной для анализа информации, бесчисленные источники данных (в том числе порожденные развитием IoT) и невиданные прежде вычислительные мощности создают фантастические возможности не только для проведения академических исследований или разработки перспективных технологий, но и стремительного роста бизнеса. Компании и организации, занятые развитием, например, геоаналитических платформ, поисковиков, систем распознавания, робототехники, биомедицинской инженерии и многих других направлений, действительно нуждаются в тех, кто сможет с помощью математики, программирования и знания бизнеса приготовить идеальный «коктейль» из разнообразных данных. Однако большая часть задач, для решения которых ищут эксперта в области Data Science, вовсе не требуют высокой квалификации. Для того, кто действительно обладает всеми знаниями, навыками и опытом, которые принято относить к этой области, куда более целесообразно организовать стартап, позволяющий реализовать весь свой потенциал, чем пытаться найти ему применение в одной из множества компаний, руководство которой просто решило не отстать от моды и уверовало в тех, кого воспринимает как современных алхимиков. Ведь, помимо прочего, в бизнесе, не связанном с высокими технологиями, несмотря на использование к месту и не к месту слов digital и smart, очень скоро могут осознать, что работа Эйнштейна в патентном бюро не сделало последнее процветающим предприятием. Это вполне может привести к снижению интереса к Data Science. Однако не приходится сомневаться, что не заставит себя ждать новая раскрученная концепция, за вывеской которой будет скрываться умение анализировать данные и делать выводы на их основе, способная, по мнению адептов, облагодетельствовать каждого.