Automated Machine Learning − как оно есть

Автоматическое обучение машин (Automated Machine Learning, AML) − далеко не прихоть исключительно академических ученых. Возможно, так было двадцать, и даже десять лет назад, когда AML как теория еще не вышла из лабораторий университетов и компаний. Бизнес терпеливо ждал, пока дело дойдет до получения реальной выгоды от него. Сегодня это время пришло.

Прежде, чем перейти непосредственно к предмету статьи, определимся с терминологией.

Lingvo в словарной статье «automated» говорит, что automated data processing − автоматическая / автоматизированная обработка данных (синоним − automatized).

Обстоятельную статью по Machine Learning можно найти в англоязычной Википедии.

Automated Machine Learning − как оно есть

Понимание Machine Learning (и тем более AML) затруднено. SAS дает следующее наглядное представление места ML среди других дисциплин, связанных с искусственным интеллектом и обработкой данных (2014)

Но мне все же ближе определение, которое дает в своем курсе лекций «Машинное обучение» К.В.Воронцов.

«Теория обучения машин (machine learning, машинное обучение) находится на стыке прикладной статистики, численных методов оптимизации, дискретного анализа, и за последние 50 лет оформилась в самостоятельную математическую дисциплину. Методы машинного обучения составляют основу еще более молодой дисциплины — интеллектуального анализа данных (data mining)».

Перенося эти определения на AML, можно сказать, что это − «Теория автоматического / автоматизированного обучения машин». В дальнейшем изложении термин «AML» понимается именно так.

Следует сказать, что, как это всегда было с любой новой технологией, бизнес поставил AML «с головы на ноги», т.е., на твердую практическую почву. Давайте проследим логическую цепочку, которая привела от первых идей и проблем к постановке реальных задач и созданию первых инструментов в этой области.

1. Data Scientists: ресурс, которого не хватает

Имея «лучшие предсказания» (better predictions), банки уменьшают потери от кредитных неплатежей и мошенничества. Страховщики создают более конкурентное ценообразование. Ритейлеры персонализируют предложения потребителям. Больницы улучшают состояние пациентов. Телекоммуникационные провайдеры оптимизируют полосу пропускания.

Для этого нужно собирать большие объемы данных и научиться анализировать их должным образом. Очевидно, что компании создают подразделения data science, покупают технологии data science и нанимают специалистов по обработке и исследованию данных (Data Scientist, DS), чтобы реализовать весь потенциал накопленной информации.

Automated Machine Learning − как оно есть

Как говаривал Козьма Прутков, «Специалист подобен флюсу − его полнота односторонняя». Для Data Scientists это верно, согласно Forbes, даже не в квадрате, а в четвертой степени. Data Scientists − это истинный, великий и ужасный «нерд из нердов» (2012).

Hadoop и подобные технологии уже позволяют создавать ценные «коллекции» из множества банальных данных. Однако DS, которые понимают их значение, остаются дефицитным ресурсом, причем, − не «все еще», а чем дальше − тем больше.

В последнее время многие ресурсы не раз писали об этом дефиците, а отчет агентства McKinsey предсказал нехватку людей с аналитическими навыками по крайней мере, до 2018 г

Сводная диаграмма McKinsey значимости ролей по 127 индустриям (2009-2015). Не удивительно, что ведущими остаются отраслевые навыки. Однако уже более трети от них составляют знания в области операционной аналитики и появилась потребность в статистиках. Не слишком ли много для одного человека?

Дефицит так силен, что Harvard Business Review предложила компаниям либо вообще прекратить пока работать в данной области, либо существенно снизить свои стандарты к соискателям.

2. Какой выход? Разумеется, автоматизация

На ресурсе IT Business Edge Лорейн Льюисон (Loraine Lawson) задалась вопросом − заменит ли в обозримом будущем искусственный интеллект (Artificial Intelligence, AI) специалистов DS?

Статья Майкла Фицджеральда (Michael Fitzgerald) в MIT Sloan Management Review, задорно озаглавленная «Data Scientist in a Can» (2014), и посвященная «аналитике как сервису», утверждала, что компании уже пытаются автоматизировать эту функцию.

Но и Фицджеральд не описал явного различия между «аутсорсинговой аналитикой» (outsourcing analytics), − что компании по экономическим соображениям, собственно, практикуют уже в течение многих лет, − и «автоматизацией аналитики» (automating analytics). При ближайшем рассмотрении эти понятия довольно сильно различаются..

Обстоятельный Web-сайт интеллектуального анализа данных (data mining), KDnuggets провел собственный опрос, поинтересовавшись у своих читателей, когда большинство задач класса «expert level data scientist» будет решаться автоматически, − или, по крайней мере, когда исследовательские процессы в данной области станут автоматизированными?

Если мнения респондентов и разделились, то не слишком сильно. Только 19% из них полагали, что эта область никогда не будет автоматизирована на уровне интеллекта человека. Но 51% отметили, что, по их мнению, подобные процессы будут автоматизированы в течение ближайших десяти лет. А каковы текущие успехи?

3. Реалии автоматизации аналитики данных

Практические примеры из различных областей выражают «сдержанный оптимизм» по поводу AML.

Washington Post уже писала об успешных попытках автоматизировать анестезию во время операций (для человека). MIT Technology Review описала алгоритм machine learning, который классифицирует и оценивает картины (написанные человеком) более точно, чем специально обученные историки искусства.

Отчет консалтинговой фирмы A.T.Kearney предполагает, что «робосоветники» (robo advisors) к 2020 г. будут управлять $2 трлн. в инвестиционных портфелях компаний. Статья в The Atlantic отмечала, что почти половина рабочих мест в США может быть автоматизирована.

Итак, независимо от научного значения и «внутренней красоты» новых алгоритмов, на первом месте все же находится их сугубо практическое значение в смысле бизнеса. Т.е., требуется повышение чистой прибыли, − неважно за счет чего, увеличения продаж или сокращения издержек. Рассмотрим, например, что происходит в очень модной ныне области автоматического управления транспортными средствами.

Хотя полная автоматизация транспортных средств все еще только-только видна на горизонте, штат Невада уже почти как год разрешил использование «самоходных» траков Daimler Freightliner на общественных шоссе.

Automated Machine Learning − как оно есть

Водитель пока все же остается в кабине. Однако интересно, как Daimler определяет смысл использования такого полуавтоматического вождения. Караван из нескольких траков, которые автоматически поддерживают расстояние между собой на уровне 25 футов, экономит на маршруте 5-6% горючего.

4. AML − история неудач

AML − не слишком новая область*. Еще более двадцати лет назад (1995) компания Unica первой выпустила пакет программ Pattern Recognition Workbench (PRW), который использовал автоматизированный метод проб и ошибок, чтобы оптимизировать модель на основе нейронных сетей.

Три года спустя Unica в партнерстве с Group 1 Software разработала Model 1, инструмент, который выполнял автоматизированный выбор прогнозной модели (automated model selection) для четырех различных типов задач. Ничего особенно путного из этого не вышло, − обе компании вскоре были вынуждены продать свои активы.

Unica перешла в собственность IBM. Оригинальный продукт PRW испытал ряд переделок и сейчас называется IBM PredictiveInsight, представляя собой просто набор «волшебников» в ПО IBM Enterprise Marketing Management.

Можно отметить еще две коммерческие попытки создания ПО AML (с конца 1990-х гг.).

Первая, компании MarketSwitch, была решением для оптимизации маркетинга и включала встроенные возможности AML. При продвижении этого продукта MarketSwitch хвасталась тем, что она наняла бывших специалистов из СССР, и даже обещала «уволить всех своих SAS-программистов». Но… коммерческого успеха не последовало, MarketSwitch в 2004 г. была приобретена Experian, которая перепозиционировала продукт не более, как в «decision engine», заменив возможности AML своим аналитическим сервисом.

Примерно в это же время KXEN, компания, основанная во Франции в 1998 г., разработала свою machine learning engine, построенную на основе технологий выбора модели. Этот продукт, получивший название «structural risk minimization», пользовался довольно скромным успехом, что и привело в конце концов к покупке компании SAP (2013) всего за $40 млн.

Эти ранние усилия по AML от Unica, MarketSwitch and KXEN не оказали существенного влияния на бизнес, − как теперь видится, по двум причинам.

Во-первых, они «решали» проблему, определяя ее слишком узко. Область решения была ограничена всего несколькими алгоритмами. Они минимизировали свои технические усилия за счет образцового качества и надежности этих очень специальных для того времени продуктов.

Во-вторых, они позиционировали свои инструменты не более, чем как средство, которое поможет бизнесам избавиться от необходимости в опытных аналитиках.

Другими словами, индустрии тогда еще даже не понимали, для чего и как использовать подобные продукты, и какова их реальная стоимость (далеко не до конца понимают это и сейчас).

5. Новейшая история AML

Учитывая описанный печальный опыт, за последние несколько лет даже ведущие разработчики аналитического ПО (SAS и IBM SPSS) осторожно ограничились тем, что добавили средства автоматического моделирования (automated modeling features) к своим продуктам высокого уровня.

Automated Machine Learning − как оно есть

В 2010 г. SAS выпустила SAS Rapid Predictive Modeler, − как дополнение к своему более раннему продукту SAS Enterprise Miner (последняя версия − 2015).

IBM SPSS Modeler включал набор средств для автоматического преобразования данных (automated data preparation) − Auto Classifier, Auto Cluster и Auto Numeric nodes.

Все ПО, описанное выше, являлось исключительно коммерческим. Однако стоит упомянуть и Auto-WEKA, open source проект в области AML. Его первая версия (2013) была совместным проектом University of British Columbia и Freiburg University.

Кроме того, существует Challenges in Machine Learning (CHALEARN) − бесприбыльная организация, поддерживаемая National Science Foundation и рядом коммерческих спонсоров. CHALEARN организует ежегодный смотр-конкурс AML-продуктов.

6. Как должна выглядеть AML-платформа?

Все требования к современной платформы AML попадают, в общем, в две категории: поддержка самих процессов machine learning и поддержка обработки корпоративных данных (enterprise computing). Качественное ПО AML должно поддерживать процесс обучения машины от начала до конца.

- ПО AML должно поддерживать интерфейсы для реляционных баз данных, Hadoop, текстовых файлов и общих форматов данных, а также представлять результаты в ясной и краткой визуализации.

- Насчитываются сотни алгоритмов работы с данными. Недавнее эталонное исследование проверило их 179 применительно только к одной области. Лучшим способом для того, чтобы определить правильный алгоритм для некой проблемы и набора данных, является тест и последующая проверка методов.

Специалист DS проверяет большое количество методов и выбирает тот, который работает лучше всего с определенными наборами данных. Но пока нет общепризнанного метода, который мог бы формализовать эту работу и качественно выполнить ее без участия человека.

- ПО AML должно включать лучшие практики для предварительной обработки и очистки данных перед обучением

- Даже с эвристикой и самонастройкой, всесторонний экспериментальный план может потребовать тысяч образцовых циклов тестирования. ПО AML должно повысить производительность вычислений для высокой эффективности и быстрого обучения.

- Ни один руководитель не одобрит развертывание системы без ясного понимания поведения модели и ее соответствия определенным требованиям. ПО AML должно давать такие инструменты, чтобы эксперты и бизнес-пользователи могли оценить результаты эксперимента моделирования, проверить их на отклонение, сравнить модели и, в ряде случаев, возможно, даже отвергнуть автоматический выбор.

Самая лучшая прогнозная модель в мире ничего не стоит, если не обеспечивает этого. Но именно это произошло в свое время с победителем смотра-конкурса Netflix Prize, − сложным приложением, использующим технологию под названием «Pragmatic Chaos». Теперь этот проект находится, так сказать, в мусорном ящике истории. Netflix, разумеется, выплатила приз, − и затем похоронила это решение, потому что оно оказалось слишком дорогим в разворачивании и эксплуатации.

7. Кроме того…

Чтобы удовлетворять потребностям современного предприятия, есть три дополнительных требования.

- ПО AML должно строиться на основе open source ПО. Разработки на общедоступных аналитических языках, таких как Python и R, оказываются намного быстрее, чем при использовании коммерческого инструментального ПО. Кроме того, использование open source упрощает интеграцию со стеками Big Data и уменьшает общую стоимость владения (Total Cost of Ownership, TCO).

- ПО AML должно поддерживать разнообразные профили пользователей, включая следующие − опытные пользователи, аналитики, продвинутые бизнес-пользователи, визуализаторы и др.

- ПО AML должно соответствовать масштабу предприятия по многим измерениям, касающихся пользователей, проектов, моделей и объемов данных.

В практическом смысле это означает, что ПО должно поддерживать развертывание в Hadoop, основанное на стандартах интеграции с базами данных и иметь низкие эксплуатационные расходы, − независимо, в облаке или on-premise.

Примером может быть названа, например, платформа DataRobot одноименной компании из Бостона, которую мы рассмотрим в следующей публикации. В данном случае она интересна также и тем, что уже более года имеет офис в Киеве.

* В силу древности и отсутствия информативности для современного читателя иллюстративный материал и ссылки мы здесь не приводим.

Стратегія охолодження ЦОД для епохи AI