Crayon: лучшие практики AI/ML для бизнеса. Часть первая. Microsoft

Компания Crayon в первой декаде декабря провела вебинар, на котором были рассмотрены лучшие практики AI/ML для бизнеса от Crayon и Microsoft.

Мероприятие открылось вступительным словом старшего менеджера проектов Data & AI CoE Всеволода Щепанского. Он отметил, что AI, ML и IoT – это уже не тенденциозные термины, а реальные инструменты для инновационного развития бизнеса, автоматизации бизнес-процессов, освобождение людских ресурсов, снижение затрат, а также инструмент для поиска новых прибылей.

Компания Crayon начинала с Software-as-a-Management, в то время, когда на рынке были востребованы системы CRM и ERP, а также с внедрения базовых инструментов для автоматизации процессов. Затем, когда начали развиваться технологии и появилась потребность в миграции в облако, в ассортименте появились и эти услуги. Следующим технологическим моментом и логическим шагом стало понимание того, какие преимущества могут принести данные, перенесенные в облако. Поэтому Crayon начала предоставлять своим клиентам услуги в области Data & BI, а также разрабатывать продукты в этой области.

Далее с докладом о лучших практиках AI/ML для бизнеса выступила Хильда Косорус (Hilda Kosorus), директор Data & AI в Center of Excellence, Вена. Она отметила, что если говорить о практиках в области Data & AI, то Crayon как глобальная компания установила множество Center of Excellence по всему миру. Это было необходимо для поддержки заказчиков в повышении ценности данных для бизнеса в терминах снижения затрат, налаживания эффективных процессов, использовании автоматизации и создании конкурентного преимущества. И все это в рамках использования современных облачных технологий. Crayon доставляет сквозные решения, и это значит, что фокус делается не только на прототипы, но также и на поддержку клиентов в его повседневных задачах.

лучшие практики AI/ML для бизнеса. Часть первая

Хильда Косорус: «Прежде всего Crayon стремится поддержать своих заказчиков в повышении ценности данных для бизнеса»

Хильда Косорус отметила, что хотя сегодня AI получает широкое распространение, эта технология все еще находится на стадии принятия многими организациями. Имеется несколько стимулов для проведения цифровизации и внедрения AI.

лучшие практики AI/ML для бизнеса. Часть первая

Стимулы для внедрения цифровизации и AI

С одной стороны, имеется огромное количество данных, которые накапливаются ежедневно. Поскольку уже достаточно аппаратных средств и инструментов, для создания систем хранения больших объемов - речь идет о терабайтах данных. Кроме того, облачные технологии стали доступны многим организациям, еще не готовым перейти достаточно быстро в цифровой мир, предоставляя им платформу-как-сервис (PaaS), инфраструктуру-как-сервис (IaaS) или SaaS. И при этом помогая организациям, у которых даже нет своих ИТ-специалистов, в движении быстрее в облако, принятии концепции Data & AI и ускорения прикладных разработок. И наконец, одним из наиболее важных факторов, – это просматриваемое через годы быстрое развитие AI. Можно видеть, как организации все больше и больше используют технологии машинного зрения и обработки естественных языков. AI и особенно данные, проанализированные с помощью AI, могут принести реальную пользу бизнесу. И есть огромный потенциал для снижения стоимости многих бизхнес-процессов. С одной стороны, появляются все больше возможностей для автоматизации задач, которые сегодня выполняются вручную. Однако AI - это не только о полной замене человека, но и о более эффективном выполнении текущих процессов. AI следует рассматривать скорее как компаньона сотрудника в его повседневной работе, позволяющего сделать ее лучше и более эффективно. С другой стороны, AI также дает возможность улучшить имеющиеся сервисы и создать их новые типы и реализации, которые раньше были недостижимы. И в-третьих, о чем упоминалось ранее, это возможность принятия решений на основе данных. Все это помогает организациям улучшать их повседневную работу.

Как Crayon разрабатывает решение? В начал проводится оценка возможности и выяснение, какую конкретную проблему необходимо решить, и как это можно сделать, используя имеющиеся данные. Так, оценивается качество данных, их объем, и делается попытка концептуализировать решение, которое имеет смысл для конкретной бизнес-проблемы.

лучшие практики AI/ML для бизнеса. Часть первая

От идеи к производству

На следующем этапе строится прототип, чтобы проверить правильность не только технической осуществимости, но и для подтверждения ценности самой разработки. Делается попытка протестировать решение так рано, насколько это возможно, перед тем, как запустить его в производство. Как только установлено и проверено решение, следующим шагом является построение крепкого фундамента для операций с ML, где можно развернуть модели для производства. И наконец, это фокусирование на управление AI-моделями, которое означает непрерывную проверку качества и релевантности результатов, которые обеспечило AI-решение, и обновления с течением времени. Конечно, кроме крепкого фундамента, который поддерживает все эти возможности для принятия основанных на данных решений, очень важно установить современную инфраструктуру и платформу для данных.

Хильда Козорус закончила свое выступление несколькими примерами историй успешных проектов, которые были разработаны Crayon.

лучшие практики AI/ML для бизнеса. Часть первая

Истории успеха

В частности компания разработала поиск по техническим документам на базе машинным зрением. Сегодня любой инструмент управления документами предоставляет возможность поиска. Но проводить такую процедуру, скажем, в с техническими чертежами раньше не представлялось возможным. Машинное зрение позволяет организовать поиск необходимых чертежей среди миллионов однотипных документов. Также были реализованы решения для классификации электронных писем и перенаправления их соответствующим экспертам. А кроме того, еще ряд проектов.

Как же Data Science работает на практике? Небезынтересный практический пример привел Игорь Смирнов, Senior Data Scientist из венского офиса Crayon. Он рассказал, как используется Data Science в компании, которая занимается сбором долгов с частных лиц и предпринимателей. Здесь на сцене присутствуют четыре «персонажа»: банк, выдавший кредит, заемщик, план оплаты и агент-сборщик. Если заемщик не выплачивает очередной платеж в течение нескольких месяцев, то такой долг продается сторонней организации (коллекторскому агентству). И если заемщик не выплачивает долг агентству, то дело передается в суд.

лучшие практики AI/ML для бизнеса. Часть первая

Игорь Смирнов: «Существенную роль играет также качество данных, с которыми нужно работать»

В работе агентства можно выделить три группы проблем. Первая связана с планом платежей, которому должен следовать клиент; вторая – все, что связано с судопроизводством, и третья – это технические вопросы, в первую очередь, разделение заемщиков на группы, для которых можно построить общую стратегию.

лучшие практики AI/ML для бизнеса. Часть первая

Проблемы, стоящие перед агентством

Как все это трансформируется в более техническое представление в терминах Data Science? Были выбраны основные проблемы, которые можно решить с помощью AI. Во-первых, заемщики были выделены по типу их поведения. Те, кто платит, выделяются в отдельные группы, им, в общем-то, можно не звонить. Другим можно звонить, скажем, раз в месяц. Третьим можно предложить большую скидку, четвертым – маленькую и т. п. Данный процесс очень хорошо соответствует некоторым задачам ML. Во-вторых, анализ движения денежной наличности. А именно — оценка сколько будет собрано средств со всех клиентов, и соответственно планирование затрат на дальнейшие кварталы. Третьим пунктом является улучшение взаимодействия - звонки или письма от самого агентства к его клиентам. Процессы достаточно сложные, поскольку в агентстве работают сотни сотрудников, а самих клиентов – миллионы. Поэтому, чтобы отладить сам процесс звонков, существует специальное ПО, которое пытается оптимизировать время, которое агенты тратят на дозвон. Следующий кейс – это оптимизация скидок. Если нужно предложить скидку, то она должна быть минимальной, но все же чтобы клиент ее одобрил. Последний элемент – прогнозирование процедуры банкротства. То есть, агентство хотело получить заранее предупредждение, что тот или иной клиент собирается подавать на банкротство в течение, скажем, следующего полугодия.

Следует учитывать и ограничения данных. Данные могут быть конфиденциальны, например, пол, возраст, место жительства, зарплата. У многих коллекторских агентств такие данные есть. Их, в принципе, можно было бы использовать, но здесь все зависит от законодательства конкретной страны. Данные могут также быть несовместимы – в разных странах могут быть разные типы данных. К тому же для применения Data Science данные могут требовать предварительной обработки. Важный момент, с точки зрения ML, хочется предсказывать какой-то факт. Допустим, будет ли клиент платить в течение следующих нескольких месяцев? После анализа данных может стать ясным, что в них нет сильных предикторов, которые сказали бы, да, это точно произойдет. То есть, требовалось дальнейшее рассмотрение всего набора характеристик заемщика.

лучшие практики AI/ML для бизнеса. Часть первая

Зависимость вероятности платежа от возраста кредита

Моделирование вероятности платежа от возраста кредита показало, что чем старше кредит, тем лучше можно предсказать его судьбу. На основе этой модели можно принимать решение по заемщику несколько раньше и аппроксимировать поведение других заемщиков. Поэтому, строить стратегию по взысканию платежей с разных групп заемщиков становится легче. Имея такую модель, можно поделить заемщиков на тех, которые будут платить, и тех, которые, вероятно, не будут, и действовать в соответствие с этой информацией.

В заключение докладчик подчеркнул, что ML и AI в целом могут помогать в бизнесе, однако при этом очень важными являются стратегия и качество данных.

О современных тенденциях развития Advance Analytics рассказал Тимур Сидоренко, специалист в области Azure Data & AI из Microsoft.

лучшие практики AI/ML для бизнеса. Часть первая

Тимур Сидоренко: «Данные позволяет организации понять и предположить, что можно сделать в будущем»

Данные - это некоторый нематериальный актив, который позволяет организации понять и предположить, что можно сделать в будущем. Если вернуться к примеру по коллекторским компаниям, то основная суть планирования и понимания того, каким образом вести бизнес, строится на понимании тех данных, которые есть у коллектора. Как можно представить работу с данными?

лучшие практики AI/ML для бизнеса. Часть первая

Благотворный цикл

Приведенная выше схема описывает цикл данных внутри компании, начиная от появления клиента и конверсии его в какой-либо реализованный продукт. Наверное, это больше относится к розничным продажам, но с определенными ограничениями применимо и к В2В, а также для производственных цепочек для планирования доступности своих ресурсов и возможностей. Если говорить о розничных продажах, то самая интересная тема - это как себя ведет клиент, начиная с момента его знакомства с компанией до совершения покупки товара или сервиса. При завершении цикла получается слепок данных о клиенте, то есть основная идея в том, чтобы не терять любую возможность для сбора данных и впоследствии монетизировать и использовать эти данные.

Какие основные направления могут быть интересны? Например, расширением возможностей своих сотрудников. Здесь подразумевается следующее. Как показывает практика, многие компании понимают, что нужно предоставить какие-то инструменты сотруднику для работы. Если раньше считали, что Excel – это лучший инструмент для работы с данными, и огромные таблицы с множеством макросов позволяли каким-то образом автоматизировать бизнес-процессы, то на текущий момент не всегда Excel является таковым для работы и аналитики. Microsoft как раз призывает к тому, чтобы смотреть на инфраструктуру, на свои инструменты, и подходить к трансформации методов управления тем или иным процессом организации, руководствуясь принципом цена/качество. Если взять интеллектуальную цепочку поставок, то она имеет широкое применение. При использовании алгоритмов ML она позволяет оптимально подойти к реализации ее функциональных возможностей, для того чтобы не заставлять клиентов нервничать в ожидании услуги. Можно активизировать работу с клиентами, представив компанию по-другому.

Следующий раздел выступления был о расширении возможностей посредством цифровой трансформации. В них входят омниканальная оптимизация, персонализация и интеллектуальная цепочка поставок. К примеру, с помощью Advance Analytics можно определить, на какие товары или услуги реагируют те или иные клиенты. Если говорить о розничной торговле или финансовом секторе, то это планирование своих процессов, своих цепочек поставок, оптимизация перечня товаров в той или иной точке продажи.

Для того чтобы продемонстрировать, как это все работает, представим решение Microsoft в виде слоеного пирога.

лучшие практики AI/ML для бизнеса. Часть первая

Решения Microsoft для обработки данных

На нижнем уровне располагаются данные, с которыми нужно работать. Следующий уровень – это область аналитики и прогнозирования, далее – бизнес-приложения и завершающий слой – это системы отчетности. Проблема заключается в следующем. Как показывает практика компании, большинство клиентов сразу идут на третий уровень, то есть, они пытаются интегрировать свои бизнес-приложения для максимально эффективной работы. И на основании этих бизнес-приложений пытаются строить какую-то аналитику. Это не всегда является оптимальным по одной простой причине: в большинстве случаев бизнес-приложения для этого не рассчитаны. Поэтому требуется понимание того, какие данные есть у организации. Обычно у организаций есть много разных систем, к примеру, ERP, CRM, данные с которых собираются и каким-либо образом консолидируются. Уровень данных позволяет хранить информацию в едином виде, чтобы в дальнейшем с ней могла работать любая другая сторонняя система. Это могут быть бизнес-приложения или аналитическая система. Практика также показывает отсутствие установленных процессов интеграции данных. Это не дает возможность отслеживать, в какой из цепочек произошла ошибка. Уровень данных позволяет минимизировать эту проблему и служить неким шлюзом по интеграции систем между собой.

Заключительный доклад первого дня вебинара сделал Всеволод Щепанский. Его темой было менеджмент моделей ML в производстве. Модели ML являются основным ядром решений AI в любой индустрии. Но следует понимать, что каждая модель требует также определенного управления. Можно начать с того, что MLOPs (Machine Learning Operations) предоставляет возможность разработчикам и специалистам по данным довести модели ML до производства. Это резко отличается от обучения модели на наборе данных. Что собой представляет этот процесс? Это трекинг модели, создание версий, а также аудит, сертификация и повторное использование некоторых компонентов.

лучшие практики AI/ML для бизнеса. Часть первая

Всеволод Щепанский: «Каждая модель ML требует также определенного управления»

Если говорить об уровне зрелости автоматизации этих процессов, то Crayon выделяет четыре фазы: NoOps (полностью ручное управление), Basic MLOps (автоматизированный процесс ML-тренинга), Advanced MLOps (автоматизированные процессы ML-тренинга и развертывания модели в производство) и Expert MLOps (полная автоматизация на разных уровнях). Далее докладчик более подробно остановился на блок-схеме Expert MLOps Flow.

Когда специалисты по данным делают аналитику и определяют количество факторов, которые влияют на прогноз того или иного явления, например, вероятность реструктуризации долга, они проводят оркестрационные эксперименты с данными и постоянный анализ модели. Это все записывается в source code, который передается в source repository, к которому на следующем шаге соответственно настраивается continuous integrations, то есть, build test & package pipeline. Это все структурируется в отдельные пакеты, которые потом переходят в непрерывное развертывание, то есть становится базой для настройки deployment pipeline (конвейера развертывания). Автоматизированный конвейер выглядит приблизительно так:

лучшие практики AI/ML для бизнеса. Часть первая

Блок-схема потока Expert MLOps

Тренированная модель идет в производство.

Важной частью всего этого становится мониторинг. Для того чтобы понять, что модель производительности еще отвечает бизнес-целям, нужно выполнять постоянный мониторинг, который также базируется на обратной связи. Существуют следующие уровни мониторинга. Первый – это инфраструктурный. Нужно постоянно следить за нагрузкой CPU/GPU, использованием диска и т. п. Следующий уровень – мониторинг сервисов, к примеру, количество запросов в секунду, время ответа и т. п., чтобы понять, влияет ли инфраструктура на снижение производительности. При мониторинге этих двух уровней ищутся некие аномалии, например, какие-то нулевые данные, временные или мгновенные падения или скачки, скажем, важных метрик. Третий уровень мониторинга – данные. Нужно постараться понять, изменилась ли сама схема, не произошел ли входной дрейф или дрейф концепта, когда, скажем, данные, приходящие в модель изменяются, и модель начинает давать неожиданные результаты. Следующие два уровня – это мониторинг производительности и бизнес-мониторинг. Мониторинг этих двух уровней возможен только при наличии обратной связи. Это помогает понять, насколько часто нужно изменять метки данных, а также выполнять повторный тренинг модели, и уменьшить время мониторинга.

Презентация завершилась демонстрацией прототипа инструмента для мониторинга моделей.

Стратегія охолодження ЦОД для епохи AI