Финансовые и производственные данные на службе машинного обучения

30 август, 2019 - 12:03Ирина Рундель

На смену эпохи больших данных пришло время умной аналитики. Благодаря новым источникам информации компании начали накапливать огромные объемы данных, хранение которых постепенно перемещается в облако. Развитие алгоритмов машинного обучения (machine learning, ML) дало возможность иначе взглянуть на эти массивы информации, а главное позволило использовать их для интеллектуального анализа и прогнозирования.

Недавнее исследование Crisp Research, в рамках которого были опрошены компании в Германии, показало, что 59% респондентов для анализа с помощью машинного обучения используют финансовые данные, загруженные из ERP-систем.

Также отмечается, что 43% опрошенных компаний уже подвергают обработке данные, собранные в процессе производства. Как правило, делается это для повышения эффективности выпуска продукции и улучшения ее качеств. При этом 66% всех производственных данных приходится на трафик, полученный от датчиков IoT.

Для обучения алгоритмов и создания точных решений в системах ML необходимы большие наборы данных, это в свою очередь требует систем хранения с быстрым откликом и простым «неограниченным» масштабированием, поскольку исходные датасеты будут расширяться в процессе использования.

Стоит подчеркнуть, что алгоритмы обучаются на разных типах данных, которые требуют различных возможностей в контексте производительности, и, как правило, этого можно достичь за счет использования гибридной архитектуры.

Для больших массивов данных зачастую требуются хорошо масштабируемые дата-центры с индивидуализированной серверной архитектурой.

Хотя многие данные для ML хранятся в облаке, некоторая их часть по-прежнему остается в локальных ЦОД. Тут может быть и желание сэкономить, и требование норм локального законодательства. Однако где бы не находились данные, максимальная гибкость процесса обработки достигается при использовании облачных ML-инструментов. При этом локальное размещение должно упрощать поток между различными средами, а не ограничивать его.

В заключение необходимо отметить, что согласно исследованию Crisp Research немецкие компании для задач машинного обучения в основном используют финансовые и производственные данные, и, как правило, большую их часть предпочитают размещать в облачных хранилищах.