Очистку данных для аналитиков автоматизирует Amazon DataBrew

12 ноябрь, 2020 - 16:55

Очистку данных для аналитиков автоматизирует DataBrew

Инициатива, которую компания Amazon анонсировала вчера, со всей очевидностью создаст конкуренцию фирмам, специализирующимся на очистке данных, таким как Talend. Новая программа DataBrew, являющаяся расширением существующего ПО Glue, позволяет позволяет специалистам в области изучения и аналитики данных, выполнять предварительную очистку данных, не занимаясь программированием — с помощью перетаскивания мышью и готовых шаблонов.

Glue, которую Amazon выпустила в 2016 г., имела несколько иную нацеленность: она была рассчитана на инженеров с некоторым опытом программирования. В отличие от неё, DataBrew позволят аналитикам автоматизировать те же основные этапы процесса очистки данных, а именно, их извлечение, преобразование и загрузку (ETL), просто нажимая на кнопки и помечая радиальные поля в визуальном пользовательском интерфейсе.

AWS, представляя эту службу, сообщила, что она насчитывает «250 встроенных преобразований для автоматизации задач подготовки данных (например, фильтрация аномалий, стандартизация форматов и исправление недопустимых значений), для кодирования которых вручную потребовались бы дни и недели».

На демонстрационном видео показано, как с помощью DataBrew можно, например, удалить из записей базы данных специальные символы, не используемые при анализе данных. Столь же просто, функцией «категориального сопоставления», эта программа заменяет текстовую строку на её числовое представление, что делает записи доступными для анализа. Функция профилирования отображает статистику по набору данных, например количество отсутствующих в нём записей.

Amazon заявила, что новое ПО уже используется рядом её клиентов, из которых она назвала японского телекоммуникационного гиганта NTT DoCoMo и британскую нефтегазовую корпорацию BP.

Glue DataBrew доступно в семи регионах AWS: US East (Северная Виргиния), US East (Огайо), US West (Орегон), Europe (Ирландия), Europe (Франкфурт), Asia Pacific (Токио), Asia Pacific (Сидней).