Новый сервис Google анализирует потоковые данные

27 июня 2014 г., 13:55

Новый сервис Google анализирует потоковые данные На проходящей в Сан-Франциско (США) конференции Google I/O компания объявила о запуске предварительной версии сервиса Cloud Dataflow, который дает возможность производить анализ данных в пакетном и поточном режимах. Новый «облачный» сервис может работать с произвольными объемами данных, поставляемых в том числе из внешних источников. Для создания конвейеров, обрабатывающих данные в пакетном и поточном режимах, используется одна и та же модель программирования.

Как подчеркивают в Google, новый сервис – еще один инструмент для анализа и работы с «большими» данными, который позволит пользователям оперативно выявлять тренды и получать уведомления о событиях. Cloud Dataflow спроектирован так, чтобы избавить пользователя от необходимости настройки низкоуровневой инфраструктуры и поддержки каналов получения данных. Новый сервис использует технологии анализа данных реального времени применяемых в самой Google: Flume собирает большие объемы данных, а MillWheel выполняет их анализ с минимальной задержкой.

В дополнение к Cloud Dataflow компания Google выпустила SDK для построения конвейеров (пока поддерживается только Java).

Cloud Dataflow может использоваться, например, для анализа отзывов о продукте в социальных сетях, контроля журналов с целью выявления аномальной активности, связанной с инцидентами безопасности, пр. Кроме того, сервис можно использовать как альтернативу локальным системам извлечения, трансформации и загрузки данных (ETL) для подготовки входящего потока для систем бизнес-аналитики.

Стратегія охолодження ЦОД для епохи AI