Анализ Big Data почти в реальном времени опробован на дорожном трафике Чикаго

21 октябрь, 2019 - 15:45

Анализ Big Data почти в реальном времени опробован на дорожном трафике Чикаго

Социальные платформы, камеры, датчики и пр., генерируют огромные объёмы данных, каждый день увеличивающиеся на 2,5 квинтиллиона (миллиард миллиардов) байт. Этот информационный потоп в настоящее время делает невозможным полноценный анализ даже накопленных данных, не говоря уже об оперативной аналитике поступающей информации.

Исследователи из Национальной лаборатории Sandia Labs рассчитывают не просто помочь решить эту проблему. В кооперации со студентами Иллинойсского университета в Урбана-Шампань они разработали алгоритмы аналитики и принятия решений для потоковых источников данных и интегрировали их в систему обработки распределённых данных, выдающую готовые для практического использования сведения практически в реальном времени.

«Мы хотели посмотреть, что получится извлечь из анализа данных нескольких источников в реальном времени, а не исторических данных, — пояснил один из лидеров проекта, Тянь Ма (Tian Ma). — Практичная аналитика, это следующий уровень анализа данных, пригодный для принятия решений практически в реальном времени. Успех этого исследования может оказать сильное воздействие на многие приложения национальной безопасности, где оперативность реагирования имеет критичное значение».

Команда объединила распределённые технологии в конвейеры обработки, которые принимали, очищали и индексировали данные. В качестве программной инфраструктуры для обработки данных и аналитических конвейеров была использована платформа Hortonworks, установленная на компьютерах Sandia. Внутри Hortonworks исследователи разработали и интегрировали топологии Apache Storm для каждого конвейера данных. Очищенные данные хранились в Apache Solr, корпоративной базе данных с поисковым движком. Обнаружение объектов и визуализация данных осуществлялись при помощи PyTorch и Lucidwork Banana.

Для тестирования созданного решения, участники проекта использовали данные о ситуации на транспортных магистралях Чикаго, включающие изображения, показания встроенных датчиков, твиты, текстовые трансляции. Такой выбор, по словам другого руководителя проекта Sandia Labs, Руди Гарсиа (Rudy Garcia), был обусловлен тем, что входные данные чикагского дорожного трафика по многим характеристикам аналогичны типичным данным, которые приходится анализировать в целях национальной безопасности. На основе этой информации экспериментальная система успешно выявляла заторы на дорогах и предлагала более быстрые маршруты объезда для участников дорожного движения.

Коллектив Sandia в настоящее время занимается переносом архитектуры, аналитики и опыта, приобретённого в Чикаго, на другие правительственные проекты и будет продолжать исследовать аналитические инструменты, вносить улучшения в модель распознавания объектов и совершенствовать генерирование осмысленной и практичной аналитики.