Big Data. Некоторые практические нюансы

26 ноябрь, 2013 - 17:38Александр Попов

О Big Data уже много публикаций на этом ресурсе. Сегодня, буквально несколько штрихов о практических аспектах.

Поиск / подключение источников
Чаще всего поиск больших данных осуществляют по неструктурированным источникам. Для этих целей существуют механизмы (фетчеры), позволяющие находить данные с веб-форумов, интернет-сайтов, в том числе социальных сетей. Примером является open-source ПО Nutch.

Сбор
Так как данных очень много, используют системы распределенных вычислений (типа open-source ПО Hadoop для пакетной работы и NoSQL для точечных ad-hoc), позволяющие распараллелить выполнение запросов по сотням/тысячам серверов. Из терабайт получают максимум гигабайты.

Обработка
После сбора полученные данные надо как-то упорядочить. Есть два основных подхода к этому. Первый предполагает занесение всей информации в реляционную базу данных и затем работу с ней уже традиционными BI-инструментами. Второй – это когда собранные данные загружаются в песочницы (чаще всего в оперативную память), анализируются и, если необходимо, сохраняются в отчетах.

Big Data. Некоторые практические нюансы

Принцип работы
Преимущества второго варианта обработки очевидны – не требуется больших затрат на приобретение для больших объемов реляционных СУБД и нет необходимости заранее знать/проектировать схему данных – поэтому я подробнее рассмотрю его.
Для этого варианта необходима in-memory база данных и инструмент, позволяющий осуществлять морфологический и семантический анализ с последующей визуализацией результатов.
Неделю назад вышел новый релиз такого продукта – Endeca 3.1: Колоночно-ориентированная in-memory СУБД.
Принципиально важно: для Endeca не требуется знать схему данных, что позволяет быстро интегрировать любые типы данных, структурированные или неструктурированные, без усилий, присущих традиционным реляционным моделям данных.
В качестве аппаратного обеспечения наиболее часто используются Exalytics.
Как известно, Exalytics используют для трех видов задач, два из которых известны, наверное, уже всем: для бизнес-аналитики (классического BI) и для систем бюджетирования. Третья возможность как раз предоставляется с помощью Endeca по работе с неструктурированной информацией.

Практическое применение
Продукты такого класса открывают огромные возможности для практического применения технологий, связанных с Big Data:

Мониторинг социальных медиа в режиме реального времени (контроль информационного фона)
Анализ потенциальных и явно выраженных потребностей в товарах и услугах, в т.ч. для определения максимальной начальной цены
Комплексная аналитика по впечатлениям клиентов
Комплексное представление истории развития какой-либо темы в режиме «единого окна»
Конкурентный анализ (конкурентная разведка)
Ведение автоматического досье
Подготовка дайджестов, накопление собственной базы данных новостных документов
Геотаргетирование