`

СПЕЦИАЛЬНЫЕ
ПАРТНЕРЫ
ПРОЕКТА

Архив номеров

Как изменилось финансирование ИТ-направления в вашей организации?

Best CIO

Определение наиболее профессиональных ИТ-управленцев, лидеров и экспертов в своих отраслях

Человек года

Кто внес наибольший вклад в развитие украинского ИТ-рынка.

Продукт года

Награды «Продукт года» еженедельника «Компьютерное обозрение» за наиболее выдающиеся ИТ-товары

 

Александр Попов

Big Data. Некоторые практические нюансы

+77
голосов

О Big Data уже много публикаций на этом ресурсе. Сегодня, буквально несколько штрихов о практических аспектах.

Поиск / подключение источников
Чаще всего поиск больших данных осуществляют по неструктурированным источникам. Для этих целей существуют механизмы (фетчеры), позволяющие находить данные с веб-форумов, интернет-сайтов, в том числе социальных сетей. Примером является open-source ПО Nutch.

Big Data. Некоторые практические нюансы

Сбор
Так как данных очень много, используют системы распределенных вычислений (типа open-source ПО Hadoop для пакетной работы и NoSQL для точечных ad-hoc), позволяющие распараллелить выполнение запросов по сотням/тысячам серверов. Из терабайт получают максимум гигабайты.

Обработка
После сбора полученные данные надо как-то упорядочить. Есть два основных подхода к этому. Первый предполагает занесение всей информации в реляционную базу данных и затем работу с ней уже традиционными BI-инструментами. Второй – это когда собранные данные загружаются в песочницы (чаще всего в оперативную память), анализируются и, если необходимо, сохраняются в отчетах.

Big Data. Некоторые практические нюансы

Принцип работы
Преимущества второго варианта обработки очевидны – не требуется больших затрат на приобретение для больших объемов реляционных СУБД и нет необходимости заранее знать/проектировать схему данных – поэтому я подробнее рассмотрю его.
Для этого варианта необходима in-memory база данных и инструмент, позволяющий осуществлять морфологический и семантический анализ с последующей визуализацией результатов.
Неделю назад вышел новый релиз такого продукта – Endeca 3.1: Колоночно-ориентированная in-memory СУБД.
Принципиально важно: для Endeca не требуется знать схему данных, что позволяет быстро интегрировать любые типы данных, структурированные или неструктурированные, без усилий, присущих традиционным реляционным моделям данных.
В качестве аппаратного обеспечения наиболее часто используются Exalytics.
Как известно, Exalytics используют для трех видов задач, два из которых известны, наверное, уже всем: для бизнес-аналитики (классического BI) и для систем бюджетирования. Третья возможность как раз предоставляется с помощью Endeca по работе с неструктурированной информацией.

Практическое применение
Продукты такого класса открывают огромные возможности для практического применения технологий, связанных с Big Data:

  • Мониторинг социальных медиа в режиме реального времени (контроль информационного фона)
  • Анализ потенциальных и явно выраженных потребностей в товарах и услугах, в т.ч. для определения максимальной начальной цены
  • Комплексная аналитика по впечатлениям клиентов
  • Комплексное представление истории развития какой-либо темы в режиме «единого окна»
  • Конкурентный анализ (конкурентная разведка)
  • Ведение автоматического досье
  • Подготовка дайджестов, накопление собственной базы данных новостных документов
  • Геотаргетирование
+77
голосов

Напечатать Отправить другу

Читайте также

;-) Задаю! (хотя я и не дотягиваю до 80-го левела Андрея Зубинского)

Судя по приведённым примерам практического применения, основная _актуальная_ сфера применения Big Data - это анализ посещения страниц в интернете.
1. Правильно ли я понимаю, что инструменты Big Data в таком контексте - это развитие идеи статистических движков сайта, масштабированные до нескольких (многих) сайтов?
2. Достоверность такой статистики по моему опыту даже для одной площадки весьма спорный вопрос. Думаю,в случае масштабирования, эта достоверность уменьшается самым кардинальным образом?
3. К вопросу о применимости результатов. Не могли бы немного детальнее рассказать об одном из примеров, чтобы понять реальную результативность? Имеется в виду вопрос Андрея про

оценки результатов таких предсказаний по единственному критерию - тривиальности

Спасибо Павел за вопросы!
Отвечаю:
1. анализ посещения страниц в интернете - это самое интересное, но у нас в стране основное использование больших данных идет в телекомах и как раз с внутренними данными.
У нас три крупных телекома, у каждого десяток-два миллиона абонентов, идет жесткая конкурентная борьба, т.н. "отток" абонентов. Есть готовые алгоритмы расчета и формирования списка тех абонентов, которые с большой долей вероятности могут "сбежать". Для небольшого телекома - это не большая проблема, загрузил данные в тот же Exalytics и посчитал. А 20 млн абонентов и их звонки например за 3 месяца посчитать?

2. кейс номер 2 и ответ на 2-й ваш вопрос. Сбербанк РФ и ВТБ банк России заботятся о своей репутации с помощью анализа, в т.ч. на основании данных из соцсетей/интернета (где по вашему достоверность не очень высока). Определение негатива и его своевременное гашение, недопущение всплеска/развития - это очень важно для любого банка. Тут даже не столько достоверность играет роль, как чтобы не было снежного кома проблем/ударов по репутации.
У меня есть наглядные картинки/описание как там сделано, но решил не перегружать ими данную статью.

3. Еще пример из практики. Выше картинка о Навальном, точно такая же есть по Собянину. Определили сильные-слабые стороны и, думаю, ударили...про удар моё личное мнение, но думаю, что распиарили-вычислили всю сеть ботов, что была у Навального.

Спасибо за оперативные ответы! Примеры живые и, наверное, хорошо работающие, но
1. С телекомами не совсем Big Data получается, т.к. данные достаточно структурированные и упорядоченные, скорее Big Volume of Information.
2. Из примера с банками я могу сделать вывод о нулевой достоверности. Или, с некоторой оговоркой, что достоверно можно определить только пики анонимных волн. И что? Кейс полностью должен включать ответную реакцию банка. Мне кажется, что по человеческим ресурсам проще и эфффективнее держать команду живых аналитиков-пожарников, в ручном режиме поддерживающих "температуру" на нужном уровне, в том числе и превентивно. Роль Big Data практически сводится к красивой даграмме в презентации.
3. Наверное, самый сложный пример с точки зрения классификации методов сбора, обработки и хранения информации. Если есть информация или предположения - поделитесь, пожалуйста. Я не берусь с ходу отнести это к Big Data.

Александр, ни в коем случае не хочу сказать, что Big Data - это что-то плохое и ненужное. И Ваш материал прекрасно описывает "практические нюансы". Просто, хочется увидеть реальную жизнь интересных идей без маркетинговых слоганов.

1. По телекомам я привел пример одной задачи, самой насущной для них.
В мире телекомы уже практически не зарабатывают на передаче данных – жесткая конкуренция заставила предлагать пакеты и сотовой связи, и интернет, и ТВ (например в Европе всё это за 40 долл). Заработка нет. Но у телекомов есть уникальные данные: о клиентах, их местонахождении, их социальном окружении и т.п.
У меня есть очень большой список других задач для них, приведу еще парочку: анализ трафика - кто на какие сайты например ходит. Здесь уже полуструктурированные данные. Или геотаргетирование, например если люди на стадионе во время матча, то им можно предложить какую-то услугу, которая именно им и именно в данный момент будет интересна. Или сегментирование клиентов (нахождение лучшего сегмента и лучшего предложения для него) – без неструктурированных данных о клиенте это тяжело сделать.

2. Про банки - тоже простейший пример привел. Расскажу подробнее. Служба безопасности банка проверяет контрагента - выявить его связи/прошлое легче в автоматическом режиме. Или определение сети ботов - авторов, пишущих на определенную тематику о банке. Или такой слоган, как "Мы вас слышим": определение "болевых" точек (неуважительное отношение, не работает банкомат,...) и сильных точек (красивые сотрудницы, перевод звонка на оператора если с мобильного, много банкоматов...)

 
 
IDC
Реклама

  •  Home  •  Рынок  •  ИТ-директор  •  CloudComputing  •  Hard  •  Soft  •  Сети  •  Безопасность  •  Наука  •  IoT