`

СПЕЦИАЛЬНЫЕ
ПАРТНЕРЫ
ПРОЕКТА

Архив номеров

Как изменилось финансирование ИТ-направления в вашей организации?

Best CIO

Определение наиболее профессиональных ИТ-управленцев, лидеров и экспертов в своих отраслях

Человек года

Кто внес наибольший вклад в развитие украинского ИТ-рынка.

Продукт года

Награды «Продукт года» еженедельника «Компьютерное обозрение» за наиболее выдающиеся ИТ-товары

 

Big Data – создание или решение проблем?

+33
голоса

Муссирование темы «Больших данных» не может не настораживать. ИТ-индустрия сулит большие конкурентные преимущества компаниям, которые первыми найдут зерно в навозной куче данных. Однако не скрываются ли за всем этим ослиные уши царя Мидаса? Ведь выгода для производителей как аппаратного, так и программного обеспечения здесь очевидна. А что может получить потребитель технологии Big Data? Не будет ли результат такой же, как в сказке о барине-кузнеце?

Big Data – создание или решение проблем?
Участников форума приветствовал Владимир Поздняков

Ответы на подобные вопросы пытаются дать всевозможные семинары и конференции, проводимые лидерами ИТ-индустрии. Одна из них – IDC Big Data and Business Analytics Forum 2012 – была организована, как это видно из названия, компанией IDC (Украина). В форуме в качестве партнеров участвовали IBM, Oracle и ряд других компаний. Нужно отметить, что IDC проводит подобные конференции во многих странах мира.

«Кто владеет информацией, тот владеет миром» – эта фраза была предложена в качестве своеобразного девиза форума в выступлении регионального менеджера «IDC Украина» Владимира Позднякова, отвечающего за работу компании в Украине, Беларуси, Молдове и странах Закавказья.

Трудно найти человека, который бы ее не знал. Однако далеко не все знают, кому мы этим обязаны. Легенда относит авторство Ротшильдам, которые, узнав о поражении Наполеона под Ватерлоо первыми, спровоцировали сброс акций стран коалиции и скупили их затем через своих агентов. (Правда, существует версия, что это парафраз крылатого изречения Френсиса Бекона «Знание – сила». Даже если это так, ее первое общеизвестное практическое применение все же остается за Ротшильдами. – Л.Б.)

Сегодня уже недостаточно располагать данными, нужно успеть их обработать. Проблема заключается в том, что их объем становится чрезвычайно большим, а «плотность информации» уменьшается. Таким образом, для поиска полезной информации приходится «просеивать» сотни гигабайт зачастую неструктурированных данных.

Big Data – создание или решение проблем?
Елена Семеновская: «В числе препятствий на пути внедрения новых технологий – неготовность пользователей, недостаток аналитиков, необходимость четко ставить задачи, выдвигать и проверять гипотезы»

Собственно, показать возможные пути решения этой проблемы и являлось основной целью данного форума. Тема пленарного доклада директора по исследованиям Елены Семеновской из IDC Россия и СНГ «Большие данные – от проблем до возможностей» как нельзя лучше это отражала. По ее словам, причиной лавинообразного роста объема данных стало наступление эры ПК и Интернета, которая преобразовала как бизнес, так и повседневную жизнь людей. С появлением так называемой III платформы (мобильные технологии, социальные сети, облачные вычисления, Big Data) изменения в этом направлении продолжаются. Так, по оценкам IDC, к 2020 г. количество данных возрастет примерно в 40 раз, достигнув 35 ЗБ, в то время как емкость СХД – только в 30. В числе основных источников BD госпожа Семеновская указала на данные, генерируемы в процессе повседневной деятельности людей, а также поступающие от всевозможных датчиков, которые сегодня встраиваются в самые различные системы и устройства. И несмотря на то, что задачи, в общем, остаются теми же, их решение намного усложняется.

В данной ситуации традиционные средства бизнес-аналитики уже не справляются с возложенными на них задачами. Новое поколение технологий должно удовлетворять требованиям, которые часто обозначаются как 4V: добывать ценные знания (Value) из больших объемов данных (Volume) различного типа (Variety) путем быстрого доступа (Velocity). Прогнозируется, что инвестиции в технологии BD будут расти ежегодно на 40% и к 2015 г. достигнут 17 млрд. долл.

Каковы же основные компоненты этих технологий? Это, прежде всего, инфраструктура (серверы, СХД, сети), системы управления данными (различные типы БД, файловые системы, интеграция данных), аналитические приложения (добыча данных, текстовый анализ, визуализация данных) и приложения, которые со всем этим работают.

Хотя все эти компоненты звучат знакомо, однако подходы радикально меняются. Так, обработка различных типов данных предоставляет больше возможностей для анализа; решения основываются на сегментированных данных, а не на усредненных; большой объем анализируемых данных позволяет создавать модели, а анализ в режиме реального времени – делать оперативные прогнозы. Ну, а область применения технологий BD очень обширна – от научных исследований и медицины до разведки полезных ископаемых и ориентированного на обслуживание клиентов бизнеса.

В то же время на пути внедрения новых технологий существует ряд препятствий. В их числе – неготовность пользователей, недостаток аналитиков, необходимость четко ставить задачи, выдвигать и проверять гипотезы. Однако рост данных – это объективная реальность, и технология BD дает возможность вывести бизнес на новый уровень. Так что об этом стоит задуматься.

Big Data – создание или решение проблем?
«Не являются ли BD очередной волной ИТ-моды? Отличаются ли BD от того, чем ИТ-индустрия занимается сегодня?» – вопросы, на которые попытался ответить Леонид Кацнельсон.

Не являются ли BD очередной волной ИТ-моды? Такой вопрос (и, наверное, не случайно) поставил перед аудиторией Леонид Кацнельсон, директор подразделения IBM Big Data & Cloud. В своем дальнейшем выступлении он постарался опровергнуть подобное утверждение.

В качестве одного из недостатков традиционных методов обработки данных докладчик указал на тот факт, что в большинстве случаев компании сосредотачиваются на глубоком анализе прошлых показателей с целью повышения эффективности бизнеса. И очень редко встречаются случаи, когда информация используется для предсказания тенденций в будущем. Возможно, это происходит потому, что компании используют только сгенерированные внутри нее данные? Может быть, нужно «забросить сети» подальше? И здесь компании могут столкнуться с явлением, которое и называется BD.

В то же время, для каждой отдельной компании понятие BD может не определяться наличием каких-либо значений 4V. В частности, проблема может не зависеть непосредственно от конкретного объема и скорости поступления данных. Она реально возникает, когда имеющаяся ИС не может справиться с потоком и типами данных, которые необходимо обработать.

Для успешного прогнозирования тенденций необходимо обрабатывать данные из внешних источников, таких как Twitter, Facebook и другие социальные сети. И здесь речь идет о десятках терабайтов неструктурированных данных в день. К этому необходимо прибавить поток данных от всевозможных датчиков.

IBM предлагает платформу, предназначенную для того, чтобы помочь превратить эти трудности в новые возможности для бизнеса. Однако любая новая технология должна интегрироваться с существующими в компаниях инфраструктурами. Вот именно поэтому платформа IBM Big Data включает в себя продукты интеграции с существующими хранилищами данных, процессами ETL и системами безопасности.

Двумя ключевыми компонентами этой платформы являются InfoSphere Streams и BigInsights. Первая предназначена для обработки большого количества данных в режиме реального времени. При этом обработка выполняется исключительно в ОЗУ. Вторая позволяет хранить огромное количество данных на недорогих дисководах и обрабатывать на бюджетных кластерах.

Для того чтобы ускорить внедрение этих технологий, компания предлагает заранее собранные пакеты, специально приготовленные для определенных отраслей. Доступ к этим технологиям бизнес-аналитикам облегчается с помощью средств визуализации. Эта платформа довольно гибкая и не требует внедрения и использования всех компонентов одномоментно.

В качестве примера эффективности технологий BD докладчик привел результаты телеигры Jeopardy между суперкомпьютером Watson и тремя лидерами. Расширенные аналитические возможности суперкомпьютера позволили ему распознавать английскую речь, анализировать 200 млн. страниц текста, заложенных в него заранее, и дать ответ за 3 с. Используя технологию BD, крупный индийский телеоператор смог обрабатывать и анализировать 8 млрд. CDR (Call Detail Record) в день, уменьшив время обработки данных с 12 часов до 1 с.

Вывод из всего этого тот, что BD – не мода, а реальность, и технологии BD предоставляют новые возможности для бизнеса.

Украинский сценарий перспективы BD и реальности бизнес-аналитики представил специалист из Oracle Business Intelligent Константин Ступак. Отдавая дань вкладу неструктурированных данных в проблему BD, он все же отметил, что, по его мнению, речь идет не столько о новых технологиях обработки данных, сколько о снижении стоимости этой обработки. Что касается ценности BD, то всегда будет присутствовать вопрос, несут ли они ее или нет? Таким образом, задача заключается в том, чтобы понять, есть ли польза от BD, и как ее получить. Докладчик привел результаты опроса, выполненного компанией Unisphere Research в 2011 г., о ценности неструктурированных данных:

Big Data – создание или решение проблем?

Как видно из приведенного слайда, большинство западных ИТ-менеджеров считают, что неструктурированные данные имеют определенную ценность. И в первую очередь это касается таких областей, как медицина, производство, сервисы с геопривязкой, госсектор и торговля (речь идет о высокоразвитых странах).

Что же нужно для работы с BD? Принципиально, ничего нового. Их нужно получить, систематизировать, проанализировать и принять решение. Однако ввиду наличия 4V, для этого необходимы новые технологии. Oracle, по словам докладчика, предлагает наиболее полный набор инструментария, включающий, в частности, NoSQL Database, Loader for Hadoop, Data Warehouse и Analytical Applications, а также аппаратно-программные комплексы Big Data Appliance, Exadata и Exalytics.

Термин BD практически всегда идет в связке с BA. Это, кстати, отражено и в названии форума. Каковы же современные требования к системам бизнес-аналитики? Об этом рассказал заместитель руководителя управления продаж и развития бизнеса компании «Прогноз» Денис Миронов.

По данным компании, которые включают оценки многих аналитических агентств, доля использования регламентных отчетов в проектах составляет 37%. Как правило, это отчеты по ключевым направлениям деятельности компании. Они охватывают финансы и экономику, производственные и технологические показатели, инвестиционную деятельность, показатели эффективности и т.п. Заказчики часто нуждаются в аналитических панелях, визуально отражающих различные показатели. Доля использования этой функциональности составляет 40%. Далее, по мере снижения интереса, идут экспресс-анализ данных методами OLAP (27%), карты показателей (16%) и предсказательная аналитика (8%).

Учитывая, что крупные компании сталкиваются с проблемой обработки больших объемов данных, ведутся работы по интеграции Prognoz Platform с решениями IBM Netezza, Oracle Exadata, Teradata и другими. Отвечая на требования клиентов предоставить им возможность использовать мобильные технологии в корпоративной среде, компания предлагает нативный клиент для iOS, обеспечивающий доступ к OLAP, аналитическим панелям и инструментам анализа временных рядов. В процессе разработки – клиент для Android.

Сегодняшняя бизнес-аналитика уже не может существовать без облачных вычислений. Prognoz Platform включает облачное решение, позволяющее компаниям работать с подготовленными источниками данных и загружать свои данные. Для повышения скорости обработки данных реализованы механизмы вычислений in-memory. Пользователи также часто запрашивают функции визуализации данных. Кроме этого, они хотят меньше зависеть в своей работе от ИТ-специалистов и требуют более простых инструментов для анализа данных. Докладчик обозначил еще ряд тенденций, в частности, необходимость в совместной работе и в социальной бизнес-аналитике.

По словам руководителя направления Information Management IBM Игоря Круковского, огромные объемы данных предоставляют, в свою очередь, огромные возможности для компаний. Но этими данными необходимо управлять. Для ИТ-департамента управление разделяется на три компонента: обработка, интеграция и анализ. IBM предоставляет интегрированный набор технологий для управления данными, начиная от БД и заканчивая инструментами для анализа. Далее докладчик более детально рассмотрел платформу InfoSphere Information Server, обеспечивающую извлечение, преобразование и загрузку данных (ETL). Платформа имеет модульную структуру, и заказчик может приобретать необходимые модули, исходя из своих задач.

Уже не раз упоминалось, что основную сложность в обработку BD вносят неструктурированные данные, в частности текстовые. Темой заключительного доклада форума было использование текстовой аналитики для преобразования BD в Business Insights. Его сделал CEO компании SemanticForce Всеволод Гаврилюк.

Сегодня в семантическом хранилище компании более 1 млрд. сообщений. Ежедневно проводится индексирование и анализ более 1 млн. сообщений и подробный анализ нескольких десятков тысяч.

Текстовая аналитика может использоваться в разных областях. Ее результатами могут воспользоваться отделы маркетинга, поддержки и продаж. На зрелых рынках это уже утвердившаяся индустрия, насчитывающая более 300 игроков. Развитию компьютерных средств анализа текстов способствует большой объем исходных данных, требования к скорости и к глубине анализа.

Инструментами текстового анализа пользуются, в частности, «Киевстар», Nestle, Renault, LG.

Докладчик остановился также на трудностях текстового анализа, связанных с жаргоном и сленгом, а также с эмоциональной окраской сообщений. Имеются и технологические проблемы, состоящие в том, что системы лексического и графоморфологического анализа текстов имеют погрешности. К тому же есть ряд смысловых задач, которые на данный момент сложны для анализа.

Тем не менее, при применении автоматического анализа текстовых данных открывается ряд перспектив. Это, в частности, поиск по смыслу, а не по ключевым словам; формирование ответов на вопросы, написанных на естественном языке; улучшенная визуализация аналитических данных; моделирование результатов и прогнозирование.

Big Data – создание или решение проблем?

Форум закончился сессией вопросов и ответов и активной панельной дискуссией.

+33
голоса

Напечатать Отправить другу

Читайте также

Жаль, что про мой доклад - ни слова: видимо, автор не осилил :(

С уважением,

Максим Бодаев
Директор по развитию бизнеса
Citia BTC

 
 
IDC
Реклама

  •  Home  •  Рынок  •  ИТ-директор  •  CloudComputing  •  Hard  •  Soft  •  Сети  •  Безопасность  •  Наука  •  IoT