Технологический Форум IBM: концепция «больших данных»

«Информация — вот то конкурентное преимущество, которое будет ведущим в эпоху Разумной планеты. «Большие данные» можно назвать новым природным ресурсом, схожим по силе воздействия с паром, электричеством и нефтью в индустриальную эпоху», — Джинни Рометти (Ginni Rometty), президент, председатель совета директоров ІВМ.

Уже сегодня руководители бизнеса отдают себе отчет в том, что для будущего роста доходов нужны новые бизнес-модели. Сегодня, по данным IBM, треть руководителей принимают бизнес-решения на основе недостоверных или неполных данных, половина — не имеют доступа к необходимой информации (и это при том, что технологически можно собрать данные буквально о любом объекте или процессе), 83% — считают BI-технологии инструментом повышения конкурентоспособности бизнеса, 60% нуждаются в повышении скорости анализа.

Интерес бизнеса к концепции «больших данных», Big Data, объясняется именно тем, что они позволяют работать с полным набором данных из большого числа источников, управлять данными в их обычном виде, эффективно анализировать, структурировать, формировать нужные потоки. И главное, найти скрытые резервы, которые позволят увеличить ценность активов компании. Украинские компании также с интересом смотрят в сторону Big Data — на Технологическом Форуме IBM зал соответствующей секции едва вместил всех желающих ознакомиться с видением IBM перспектив развития систем для работы с большими массивами данных.

Технологический Форум IBM: концепция «больших данных»

Дэвид Ла Роз (David La Rose) директор IBM в Центральной и Восточной Европе: «Бизнес-лидеры рассматривают «большие данные» как движущую силу развития новых и изменения существующих бизнес моделей. Данные — это новая нефть. В сыром виде от нефти немного толка, только после соответствующей обработки она помогает править миром»

Вообще-то, примеры практических реализаций Big Data, которые позволили построить новые бизнесы, уже есть. Скажем, Zynga (232 млн активных пользователей), которая предлагает бесплатные игры и получает доход от продаж виртуальных. Или сервис Waze (более 26 млн пользователей) собирает информацию о скорости движения, присутствии полиции, авариях, ремонтах дорог и, пользуясь аналитикой Big Data, предлагает карты с живым трафиком. Или чуть менее известная компания decide, которая предоставляет услуги по покупкам и продажам электронного оборудования на основе анализа исторических данных.

В IBM особо подчеркивают: опыт работы с «большими данными» кардинально отличается от привычного, и именно поэтому данную концепцию трудно понять, непросто реализовать, практически невозможно просчитать экономический эффект. Во-первых, в обычных системах данные производятся внутри компании, бизнес-процессами — в мире Big Data нужно совмещать данные из внутренних и внешних источников. Во-вторых, на протяжении многих лет сформировалась привычка, что данных не хватает и необходимо делать выводы в условиях неполной информации — Big Data, напротив, всегда слишком много. Во-третьих, если данных мало, необходима высокая точность (а следовательно процедуры очистки, пр.), при росте объемов данных их точность уже не играет большой роли — более того, одно из требований Big Data — быть готовым к неточной информации. Далее, человеку свойственно искать причины — Big Data предназначены для выявления корреляций, взаимосвязей, но не причин. К тому же ценность Big Data проявляется обычно во вторичном использовании, когда несколько наборов данных рассматриваются вместе.

Например, энергетическая компания Британской Колумбии (Канада) одной их первых внедрила «умные» датчики электричества, с целью оптимизации учета и распределения энергии. Но оказалось, что с их помощью можно сравнить расход и тип потребления у разных абонентов и выявить нелегальных производителей марихуаны (для ее выращивания нужно много электричества, которое, как правило, воруют), что позволило отказаться от дорогостоящей аэрофотосъемки ультракрасными камерами и дало значительный вторичный экономический эффект. Накопленные в течение 6-ти лет логи точек доступа WiFi в одном из крупных аэропортов стали основой для построения типовых маршрутов движения локальных и транзитных пассажиров. Объединив эту информацию с картами посадки, можно оптимизировать число работающих в определенное время таможенников и пограничников, улучшить логистику машин такси, направить потоки пассажиров разных категорий через различные магазины беспошлинной торговли — и повысить обороты.

Технологический Форум IBM: концепция «больших данных»

Леонид Кацнельсон (Leon Katsnelson), программный директор, центр компетенции IM Cloud Computing, IBM США: «Мы не хотели бы, чтобы клиенты смотрели на Big Data как готовое решение. Напротив, мы предлагаем свою концепцию «больших данных» как архитектуру, идею, которая позволит на основе отдельных компонентов от IBM создать оптимальную схему работы с информацией: для построения операционных отчетов, для бизнес-анализа, для сбора и хранения массива сырых данных с возможностью выполнения запросов и специального анализа»

Сложность в том, что к «большим данным» невозможно применить принятые в обычных системах процессы сбора и обработки. Обычно при ведении бизнеса данные собираются для известной цели, в определенном порядке (OLTP), затем с помощью процесса ETL (extract, transform, load) фильтруются, агрегируются загружаются в хранилища, после чего анализируются. Но ETL адаптирован к выбранной цели и к Big Data эти процессы приложить невозможно: во-первых, объем данных слишком велик, во-вторых, не ясно как проводить фильтрацию и очистку, ведь информацию важно оставлять необработанной. Сейчас данные для долгосрочного хранения обычно упаковываются а архив, и изымаются оттуда крайне редко — но к Big Data важно обеспечить доступ, следовательно необходимы иные инструменты.

В IBM подчеркивают: Big Data — это не только Hadoop и NoSQL, это не отсутствие схемы данных, но изменение времени ее наложения. Действительно, в обычной СУБД схема определяется администратором и применяется при воде данных в БД. Соответственно, СУБД хороша для работы с готовыми запросами. При анализе «больших данных» (Hadoop, NoSQL) схема применяется при доступе и определяется программистом, поэтому эти инструменты эффективно использовать для новых запросов и гибкой аналитики.

Таким образом, «большие данные» — это не замена существующим СУБД, а дополнение к имеющимся инструментам. В ИТ системе, по мнению IBM, должно быть выделено три зоны операционного хранилища (для создания отчетов, OLAP, оценки KPI, пр. средняя стоимость — $70 тыс за 1 ТБ), аналитического хранилища (для прогнозной аналитики с соответствующими инструментами, в среднем $20 тыс за 1 ТБ) и зоны Hadoop долгосрочного хранения данных без предварительной обработки ($4 тыс за 1 ТБ) с собственными инструментами поиска взаимозависимостей.

IBM предлагает клиентам сквозной пакет услуг и инструментов для развития проектов Big Data: Vivisimo для объединенного поиска информации в многочисленных источниках и организации доступа к ресурсам; PureData for Analytics для построения хранилищ, InfoSphere Streams для анализа данных по мере их поступления из разных источников (в реальном времени) и InfoSphere BigInsights для анализа сырых данных (сочетает возможности программного обеспечения с открытым кодом Apache Hadoop с функциональностью и возможностями интеграции уровня предприятия, обеспечивая крупномасштабный анализ со встроенной гибкостью и отказоустойчивостью).

С целью популяризации технологий IBM разработала бесплатный курс по SQL для Hadoop, а в ближайшее время намерена выпустить бесплатные обучающие материалы по языку R (для статистической обработки данных).

Стратегія охолодження ЦОД для епохи AI

Александр Попов | 3 октября 2013 г., 9:57 | ссылка

Хорошо описана первая половина, а вторую, видно, писал другой человек.
Ошибка в основном - в суммах. По-моему пропущено слово "тыс", где речь идет о 70 и 20 долл за 1ТБ.

Для основного хранилища (операционного или аналитического) стоимость ТБ обычно в пределах 20-70 тыс. долл за 1ТБ.

А для "свалки" (т.е. Big Data), куда кидаются все данные (например из твиттера, фейсбука или у телекомов логи траффика) не нужно дорогостоящее хранение и там у ИБМ по 4тыс. долл за 1ТБ. Хотя IMHO это очень дорого - у Оракла это около 2тыс. например.

Войдите или зарегистрируйтесь, чтобы вы могли писать комментарии

Михаил Лаптев | 3 октября 2013 г., 21:21 | ссылка

Александр, спасибо за комментарий.
Опечатку устранили.

Чи використовує ваша компанія ChatGPT в роботі?

Колонка

BEST CIO

Человек года

Продукт года

Читайте также

Останні обговорення

ТОП-новини

ТОП-блоги

ТОП-статті