Big Data: через понимание к применению

23 ноябрь, 2013 - 17:10Игорь Дериев

Украинский Forbes провел конференцию «BIG DATA в Украине: преимущества больших чисел», собравшую несколько десятков руководителей и ведущих технических специалистов украинских компаний. В ее анонсе Big Data («большие данные») были представлены как актуальный бизнес-приоритет, что является некоторым преувеличением даже для развитых стран. В Украине же, судя по вопросам из зала, эта тема еще более далека от насущных проблем.

Впрочем, это и не удивительно, в силу сравнительной новизны данной концепции, которая зародилась в начале 2000-х, долгое время развивалась по большей части в академической среде, а окончательно сформировалась к концу десятилетия. Сам термин Big Data был введен в обиход, по-видимому, лишь в 2008 г., но уже с 2011 г. он занял прочное место в списке основных тенденций, влияющих на развитие ИТ.

Big Data: через понимание к применению

Эрон Келли: «Сегодня удивительное время — пользователи получают в свое распоряжение мощные аналитические инструменты, открывающие поистине неограниченные возможности»

Поэтому конференция носила, скорее, просветительский характер, и приглашенные докладчики из Microsoft и SAP постарались донести до аудитории собственное видение Big Data и познакомить с возможными применениями новых подходов и широтой открываемых ими перспектив. Все докладчики, однако, были единодушны в том, что появление Big Data вызвано реальными потребностями ИТ и бизнеса. Gartner еще более 10 лет назад сформулировала их в виде «трех V» — Volume, Velocity, Variety — характеризующих собственно данные, с которыми приходится иметь дело компаниям: их много, они поступают с большой скоростью и достаточно разнообразны. В последнее время список «V» стал дополнительно расширяться, в частности, многие добавляют Veracity — достоверность, — которую, можно распространять как на исходные данные (их целостность и полноту), так и на полученные на их основе результаты.

Но Эрон Келли (Eron Kelly), генеральный менеджер Microsoft по маркетингу платформы данных, считает, что проблема заключается не только в росте объемов данных и сложности их обработки. Имеется встречный процесс со стороны бизнеса, который сегодня хочет получать все больше знаний, затрачивая на это все меньше ресурсов и времени. При этом меняются и способы потребления информации: аналитик рассчитывает получать доступ к своим инструментам в любое время и в любом месте, в том числе, с мобильных устройств. С точки зрения Microsoft это диктует потребность в создании всеобъемлющей платформы данных, охватывающей как традиционные, так и Big Data технологии, а также высокоуровневые аналитические инструменты. Существенную роль при этом должно играть «облако», которое идеально подходит для решения задач в области высокопроизводительных вычислений и повсеместного доступа.

Соответственно, ключевым компонентом Big Data в стратегии Microsoft является HDInsight, дистрибутив Hadoop, разработанный в сотрудничестве с Hortonworks и оптимизированный для работы на платформе Windows Azure. Запущенный в конце октября 2013 г., HDInsight может использоваться совместно с традиционными аналитическими инструментами вроде PowerPivot и Power View, а также с новыми онлайновыми — Power BI, и уже нашел применение в нескольких проектах. В частности, муниципалитет Барселоны использует его для оценки общественного мнения и выявления потребностей жителей города; 343 Industries, разработчик популярной игры Halo 4, — для анализа поведения игроков; медицинская компания Ascribe — в клинических исследованиях.

Big Data: через понимание к применению

Дмитрий Шепелявый: «Важно не только обладание соответствующими инструментами, но и отраслевая экспертиза, опыт решения конкретных бизнес-задач»

Дмитрий Шепелявый, заместитель генерального директора, директор департамента технологических решений SAP СНГ, представил Big Data в контексте преодоления очередного информационного барьера, поставив данную концепцию в один ряд с письменностью, книгопечатанием, компьютером. SAP также располагает развитой платформой для обработки данных, в том числе, сотрудничает с Intel и Hortonworks в части поддержки взаимодействия с Hadoop. При этом платформа характеризуется как способная работать в реальном времени, что обеспечивается ее центральным компонентом — СУБД HANA. В ней применяется in-memory подход, массово-параллельная обработка, поколоночное хранение, компрессия и прочие ухищрения, обеспечивающие высочайшую производительность, которой, как считают в компании, не могут достичь конкуренты. Кроме того, в HANA встроены разнообразные аналитические инструменты, в том числе, готовые методы статистической обработки, поддержка языка R и пр., что позволяет создавать на ее основе эффективные решения, в которых не требуется обмен данными с внешними системами. Таким образом, во главу угла поставлена скорость, которая в бизнес-решениях играет весьма важную роль.

SAP также перевела на HANA свои решения из состава Business Suite, что обеспечило ей сравнительно большое количество проектов, которые можно отнести к категории Big Data. Причем, их разнообразие прекрасно подтверждает тезис о повсеместной применимости соответствующих подходов. Дмитрий Шепелявый привел примеры и типичные задачи из самых разных отраслей, включая медицину, транспорт, финансы, торговлю. Столь широкий отраслевой опыт, очевидно, дает SAP определенное преимущество перед многими конкурентами, так как позволяет продемонстрировать реальную применимость и эффективность решений Big Data.

Последнее особенно важно, поскольку сегодня концепция Big Data находится в самом начале своего пути и ни в коем случае не является панацеей в каком бы то ни было смысле. Существует в том числе и определенная критика соответствующих подходов, основанная, прежде всего, на том, что «слепая» обработка всего массива данных может скрывать от аналитика их природу и специфические особенности, которые, возможно, учитывались бы при осознанном построении выборок. Тем не менее, можно утверждать, что даже в нынешнем состоянии Big Data и смежные технологии позволяют решать задачи, которые еще вчера казались нерешаемыми.

Big Data: через понимание к применению

Павел Волощенко, старший консультант-эксперт SAP Украина: «На самом деле заказчику не важно, что лежит в основе его решения — главное, чтобы оно работало быстро и эффективно. Именно поэтому наши решения сегодня основываются на HANA»