Андрей Пивоваров, Oracle: «Технологии Big Data вышли за пределы крупных интернет-проектов»

На протяжении достаточно долгого периода времени с хранением данных справлялись реляционные базы данных. О том, какие технологии сегодня есть для эффективной работы с «большими данными» и как Apache Hadoop позволяет трансформировать традиционную модель обработки информации, мы побеседовали с руководителем группы перспективных технологий Oracle, СНГ, Андреем Пивоваровым во время интервью, состоявшегося в рамках конференции Oracle Day 2013. Наш разговор мы начали с вопроса о том, какие основные тенденции наблюдаются в этом сегменте в последние несколько лет?

Андрей Пивоваров, Oracle: «Технологии Big Data вышли за пределы крупных интернет-проектов»

Одна из главных тенденций, которая прослеживается в последние 2—2,5 года, это та, которую сейчас называют «большими данными». Дело в том, что произошло дозревание технологий, которые до этого использовались только в интернет-проектах, таких как Google и Facebook. Сегодня они вышли за пределы подобных проектов и стали применяться во многих организациях и компаниях, занимающихся разнообразным бизнесом. Благодаря этим технологиям стало возможным обрабатывать намного большие объемы данных, чем раньше, и, что немаловажно, намного дешевле. Появилась возможность проводить анализ информации, содержащейся в социальных сетях, обрабатывать неструктурированные данные. Эти данные существовали и раньше, но состояние технологий того времени не позволяло достаточно эффективно их обрабатывать с точки зрения производительности и цены.
Сейчас наблюдаются также тенденция выявления новых источников данных, рост объемов данных, накапливаемых компаниями и, соответственно, начало использования технологий, недоступных по тем или иным причинам ранее.

Под новыми технологиями вы подразумеваете как программные, так и аппаратные?

Да, конечно. К примеру, наиболее часто упоминаемая в этом контексте технология – это Apache Hadoop, изначально разработанная сообществом Open Source. Она подразумевает новые принципы построения и аппаратного обеспечения, и программного. В состав Hadoop входит, в частности, распределенная файловая система, позволяющая хранить файлы в кластерах, состоящих из десятков тысяч узлов. Это, в свою очередь, требует новых подходов к построению кластеров.
Конечно, технологии параллельного программирования для крупномасштабных кластеров существовали и раньше. Однако особенность Hadoop в том, что это – некий стандартизированный подход, реализованный фреймворк, с практически не ограниченной масштабируемостью. Фреймворк программирования MapReduce, написанный на Java, позволяет программистам, если они придерживаются требуемых правил, написать свою программу таким образом, что она будет распараллеливаться практически на любое количество узлов. Причем, код не нужно будет переписывать, не зависимо от того, сколько узлов в кластере – 3 или 30000.

Наблюдаются ли изменения в концептуальных и технологических подходах к обработке и хранению данных?

Безусловно. Вот один из примеров. Если ранее перед организацией или компанией стояла задача не просто хранения, а обработки данных, то традиционно для таких задач применялись реляционные БД. И, собственно, новизна и заключается в том, что для ряда задач идет отход от традиционной обработки с помощью реляционных БД и переход на такие технологии, как Hadoop. Однако вместе с тем нужно понимать, что Hadoop гораздо беднее по своим функциональным возможностям, чем БД Oracle, которая развивается уже 35 лет. С помощью Hadoop можно выполнять довольно дешево некоторые ресурсоемкие операции, например, просмотреть 50 ПБ данных и найти записи, содержащие некоторое ключевое слово.

К каким изменениям в аппаратных и программных средствах Oracle привели новые тенденции и подходы, в частности, «большие данные»?

У Oracle еще с 2008 г. существует линейка так называемых оптимизированных интегрированных программно-аппаратных комплексов Oracle Engineered Systems. Первым из них был Oracle Exadata, затем по таким же принципам были построены остальные комплексы, в том числе Oracle Big Data Appliance как решение для работы с «большими данными». В чем же здесь принципиальное изменение подхода?
В типичном случае заказчик проводит анализ каких-то компонентов решений, которые есть на рынке. Затем происходит их интеграция и настройка. Однако если говорить о Hadoop-кластере на 1000 узлов, то даже сама задача построения такого кластера очень сложна. Кроме этого, неправильная настройка или ошибки в конфигурации могут привести к значительному снижению производительности вычислительной системы.

Что делает Oracle в своих программно-аппаратных комплексах? Компания заранее создает оптимизированную систему, заранее выбирает нужные для этого аппаратные компоненты, собирает их, конфигурирует, в том числе ОС, машину Java и т. п., и проводит огромную предварительную работу с тем, чтобы комплекс, который купил заказчик, был, фактически, готов к использованию.

А комплексы, о которых мы говорим, они уникальны на рынке?

Можно сказать, что Oracle является первой компанией, которая вывела такие комплексы на рынок. Кроме того, на текущий момент некоторые системы действительно уникальны, поскольку ничего подобного нельзя создать самостоятельно. Например, Exadata нельзя собрать из имеющихся на рынке продуктов. Комплекс содержит некоторые компоненты, которые не поставляются отдельно, к примеру, Exadata Storage Software. Некоторые производители пытаются делать подобные оптимизированные системы, но Oracle, как разработчик и аппаратной, и программной частей обеспечивает наиболее высокую степень интеграции и оптимизации.

Какие средства в аппаратной и программной областях предлагает Oracle для решения задач BI на фоне явления «больших данных»?

Прежде всего, давайте уточним, что такое BI. Современные BI-системы – это некий интерфейс между пользователем и, скажем, СУБД, который преобразует интуитивно понятные запросы пользователя в сложные запросы к БД, а результаты запросов преобразуются в удобное для восприятия представление. Появление технологий Big Data ничего нового не привносит, за исключением объема данных. BI-решение от Oracle понимает, в частности, и Hadoop. Так что пользователь может сделать запрос к данным, которые лежат в Hadoop. Более того, в нашей BI-системе можно создать запрос, возвращающий результат одновременно и из данных, которые «лежат» в БД Oracle, и из Hadoop.

Зачем это может быть нужно? Например, как известно, данные имеют определенный жизненный цикл. Поэтому, актуальные («горячие») данные могут размещаться в реляционной БД, а более «холодные», обычно старые и реже используемые, – в Hadoop. BI-система может создать два запроса, собрать результирующую выборку и представить ее на одном графике.

Другой подход к работе с большими массивами данных – это использование технологий in-memory, при которых для ускорения обработки данные загружаются в ОЗУ большого объема. Один из программно-аппаратных комплексов, о которых шла речь ранее, а именно Oracle Exalytics, по сути, представляет собой мощный сервер, в котором содержится до 4 ТБ ОЗУ и реляционная БД Oracle TimesTen, хранящая и обрабатывающая данные в оперативной памяти. Она и является неким промежуточным слоем для Oracle BI. Здесь могут кэшироваться промежуточные результаты запросов, содержаться предварительно загруженные агрегаты или даже целые витрины данных.

Интервью будет выглядеть несовременным, если не будут затронуты мобильные технологии. Насколько они сегодня важны для бизнеса, и что делает компания в этом направлении?

Да, мобильные технологии уже проникли повсюду, и одним из первых вопросов заказчиков, которые к нам обращаются, это что есть у компании в этой области. Безусловно, у Oracle есть мобильные технологии, и, к слову, применительно к BI, компания предлагает продукт Oracle BI Mobile, который позволяет визуализировать результаты работы Oracle BI на планшетах и смартфонах. Кроме этого, компания разрабатывает мобильные версии своих бизнес-приложений, которых достаточно много. Далее, мы поставляем на рынок и средства для создания мобильных приложений. К примеру, Oracle ADF Mobile – продукт, который позволяет компаниям самим разрабатывать мобильные приложения. Так что действительно, мобильные технологии сегодня – очень популярная тема, ведь в компаниях и организациях становится все больше сотрудников, которые работают вне офисов.

Что вы можете добавить в заключение?

Хотелось бы сделать еще один комментарий относительно технологии «больших данных». Этот термин является как бы зонтично-маркетинговым, и разные вендоры понимают под ним разные вещи. И иногда заказчику трудно сориентироваться во множестве всех этих определений, что в итоге приводит к некоторому недоверию с его стороны. Важно понимать, что Big Data – это обобщенное название, которое внутри себя содержит большое количество разных технологий. Вот мы говорили про Hadoop, но это только одна из технологий. У Oracle существуют и другие технологии, такие как, например, Oracle Event Processing – обработка событий в режиме реального времени. Или, допустим, такой продукт, как Oracle NoSQL Database, который концептуально похож на Hadoop, к примеру, так же работает на больших кластерах, но решает другие задачи.

При этом важно отметить, что многие возможные приложения, использующие технологии «больших данных», еще только создаются, но в ближайшие годы мы станем свидетелями появления принципиально новых подходов, а как пользователи и клиенты – новых или более качественных продуктов и услуг на их основе.

Стратегія охолодження ЦОД для епохи AI