EMC и Greenplum: вместе по дороге на олимп

22 июль, 2010 - 11:03Андрій Кухар

Начало июля ознаменовалось довольно неожиданным событием – на днях ведущий мировой поставщик инфраструктурных решений для хранения информации EMC объявил о приобретении частной компании Greenplum. Это разработчик одноименной аналитической СУБД, известной узкому кругу специалистов (и практически незнакомой большинству читателей). В результате получился весьма необычный, однако вполне органичный союз, который, несомненно, повлияет на расстановку сил не только в области СХД, но и в сфере аналитических решений.

EMC и Greenplum вместе по дороге на олимп
По словам Пата Гелсингера (Pat Gelsinger), президента и операционного директора подразделения EMC Information Infrastructure Products, передовые технологии Greenplum, совмещенные с инфраструктурыми инструментами для создания частных «облаков» от EMC, дадут возможность заказчикам ответить на вызовы, связанные с обработкой больших объемов данных, в будущем

Корпорация ЕМС и ее продукты популярны и востребованы. Зачем же ей понадобилась Greenplum, и что она вообще из себя представляет? Компания, основанная в Сан-Матео (штат Калифорния) в 2003 г., относится к пионерам в области аналитических вычислений, выполняемых на крупных и очень крупных объемах данных. Ее решениями пользуются около 160 организаций – eBay, NASDAQ, Skype, Sears, T-Mobile и др.

Флагманский продукт компании – Greenplum Database – специализированная аналитическая СУБД, в основу которой в свое время был положен код PostgreSQL. Она адаптирована под требования массивно-параллельных вычислений по архитектуре MPP (massively parallel processing) на недорогих серверах общего назначения без разделения ресурсов (согласно методу shared-nothing, узлы одного кластера не делят между собой ни оперативную, ни дисковую память, что весьма хорошо сказывается на масштабируемости). По такой же схеме, кстати, построены СУБД от IBM, Teradata и Vertica, в то время как, например, системы от Oracle, Microsoft или Sybase применяют подход совместного использования дискового пространства (shared-disk).

Учитывая, что в инсталляциях решений Greenplum объемы данных составляют от 10–20 ТБ (в случае компаний небольшого размера) и доходят до 1 ПБ, количество узлов в кластере может исчисляться сотнями и тысячами. При этом вся информация делится на сегменты, для каждого из которых существует свой сервер с выделенным каналом дискового ввода/вывода, а загрузка координируется мастер-серверами.

Вторая технология, на которую делается ставка для достижения производительности, – автоматическая оптимизация запросов под параллельное выполнение и, собственно, сам движок параллельного выполнения запросов. Причем, кроме вездесущего языка запросов SQL, внимание акцентируется на поддержке механизмов распараллеливания MapReduce, весьма популярных при работе с большими и сверхбольшими объемами данных (он реализован Google).

Еще одним козырем Greenplum является гибридное хранение данных. В зависимости от характера предполагаемой нагрузки таблицы могут храниться тремя способами: а) традиционным построчным, оптимизированным для частых и мелких операций чтения/записи; б) построчным, ориентированным на чтение/запись больших массивов данных; в) в виде колонок, что позволяет лучше сжимать информацию и быстрее обрабатывать запросы.

Что же все это инновационное богатство дает ЕМС? Во-первых, в результате сделки создается очень удачный инженерный союз. Для аналитических систем дисковая подсистема, как правило, является самым узким местом с точки зрения производительности. Поэтому взаимная оптимизация аналитической СУБД и СХД, выполняемая в пределах одной R&D-лаборатории, несомненно, обеспечит ощутимое конкурентное преимущество EMC, которая, например, сможет бросить вызов Oracle и ее линейке Exadata.

Во-вторых, наработки Greenplum окажутся полезными для целого ряда продуктов EMC – Atmos (облачные сервисы), Avamar (резервное хранение и восстановление), Captiva, Centera (архивирование), CLARiiON (сетевое хранилище), Documentum (документооборот), Infra (управление ИТ-услугами), VPLEX (виртуальное хранилище) и др.

И наконец, в-третьих, слияние выведет Greenplum и EMC в элиту рынка аналитических систем – на олимп, где уже давно ведется активная борьба IBM, Teradata и Oracle.

Сообщается, что слияние завершится в III квартале 2010 г., после чего на базе Greenplum будет создано новое подразделение, входящее в EMC Information Infrastructure Products. Возглавит его нынешний исполнительный директор Greenplum Билл Кук (Bill Cook).

А теперь давайте немного отойдем от деталей сделки и рассмотрим глубже ситуацию, сложившуюся на мировом рынке систем построения хранилищ данных. По прогнозам аналитиков, в текущем и будущем году мы станем свидетелями консолидации этой индустрии. «Чистые игроки данного сегмента, уверенно стоящие на ногах, будут смыты волной M&A-активности», – отмечает представитель Forrester Research Джеймс Кобиелус (James Kobielus). В качестве главного фактора называют усиливающийся спрос на аппаратно-программные комплексы для хранилищ данных (data warehouse appliance) прежде всего со стороны корпоративного сектора.

Можно говорить о том, что первый шаг в направлении интегрированных систем сделала корпорация Oracle, поглотившая Sun Microsystems. Теперь на него отважилась EMC. Эксперты полагают, что дело за другими грандами ИТ-рынка.

Вероятно, следующей будет HP. Хотя у компании уже есть собственная платформа для построения хранилища данных Neoview (к слову, тоже полученная ею в результате поглощения), похоже, она не пользуется большой популярностью. HP может сподобиться на усиление своего предложения. По словам Джеймса Кобиелуса, другие кандидаты – Cisco и Dell.

В свою очередь поставщики систем управления хранилищами данных охотно идут на сделки. Даже довольно успешные компании со временем продаются. А если учесть, что сейчас для развития бизнеса не самые лучшие условия – так, построение широкой партнерской сети может оказаться не по плечу небольшим поставщикам, то консолидация рынка – вполне вероятный вариант. Среди наиболее привлекательных субъектов для поглощения аналитики называют Netezza, Aster Data Systems и Kickfire.

Впрочем, есть и соображения, исключающие массовую M&A-волну в сфере средств построения хранилищ данных и бизнес-аналитики. Существует, например, мнение, что хотя этот рынок и более чем привлекательный, не все могут или хотят соперничать на нем с Oracle, Microsoft, IBM и SAP, обладающими широкими продуктовыми портфелями. Гораздо проще сфокусироваться на разработке развитых специализированных инструментов, чем технологий общего назначения, и занятии собственной ниши. В конце концов предприятиям нужны не системы, которые применяют компании из списка Global 500, возможности интеграции в технологический стек и пр., а решения их конкретных задач, разве не так?