«Многорогая» Cloudera

19 апрель, 2016 - 10:45Александр Черников

Не так уж много IT-компаний в последнее время привлекают к себе столько внимания, как Cloudera. Она хорошо позиционирована в сегменте Big Data и, как считают в отрасли, вполне способна получить на бирже при первичном размещении акций существенно больше, чем «unicorns», компании-«единороги», для которых миллиард долларов на IPO является показателем и синонимом успеха. Но Cloudera пока все же предпочитает подождать.

«Многорогая» Cloudera

Историческая справка

Cloudera – глобальная компания-разработчик ПО, создающая системы на основе Apache Hadoop, а также предоставляющая клиентам поддержку и услуги по обучению. Cloudera распространяет Open Source дистрибутив Apache Hadoop – CDH (Cloudera Distribution Including Apache Hadoop), предназначенный для разворачивания Big Data решений класса предприятия.

Более 50% продуктов компании бесплатно передаются в различные Apache проекты – Apache Hive, Apache Avro, Apache HBase, – которые, в свою очередь, участвуют в формировании платформы Hadoop. Cloudera также является спонсором Apache Software Foundation.

Очень кратко об истории компании. Она была основана в 2008 г. тремя инженерами из Google, Yahoo и Facebook (Christophe Bisciglia, Amr Awadallah и Jeff Hammerbacher соответственно), которые приняли тогда предложение одного из бывших старших руководителей Oracle Майка Олсона (Mike Olson). Он известен как CEO структуры Sleepycat Software и создатель встраиваемого движка (open-source embedded database engine) Berkeley DB, – приобретенной Oracle в 2006 г. Эта четверка и возглавила тогда исполнительную группу Cloudera.

Спустя год к ним присоединился Дуг Каттинг (Doug Cutting), бывший руководитель Apache Software Foundation, – который, собственно, и писал первый код Hadoop в 2004 г.

После нескольких инвестиционных раундов, в марте 2014 г. Cloudera объявила о привлечении $900 млн. В основном эти деньги дал фонд Intel Capital, а разработки Cloudera показались Intel настолько интересными, что она закрыла собственный проект Hadoop, и 70 ее инженеров переключились исключительно на Cloudera.

К этому времени компания уже работала с инвестиционным фондом Dell, а Oracle объявила ее своим эксклюзивным партнером. Их примеру вскоре последовали SAS и Accenture, а приобретение Gazzang обеспечило Cloudera «самый безопасный дистрибутив Hadoop на рынке». Так что коллектив за первую пятилетку существования компании подобрался очень даже не слабый.

В 2014-15 гг. были заключены контракты на поставку дистрибутивов Hadoop в MasterCard, Deloitte, Capgemini, SAP, Teradata и Microsoft. Число сотрудников Cloudera достигло тысячи. Следующий год был связан с глобальным ростом компании. Ее офисы появились в 12 странах мира, а партнеров насчитывалось уже более 2,1 тыс.

Сегодня у Cloudera, по оценке аналитиков, самая большая партнерская экосистема Hadoop Distributions. Несмотря на такой рост и успешное продвижение своих продуктов и сервисов, Cloudera все же предпочитает пока оставаться частной компанией. Для этого есть достаточно серьезные основания.

Cloudera IPO

«Многорогая» Cloudera

Слухи о предстоящем IPO компании циркулируют в отрасли еще с середины 2015 г. Том Рейли (Tom Reilly), нынешний CEO Cloudera, был очень осторожен, отвечая на вопросы Forbes в недавнем интервью

Он сказал, что сегодня у компании достаточно денег, чтобы можно было осуществить IPO. Вместе с тем последний опыт Hortonworks пока вызывает некоторые опасения для выхода на NASDAQ.

«Многорогая» Cloudera

История Hortonworks – тема отдельного разговора. Однако настораживает, что уже через год после IPO стоимость ее акций упала чуть ли не втрое

Рейли не хотел бы разделить судьбу Hortonworks. Однако он твердо сказал, что компания продаваться не будет, и он хотел бы видеть Cloudera своим последним местом работы перед тем, как уйти на покой.

Направление Big Data и связанные с ним информационные технологии в течение последних нескольких лет становятся все более зрелыми и все более привлекательными для многих крупных компаний, прежде всего финансовых. Что же предлагает сегодня Cloudera своим клиентам?

Продукты и сервисы Cloudera

Компания предлагает ПО, услуги и поддержку в трех различных связках.

Cloudera Enterprise включает CDH и годовую лицензионную подписку в трех вариантах – Basic, Flex и Data Hub. CDH содержит главные, базовые элементы Hadoop, которые обеспечивают надежную и масштабируемую распределенную обработку больших массивов информации (в основном MapReduce и HDFS) и ряд вспомогательных компонентов, в том числе для интеграции с другим ПО.

«Многорогая» Cloudera

Базовая корпоративная IT-инфраструктура на основе Cloudera Enterprise Data Hub

Cloudera Express включает CDH и управляющее ПО Cloudera Manager, которое дополняет CDH средствами апгрейда, резервного/ аварийного восстановления, LDAP и SNMP. CDH может быть загружен с веб-сайта Cloudera бесплатно, но без технической поддержки и Cloudera Manager.

Cloudera Navigator – полное решение для управления данными в Hadoop, с возможностями «открытия данных» (Data Discovery), постоянной оптимизации, аудита, управления метаданными и соответствующими политиками.

Cloudera University включает тренинговые программы для будущих пользователей продуктов компании.

Cloudera Professional Services – профессиональные средства, предназначенные, – как пишет компания, – «для обеспечения потребительского успеха» (customer success).

Cloudera Support – классическая поддержка 24x7.

Как видно, Cloudera, не особенно разбрасываясь, смогла достаточно точно определить количество и ассортимент корпоративного Hadoop-ПО, которые будут в наибольшей степени востребованы предприятиями уже в ближайшем будущем.

А что по этому поводу думает Gartner?

25 февраля Gartner представила свой новый «Magic Quadrant for Data Warehouses and Data Management Solutions for Analytics» (ID:G00275472).

«Многорогая» Cloudera

Cloudera пока довольствуется положением «Провидца», технологии и бизнес-характеристики которого достаточно хорошо сбалансированы по обеим осям квадранта. Но надо сказать, что для команды, которой еще не исполнилось десять лет, это очень неплохое положение, – если сравнивать ее с громкими именами, которые составляют сектор «Лидеров»

Gartner формулирует требования данного сегмента IT-рынка следующим образом.

Организации сейчас требуют решений для управления данными для аналитики (data management solutions for analytics), которые были бы способны к обработке внутренних и внешних данных разнообразных типов, в разнообразных форматах, в сочетании с данными из традиционных внутренних источников, – а также средств управления всей инфраструктурой. Данные должны включать и новые форматы, – например, потоки, поступающие от датчиков IoT. Это предъявляет новые, повышенные требования к ПО на данном рынке.

Для последнего составленного Gartner квадранта понятие хранилища данных (или решения для управления данными) определяется как «полная система ПО, которая поддерживает данные и управляет ими в одной или нескольких системах управления файлами» (обычно это – одна или несколько баз данных).

Они должны быть расширяемыми, чтобы поддерживать новые структуры и типы данных, – такие как XML, текст, документы и геопространственные данные, а также обеспечивать доступ к внешним файловым системам и дополнительно содержать целый ряд сопутствующих функций.

Data Management Solutions for Analytics (DMSA) – не определенный класс или тип информационных систем. В зависимости от назначения они могут состоять из многих различных технологий в различных комбинациях.

Сегодня на рынке предлагается, пожалуй, многовато различных конфигураций и моделей поставки, – автономное ПО DBMS, сертифицированные системы специального назначения, облачные решения (как публичные, так и частные), а также средства, характерные скорее для традиционных хранилищ данных. Как в этом плане выглядят предложения Cloudera?

Плюсы и минусы Cloudera

Cloudera дает пользователям платформу хранения и обработки данных (data storage and processing platform). Она основана на экосистеме Apache Hadoop, содержит собственную проприетарную части разработки от Cloudera, и инструменты управления данными для конструирования, развертывания системы и дальнейшей ее эксплуатации.

Cloudera дифференцирует себя от других продавцов распределения Hadoop. Она инвестирует в определенные направления, – например, дальнейшее совершенствование Cloudera Navigator (который обеспечивает управление метаданными), – и в то же время не отстает от последних тенденций в области проектирования open source Hadoop.

Cloudera достаточно успешно позиционирует свое решение как дополнение к традиционному хранилищу данных, и поддерживает партнерские отношения с разработчиками СУБД, особенно с Oracle.

Cloudera продолжает расширяться географически. Она имеет растущее число европейских, азиатских и латиноамериканских клиентов и развитую сеть партнеров. Однако референтный опрос показывает, что доступность поддержки и/или профессиональных сервисных ресурсов становится в последнее время несколько затрудненной для клиентов. Cloudera признала это определенной проблемой и работает над ее устранением, – например, уже с 2015 г. расширяя свою команду поддержки в Европе.

Модульность Hadoop позволяет новым компонентам быть легко добавленными в общую инфраструктуру, чтобы соответствовать все новым требованиям предприятий и вариантам использования решения.

Такой подход позволяет Cloudera расширять свои системы, не вызывая разрушения уже работающих структур, – однако приводит к тому, что клиенты все же предпочитают изучать полный спектр предложений данного класса в своем сегменте.

Вместо заключения

При знакомстве с Cloudera вызывают уважение ее (пока недолгая) история и подходы к построению Hadoop-решений. Перспективы компании выглядят очень многообещающими. Но вполне можно разделить и точку зрения Тома Рейли о том, что «спешить не надо».

2016-17 гг. не будут простыми для компании. Однако думается, что за это время IPO все же состоится. А решения Cloudera тем временем продолжат совершенствоваться.