Эрон Келли, Microsoft: «Мы хотим обеспечить инструментами Big Data миллиард пользователей»

18 декабрь, 2013 - 15:04Игорь Дериев

Эксперты единогласно относят Big Data к тенденциям, которые будут определять ближайшее будущее ИТ. Казалось бы, качественно новый уровень анализа данных сулит огромные преимущества. На деле же многие профессионалы все еще не до конца разобрались в стоящих за Big Data концепциях и испытывают определенный скепсис. Помочь читателям «Компьютерного Обозрения» прояснить некоторые вопросы в этой специфической области мы попросили Эрона Келли (Eron Kelly), генерального менеджера Microsoft по маркетингу платформы данных.

Эрон, какова стратегия Microsoft в области обработки и анализа данных, включая Big Data?

Microsoft строит всеобъемлющую платформу данных, которая предусматривает цельное видение Big Data. Наша стратегия заключается в том, чтобы обеспечить эффективными средствами работы с данными миллиард пользователей. Это, естественно, подразумевает как наличие соответствующих инструментов, так и простоту их использования. Представьте, что раньше, чтобы построить систему бизнес-аналитики, нужно было развернуть SQL Server, SharePoint, дополнительные сервисы, и выполнить множество других технических задач. Или тот же Hadoop — для него была нужна целая инфраструктура. Сейчас же достаточно развернуть готовый HDInsight на Windows Azure. Более того, мы предлагаем в Office 365 и готовые высокоуровневые аналитические инструменты вроде Power BI и, в частности, системы Power BI Q&A, которая позволяет исследовать данные, формулируя запросы на естественном языке. Мы считаем, что именно облачные технологии открывают для Big Data новые возможности. В том числе и для нас, как разработчиков: в SQL Azure, к примеру, мы можем добавлять новые функции буквально ежемесячно.

Но тем не менее, эти решения остаются достаточно сложными для эффективного использования. Кого вы видите их главным заказчиком?

В том-то и ценность технологий Big Data, что они могут оказаться полезными любой компании из любой индустрии. Единственное что требуется — желание добывать новые знания и использовать их для достижения новых успехов. Microsoft и другие компании, работающие в этой области, могут привести множество примеров из самых различных областей, где, к примеру, компании годами накапливали бизнес-данные, но не знали, как с ними быть. Сегодня же они делают поразительные открытия. Или, скажем, любая компания не прочь узнать, как ее воспринимают клиенты, насколько они лояльны и пр. Это можно сделать путем анализа данных из социальных сетей, который стал возможен благодаря подходам Big Data. И снова: облачные решения делают Big Data доступными для компаний любых размеров.

Но, наверное, речь идет преимущественно все-таки о сравнительно крупных компаниях? Но ведь они пока что с большой опаской относятся к публичным «облакам»...

Действительно, крупные компании вынуждены заботиться о безопасности, конфиденциальности данных, контроле за всеми процессами и пр. Это понятно и правильно. Однако все больше их начинает по крайней мере тестировать наши облачные сервисы, скажем, Office 365 — пусть для какой-то части сотрудников и для отдельных операций, но лиха беда начало. К примеру, недавно в Румынии мы заключили контракт на Office 365 с одной очень крупной компанией. Это было непросто! Чуть-ли не полсотни их специалистов — юристов, инженеров, ответственных за безопасность и пр. — изучали буквально каждую букву в наших договорах, SLA и других документах. И тем не менее, они решились. А дальше за лидером потянутся и другие компании.

Но есть и другие препятствия: когда мы говорим о Big Data, мы имеем в виду действительно огромные объемы, десятки и сотни терабайтов. Только передать их в облако — уже задача нетривиальная...

Конечно, нам никуда не деться от физических ограничений и мы прекрасно понимаем, что огромные объемы данных, накопленные в локальных ЦОД, в этих же ЦОД и останутся. Но при этом в наших облачных сервисах могут развертываться новые проекты или обрабатываться выборки данных и т.д. То есть мы распространяем нашу платформу Big Data как на Windows Azure, так и на локальные ЦОД.

Означает ли это, что мы увидим вариант HDInsight для развертывания on-premise?

Ну, не буквально HDInsight. Это решение мы создавали в тесном сотрудничестве с компанией Hortonworks, в том числе оптимизировали их дистрибутив Hadoop для эффективной работы на платформе Windows. Так что мы его всячески приветствуем on-premise и будем помогать совершенствовать параллельно с HDInsight.

Эрон Келли, Microsoft: «Мы хотим обеспечить инструментами Big Data миллиард пользователей»

Как известно, Big Data представляет собой целый набор разнородных подходов и технологий. Что еще кроме HDInsight предлагает Microsoft, к примеру, по части передовых архитектур СУБД?

Да, действительно, мы вовсе не ограничиваемся поддержкой Hadoop. На самом деле у нас много и других технологий, непосредственно относящихся к Big Data. К примеру, движок in-memory у нас появился еще в SQL Server 2008, а затем даже в Excel 2010. В данном случае мы исповедуем собственный подход. Дело в том, что тогда как многие наши конкуренты предполагают загружать в оперативную память всю базу данных целиком, мы это делаем только для тех таблиц и индексов, которые наиболее вероятно могут создать бутылочное горлышко. Преимущество в том, что таким образом нового уровня производительности можно достичь на прежнем оборудовании. А в SQL Server 2014 мы распространим in-memory технологию и на OLTP. Есть у нас и NoSQL решения, примером может служить Azure Table Storage — нереляционная СУБД.

Получается, что основу вашей платформы Big Data формируют HDInsight и SQL Server. Не происходит ли между этими продуктами внутренней конкуренции?

Нет, не происходит. Они развиваются независимо и служат разным целям. Водораздел проходит по типу данных — структурированные или нет. В рамках Big Data нужно обрабатывать и те, и другие, и очень часто в одних и тех же проектах. К примеру, Hadoop используется такими крупными компаниями как Facebook, Yаhoo! и пр. Однако при этом они строят и традиционные хранилища данных. Таким образом, к примеру, 500 ПБ «сырых» данных у Yаhoo! превращаются в 24 ТБ структурированных, на основе которых уже проводится OLAP-анализ. Таким образом, наша стратегия состоит в том, чтобы действительно развивать два эти основные направления, а уже над ними надстраивать универсальные средства доступа и аналитики, так, чтобы конечные пользователи даже не задумывались, что находится в самом низу.

На различных конференциях доводится слышать недоуменные вопросы участников о пользе и необходимости Big Data. Получается, что между разработчиками и заказчиками имеется определенный ментальный разрыв. Это явление украинское или общемировое?

Абсолютно повсеместное. Действительно, пока еще существует определенное недопонимание сути Big Data. Это все-таки весьма специфическая и новая область и мы, как разработчики, просто не можем предложить готовое бизнес-решение — только платформу и инструменты. Как раз заказчики должны нам сказать, чего бы они хотели добиться. Поэтому все наши конференции, посвященные Big Data, носят ярко выраженный просветительский характер. Выдающиеся проекты в области Big Data существуют практически во всех индустриях, но каждый из них начинался с четкого понимания заказчика, что и для чего ему нужно исследовать. Хотя иногда можно, конечно, придумать какие-то универсальные решения, скажем, для анализа данных из социальных сетей. Это, кстати, популярная сегодня область: уже имеются способы автоматической оценки эмоциональной окраски твитов и другие интересные наработки.

Но в примерах вроде последнего очень важно понимать степень достоверности результата. Ведь не всегда существует объективный критерий?

Да, такая проблема имеет место. Но она относится не исключительно к Big Data, а к любым аналитическим, статистическим задачам, где решение получается косвенным путем. К примеру, муниципалитет Бостона выпустил специальное приложение для автомобилистов, которое анализировало встряску iPhone и таким образом обнаруживало повреждения дорожного покрытия. Откуда поступало больше сигналов, там и выполняли ремонт. Что же выяснилось через некоторое время? Дороги починили не там, где они были действительно самыми плохими, а — в зажиточных районах, где iPhone наиболее распространен.

Не получится ли так, что сделав BI, Big Data и другие подобные технологии массово доступными даже пользователям без специальной подготовки, мы не только принизим роль аналитиков, но и все чаще будем сталкиваться с проектами вроде этого в Бостоне?

В каком-то смысле такая опасность существует, как и всегда, когда за сложный инструмент вместо профессионала берется новичок. Однако, если такое и случится, то очень нескоро. Напротив, Gartner предсказывает, что в ближайшие три года только в США потребуется порядка 2 млн, а во всем мире не менее 4 млн специалистов, для которых даже придумали особое название — data scientist. А знаете кто это? Инженеры и аналитики, работающие именно в области Big Data. Так что мы только в самом начале пути.