Facebook выпускает открытый движок запросов для больших данных

7 ноября 2013 г., 12:05

Компания Facebook выпустила открытый движок SQL-запросов Presto, построенный для работы с хранилищами данных, объем которых измеряется десятками петабайт. Как сообщается в посте инженера Facebook Мартина Траверсо (Martin Traverso), в настоящий момент более тысячи сотрудников крупнейшей соцсети ежедневно используют Presto для обработки более 30 тыс интерактивных запросов к петабайтным массивам данных. В компании это ПО специальным образом масштабировано и работает на 1000-узловом кластере.

Facebook заинтересована в том, чтобы другие компании, работающие с очень большими объемами данных, использовали, и возможно дорабатывали Presto, для чего собственно и был открыт код проекта. Сейчас Presto тестируется несколькими крупными интернет-сервисами, в том числе AirBnB и Dropbox.

Хранилище данных Facebook сегодня превышает 300 петабайт, преимущественно это информация пользователей соцсети, для хранения которой используется кластер Hadoop. Для доступа к этой информации Presto использует стандартные схемы групповой обработки, алгоритмы машинного обучения и элементы интерактивного анализа.

Изначально для анализа данных в Facebook использовались Hadoop MapReduce и Hive, но по мере роста хранилища, эти инструменты стали работать слишком медленно. Группа Facebook Data Infrastructure занялась поиском ПО, которое бы показывало большую скорость при обработке запросов, но не нашла достаточно зрелого решения, пригодного для масштабирования до необходимого уровня. Поэтому пришлось строить собственный движок обработки SQL-запросов с использованием Java.

Presto может выполнять множество SQL-запросов, но, в отличие от Hive, не использует MapReduce (что предусматривает запись результатов на диск), а компилирует части запроса на лету и обрабатывает их в памяти. По оценкам Facebook, Presto значительно эффективнее использует вычислительные мощности и выполняет запросы в десять раз быстрее, чем Hive с MapReduce. Кроме того, поддерживает не только Hadoop, но и другие источники данных, имеет коннекторы для HBase и Scribe.

Ready, set, buy! Посібник для початківців - як придбати Copilot для Microsoft 365