Ежедневно пользователи Facebook выкладывают 500 ТБ контента

23 август, 2012 - 09:55

Ежеденевно пользователи Facebook выкладывают 500 ТБ контента

Насколько велик объем данных Facebook? Согласно оценке отдельных экспертов, сегодня в этой социальной сети хранится и обрабатывается более 2,5 млрд фрагментов контента, более 100 петабайт данных на одном дисковом кластере Hadoop. Ежедневно пользователи добавляют в сеть более 500 ТБ информации: 2,7 млрд отметок «нравится», 300 млн фото. Facebook сканирует примерно 105 ТБ данных каждые полчаса. Такой большой массив данных чрезвычайно важен для бизнеса, если не использовать конкурентные преимущества имеющейся информации, она останется пулом данных, так и не став «большими данными». Обработка информации в течение нескольких минут позволяет Facebook вывести новый продукт, оценить реакцию пользователей и практически в реальном времени внести необходимые правки.

Сейчас Facebook хранит базу данных пользователей в одном ЦОД, остальные используются для дублирования и других данных. Когда БД станет слишком большой для одного ЦОД, придется решать задачу ее расширения. Новый «Project Prism» даст возможность физически разделить единое хранилище, при этом сохранив единую БД, т.е. наборы данных в реальном времени будут разделяться и распределяться по структуре ЦОД компании Facebook (в Калифорнии, Вирджинии, Орегоне, Северной Каролине (США) и Швеции).

В Facebook принято принципиальное решение не делить данные между разными подразделениями. Разработчики также могут исследовать, например, замечания пользователей, переходы по ссылкам или комментарии. Как утверждают в Facebook, несмотря на то, что ее сотрудники могут достаточно глубоко изучать деятельность пользователей в сети, разработан ряд мер против злоупотреблений. Любой доступ к информации документируется, можно легко узнать, какой сотрудник какие действия выполнял