Yahoo! поделилась Большими Данными с разработчиками веб-алгоритмов

15 января 2016 г., 14:41

За последние недели компания Yahoo! уже несколько раз радовала разработчиков новыми инициативами. Она открыла исходные коды алгоритмов вычислений с потоковой информацией и программы-робота, ориентированной на структурированные данные веб-сайтов. Её новый масштабный релиз несомненно будет с энтузиазмом воспринят в академических кругах, теми кто изучает, что и как читают люди, в целях совершенствования своих алгоритмов.

Данные, опубликованные компанией в этот раз, описывают использование новостей некоторых её веб-сервисов, включая Yahoo News и Yahoo Finance. Ранее, в рамках программы Webscope от Yahoo Labs было выпущено уже 56 фрагментов данных, объёмом до терабайта, охватывающих рекламу, изображения, социальную и рейтинговую информацию.

Новый релиз ставит особняком его размер — 13,5 ТБ в несжатом виде — вмещающий сведения о 110 миллиардах событий: действиях 20 млн человек с февраля по май 2015 г., о том, какие устройства они использовали, сколько внимания уделяли чтению статей и какие темы предпочитали. Все персональные данные (местоположение, пол и возраст) надёжно анонимизированы.

Фактически, Yahoo! могла бы выложить и больше данных. Суджу Раджан (Suju Rajan), возглавляющая в Yahoo Labs исследования проблем персонализации, заявила, что регулярно работает с массивами петабайтного уровня. Но наборами данных такого размера было бы слишком неудобно пользоваться интерактивно. Освоение для тренировки своих алгоритмов даже уже выпущенных 13 ТБ для многих может стать серьёзной проблемой.

Стратегія охолодження ЦОД для епохи AI