За последние недели компания Yahoo! уже несколько раз радовала разработчиков новыми инициативами. Она открыла исходные коды алгоритмов вычислений с потоковой информацией и программы-робота, ориентированной на структурированные данные веб-сайтов. Её новый масштабный релиз несомненно будет с энтузиазмом воспринят в академических кругах, теми кто изучает, что и как читают люди, в целях совершенствования своих алгоритмов.
Данные, опубликованные компанией в этот раз, описывают использование новостей некоторых её веб-сервисов, включая Yahoo News и Yahoo Finance. Ранее, в рамках программы Webscope от Yahoo Labs было выпущено уже 56 фрагментов данных, объёмом до терабайта, охватывающих рекламу, изображения, социальную и рейтинговую информацию.
Новый релиз ставит особняком его размер — 13,5 ТБ в несжатом виде — вмещающий сведения о 110 миллиардах событий: действиях 20 млн человек с февраля по май 2015 г., о том, какие устройства они использовали, сколько внимания уделяли чтению статей и какие темы предпочитали. Все персональные данные (местоположение, пол и возраст) надёжно анонимизированы.
Фактически, Yahoo! могла бы выложить и больше данных. Суджу Раджан (Suju Rajan), возглавляющая в Yahoo Labs исследования проблем персонализации, заявила, что регулярно работает с массивами петабайтного уровня. Но наборами данных такого размера было бы слишком неудобно пользоваться интерактивно. Освоение для тренировки своих алгоритмов даже уже выпущенных 13 ТБ для многих может стать серьёзной проблемой.