Чем дышит Internet

18 декабрь, 2002 - 00:00Александр Москалюк Свой вклад в анализ интересов Internet-сообщества регулярно вносят поисковики. Кому, как не им, знать о том, что привлекает наибольшее внимание пользователей, которые в поисках нужной информации регулярно обращаются именно к таким ресурсам? О рейтинге наиболее популярных запрашиваемых терминов мы писали в начале этого года. Поисковые сайты могут предоставить весьма реалистичную картину интересов пользователей, однако для отслеживания тенденций составителям подобных рейтингов приходится отсеивать разнообразный "мусор".

Скажем, в англоязычной Сети интерес к сайтам для взрослых, пиринговым системам и поп-звездам женского пола редко угасает, и на фоне подобной статистики делать выводы о тенденциях было бы трудно. Два, пожалуй, наиболее удачных проекта по измерению "гласа народа" принадлежат компаниям Yahoo! и Google.


Yahoo! Buzz Index

Yahoo! Buzz Index ежедневно анализирует статистику запросов, поступающих на один из популярнейших поисковых сайтов Yahoo! В рейтинг попадают события, компании и люди, которыми в определенный день заинтересовалось как минимум 0,001% посетителей портала. За каждую тысячную долю процента пользователей кандидату в лидеры начисляется 1 балл. Соответственно, Buzz Score 500 означает интерес к объекту поиска 0,5% всех посетителей Yahoo! за этот день.

Персональный Buzz Score для каждого объекта и термина дает возможность отслеживания тенденций популярности. Если термин начинает неожиданно набирать баллы, то этому скорее всего поспособствовало какое-то событие или информационный повод. Для музыкантов таким поводом обычно является выход нового альбома, для спортивных событий -- их старт, для политиков -- некий скандал с их участием. Yahoo! также генерирует географические отчеты, основывая результаты на IP-адресах пользователей. Они могут многое рассказать об интересах публики в определенном регионе.


Google ZeitGeist

Аналогичный подход к делу "измерения" интересов широкой публики сделан и специалистами поисковика Google, которые еженедельно публикуют отчеты о тенденциях в Internet на странице Google ZeitGeist. Здесь само понятие ZeitGeist, взятое из немецкого языка, объясняется как "интеллектуальный, моральный и культурный климат".

В конце каждой недели специалисты Google определяют десятку победителей и десятку теряющих популярность терминов и объектов. Оба рейтинга составляются на основе процентных отношений, т. е. для того чтобы стать лидером в десятке победителей, количество поисковых запросов по сравнению с предыдущей неделей должно резко возрасти. Аналогично для попадания в десятку "проигравших" число запросов с упоминанием того или иного слова должно существенно уменьшиться.

Подобная методика практически исключает попадание в еженедельный ZeitGeist запросов, интерес к которым стабильно высок. Обратившись к сводному четырехнедельному отчету за ноябрь 2002 г., можно увидеть, что слово "снайпер" (sniper) в ноябре возглавило десятку "проигравших", в то время как еще в октябре его можно было увидеть в списке наиболее популярных запросов. Следящим за новостями нетрудно будет указать на причины такого резкого роста и последующего падения интереса к данному термину -- снайпер, наводивший страх на столицу США, был пойман правоохранительными органами в последнюю неделю октября.


Blogdex

В июле прошлого года лаборатория медиа-технологий Массачусетского института технологий в лице аспиранта докторантуры Кэмерона Марлоу (Cameron Marlow) предоставила Internet-пользователям возможность отследить наиболее интересные события с помощью поисковика Blogdex. За основу индекса поискового средства были взяты Web-дневники и многочисленные авторские журналы, постепенно привлекающие все большее число пользователей WWW.

Blogdex ежедневно индексирует обширный список Web-дневников, предпочитая сайты, где авторы и участники дискуссий обсуждают новости сегодняшнего дня, а не свою личную жизнь. Такие сайты зачастую содержат ссылки на статьи и публикации на других страницах с предложением обсудить содержание материала. Примером ресурса, основным контентом которого являются ссылки на чужие публикации с прилагаемыми механизмами для обсуждения, является технологический проект Slashdot.org.

Именно ссылки на Web-дневниках и интересуют Blogdex. Рейтинг, ежедневно обновляемый на главной странице поисковика, отображает интерес авторов Web-дневников к определенным материалам и публикациям. На одной и той же странице новости о войне в Ираке конкурируют с сообщениями о новых карманных ПК и пространными социально-общественными статьями из популярных изданий.


DayPop

В начале сентября 2001 г. лос-анджелесский программист Дэниел Чан (Daniel Chan) также заинтересовался проблемами индексирования актуальных событий и запустил первую версию поисковика DayPop. На сегодняшний день поисковик регулярно индексирует 7500 ежедневно обновляемых сайтов. Основные кандидаты на попадание в его базу данных -- это информационные ресурсы и Web-дневники, содержащие внешние ссылки.

DayPop изначально позиционировался как поисковик, однако наличие двух рейтингов -- наиболее популярных сайтов и самых интригующих новостей весьма сближает DayPop и описанный выше проект Blogdex. Трудно сказать, что между сайтами существует жесткая конкуренция, так как оба проекта являются некоммерческими. Скорее эти индексаторы удачно дополняют друг друга, отражая общую картину пользовательских интересов за день.

Создание неискаженного индекса популярности на самом деле таит в себе больше проблем, чем кажется на первый взгляд. В своем Web-дневнике Дэниел Чан указывает на наличие на других ресурсах автоматически генерируемых заголовков. Примером такого сайта может служить онлайн-служба Daily Rotation, которая предлагает своим посетителям десятки автоматических лент заголовков с других сайтов. Никакого вмешательства в отсеивание "неинтересных" заголовков от "интересных" не происходит, а присутствие на сайтах авторов Web-дневников RSS-лент может значительно исказить индекс.

Анализ списка популярных новостей DayPop также наводит на интересные мысли. Пользователи Internet, несмотря на обилие информационных лент и новостийных проектов, предпочитают все-таки ссылаться на известные офлайновые брэнды -- в рейтинге новостей DayPop чаще всего лидируют страницы на серверах CNN.com, MSNBC.com, BBC.co.uk и значительно реже -- информационные порталы, существующие только в Сети.


PopDex

Молодой проект PopDex, появившийся на свет в декабре 2002 г., на момент запуска индексировал более 11 тыс. информационных сайтов и Web-дневников. Его создатель Шанти Брэфорд (Shanti Braford), только недавно вышедший из стен университета, решил использовать в работе опыт Blogdex и DayPop, в то же время пытаясь предложить свое решение оптимального индекса интересных событий в Internet.

Брэфорд решил перенести идею алгоритма Google PageRank на Web-дневники. Идея PopDex заключается не просто в арифметическом подсчете количества ссылок на ту или иную страницу в Internet, а в присвоении каждому ресурсу определенного "веса", который и установит авторитетность ссылки. В свое время известный поисковик Google таким образом радикально повлиял на проблему подтасовки поисковых результатов активными Web-мастерами. Blogdex и DayPop пока не страдают от спама, однако изредка рекламные ссылки в рейтингах все же появляются, особенно в случаях закрытия Web-дневников и размещения рекламного текста на индексируемой странице.

На сегодняшний день Popdex предлагает только список самых интересных событий Internet, в ближайшее время автор обещает добавить возможность поиска и RSS-ленту наиболее популярных ссылок.