Описание алгоритмов и процессов, применяемых при создании realtime-поисковика от создателей одного из таких поисковиков – OneRiot.
Вкратце: есть необходимость создания индексов, которые обновляются постоянно, а не периодически. Параллельно надо жонглировать источниками, стараясь охватить не только популярные ресурсы (Digg, Twitter), но и интересные ресурсы от конкретных пользователей, чтобы не стать простым зеркалом Digg и Twitter. Кроме того, есть проблема спама, так как индексируемые “социальные масс-медиа” зачастую становятся площадкой для раскрутки спамерских проектов.