Twitter переписал поисковый движок, опубликовав интересные цифры касательно требований к системе. В часы пик на сервис поступает более тысячи новых записей в секунду, которые должны быть доступны в поиске максимум через 10 секунд. Сам поиск получает нагрузку в 12,000 запросов в секунду, итого индексатор должен обработать входящий твит меньше чем за секунду.
За основу был взят Lucene, некоторые внутренности которого пришлось переписать ввиду требований real-time индексации.