Индексатор поиска Twitter обрабатывает более тысячи твитов в секунду

13 октябрь, 2010 - 11:27Александр Москалюк

Twitter переписал поисковый движок, опубликовав интересные цифры касательно требований к системе. В часы пик на сервис поступает более тысячи новых записей в секунду, которые должны быть доступны в поиске максимум через 10 секунд. Сам поиск получает нагрузку в 12,000 запросов в секунду, итого индексатор должен обработать входящий твит меньше чем за секунду.

За основу был взят Lucene, некоторые внутренности которого пришлось переписать ввиду требований real-time индексации.