Gigablast: театр одного актера и восьми серверов

24 июнь, 2004 - 23:00Александр Москалюк
Будучи аспирантом политехнического института штата Нью-Мексико, Уэллс разработал небольшой сайт "Логово музыканта" (Artist's Den), в основу которого легла база данных, где желающие могли найти нужного исполнителя. Интерес к поисковым технологиям привел к тому, что в октябре 1997 г. Уэллс оказался в компании Infoseek, разрабатывавшей тогда поисковый механизм для Всемирной Паутины. Руководил ею легендарный Стив Кирш (Steve Kirsch). О своей работе в этой фирме Уэллс отзывается только положительно, а с миллионером Стивом Киршем поддерживает тесные отношения и сегодня.

В Infoseek Уэллс занимался ключевыми поисковыми технологиями. Старожилы Internet помнят, что во время суровой войны между дюжиной поисковиков Infoseek был известен своей скоростью индексации. Web-мастер мог добавить новый URL в базу данных Infoseek и несколько часов спустя уже наблюдал роботов компании на своем сайте.

В июле 1999 г. фирма Walt Disney завершила приобретение Infoseek, на момент покупки имеющей рыночную капитализацию в 1,62 млрд. долл. Disney расплатилась собственными акциями, что моментально сделало Стива Кирша мультимиллионером. Империя Микки Мауса мыслила масштабно -- за несколько миллиардов долларов одна из крупнейших контент-компаний Америки создаст в Internet портал Go.com, который объединит в себе информацию и службы десятков фирм, принадлежащих корпорации Disney. Аналогичные идеи в то время вынашивал другой супермонстр -- Time Warner, который занимался активным продвижением сайта PathFinder.com, призванного стать самым популярным в Internet. Disney собиралась пустить Go Network в свободное плавание, чтобы увеличить соб-ственную стоимость за счет крупного пакета этого Internet-стартапа, подобного тем, которые в конце XX века стали любимцами Уолл-стрит.

Gigablast театр одного актера и восьми серверов
Мэтт Уэллс
В 2000 г. Уэллс понял, что отдел поисковых технологий в Go Network перестал быть приоритетным. Он уходит из компании и посвящает себя разработке собственного проекта. В том же году на свет появляется яд-ро поисковика Gigablast. С объемом индекса в 300 млн. документов Gigablast не дотягивает до "великих мира сего" (Google на момент написания статьи индексировал 4,3 млрд. документов), однако Уэллс гордится своим проектом. Более того, 18 ноября 2003 г. Уэллс заявил, что собирается купить необходимое аппаратное обеспечение и довести размер индекса до 5 млрд. документов. Когда это говорит ученый, посвятивший много лет проблемам индексации и поиска в Internet, подобное обещание вызывает определенный оптимизм -- на арене может появиться еще одна крупная поисковая система. В интервью для "Компьютерного Обозрения" Уэллс подтвердил свое намерение в ближайшее время укрепить аппаратную базу Gigablast.

Мэтт ведет постоянный дневник на сайте своего поисковика, где сообщается много интересного об архитектуре и возможностях этого относительно нового и малоизвестного проекта. Так, сегодня Gigablast работает на 8 серверах под управлением ОС Linux. Основной упор делается на дешевизну, и Уэллс предпочитает компьютеры с большим объемом оперативной памяти и недорогими IDE-дисками. По его словам, теоретически система с имеющимся на данный момент программным обеспечением способна обслуживать базу данных в 200 млрд. документов на 100 тыс. серверах. Нынешняя ее стоимость -- около 8 тыс. долл.

Однако пока время Gigablast не пришло, Уэллс занимается разработкой новых функций. Робот-паук, отвечающий за индексацию URL-адресов, функционирует в режиме реального времени, и скорость попадания сайта в индекс Gigablast по-прежнему является рекордной. Поисковик поддерживает форматы Microsoft Office, а также PDF и PostScript. На сегодняшний день Gigablast обслуживает более 1 млн. запросов в день.

Уэллс вносит свою лепту и в развитие семантической Паутины (Semantic Web), о необходимости которой теоретики говорят уже давно. Gigablast поддерживает определенные метатеги, описывающие географическое месторасположение сайта и дающие его классификацию. Кроме того, в октябре 2003 г. Уэллс снабдил поисковик глобальным словарем метатегов, содержание и название которых определяют авторы сайтов. Это позволит группе Web-мастеров договориться об использовании того или иного метатега для описания содержания своих сайтов и последующей фильтрации поисковых результатов. Запутанно?

Предположим, автор сайта, где представлены исходники программного обеспечения, на HTML-странице хочет подчеркнуть, что на ней находится программный код на языке Perl. Для этого в метатегах нужно прописать

<meta name="programming-language" content="perl">

Указатель programming-language здесь взят произвольно, и на его месте может быть любое ключевое слово. После этого пользователь Gigablast составляет запрос по любым ключевым словам, не забыв добавить в форму "programming-language: perl", и получает ссылки на страницы, где ключ "programming-language" совпадает со значением "perl". Аналогично запрос с дополнением "programming-language: perl python php" найдет все документы, где присутствуют нужные ключевые слова плюс один из трех языков программирования, указанных в метатеге. Словом, контроль над тегами полностью отдается в руки Web-мастеров, которые будут использовать возможности Gigablast на свое усмотрение.

Недавно на Gigablast появились ссылки на смежные запросы. Уэллс также планирует улучшить поддержку естественного языка для формирования запросов (подобная технология сегодня применяется проектом Ask.com). Однако запросы на кириллице пока невозможны, что делает проект бесполезным для многих читателей. В разговоре с нами Мэтт Уэллс пообещал поддержку русского к концу 2004 г., так как подобная функциональность находится в списке его приоритетов. А список этот, по словам автора Gigablast, на сегодняшний день занимает четверть мегабайта.