Файловый поиск: снова в моде

13 июнь, 2004 - 23:00Александр Москалюк
В середине мая неожиданно возрос интерес к рынку поисковых утилит для ПК и локальной сети. Виновником данного всплеска стала компания Google, сообщившая о разработке файлового поисковика под кодовым названием Puffin, а New York Times в своем технологическом разделе даже предположила, что, создав данную утилиту, Google начинает конкурировать с Microsoft.

Не обошлось и без сюрпризов меньшего масштаба -- 11 мая компания "Мета", известная большинству Internet-пользователей своей поисковой системой по украинским Web-ресурсам, сообщила о выходе утилиты для локального поиска -- DiskMETA, которая на сегодняшний день распространяется в бесплатной, персональной ($48,50) и профессиональной ($97,50) версиях.

Однако обо всем по порядку. Сообщение Google вызвало новую волну интереса к компании, и вновь стали говорить о том, что Google все больше проникает на рабочие столы. Припомнили и слова Джеффри Ульмана (Jeffrey Ullman), стэнфордского профессора, тесно работавшего с основателями Google и с первым ее сотрудником Крэгом Сильверштайном (Craig Silverstein). Автор известных учебников по теории информации и основам баз данных нашел нужным высказать основателям Google свое мнение о том, что рано или поздно пути Google и Microsoft пересекутся, и поэтому он считает целесообразной покупку программной компании, которая занимается разработкой клиентской среды под ОС Linux.

Между тем рынок локальных поисковиков трудно назвать одним из самых "горячих". По оценкам IDC, в 2003 г. его объем составил 617 млн. долл., при этом учитывались как небольшие утилиты, так и крупные системы. Google также осваивает корпоративный сегмент, однако продажи в нем нельзя назвать значительными -- в прошлом году компания заработала на своем продукте Search Appliance 48 млн. долл., что составляет 5% от всех ее денежных поступлений. Продажа рекламы на Web-поисковике и партнерских сайтах принесла почти миллиард долларов (914 млн.).

Не стоит забывать, что главный софтверный архитектор Microsoft Билл Гейтс лично назвал качественный поиск одной из центральных функций клиентской операционной системы Longhorn. Теоретически с ростом объемов жестких дисков и информации, которая хранится на домашних ПК, локальный поисковик станет востребованной утилитой.

И пользователи готовы платить за такие продукты. Компания X1 Technologies предлагает одноименное приложение за $99. Аналогично фирма dtSearch уже долгое время занимается разработкой файловых поисковых систем для ПК и локальных сетей, однако пользовательская лицензия на одного человека обойдется в $199.

На этом фоне предложение от украинской "Меты" выглядит весьма заманчиво: за $48,50 клиент получает персональную версию на один ПК и возможность индексировать и задавать поиск по файлам XLS, RTF и PDF (DOC, HTML и TXT поддерживаются даже бесплатной версией). За $97,50 DiskMETA проиндексирует и доступные папки в локальной сети, и архивы ZIP и RAR, а также CHM (формат Windows Help). Также можно указать дополнительные форматы для обычных текстовых файлов (такими могут быть XML, PHP, INF и т. д.). К сожалению, не поддерживаются почтовые базы популярных e-mail-клиентов. Что касается морфологической поддержки, то ее получат только пользователи наиболее дорогой, профессиональной, версии.

DiskMETA оперирует индексами, которые необходимо создать предварительно. Такая методика при всех своих плюсах имеет и недостатки -- к примеру, нельзя выполнить поиск по определенной папке, даже если она была проиндексирована, и уж тем более, если не была. Отсутствует и функция оперативного поиска по конкретной папке, хотя она возможна даже во встроенном поисковике Microsoft Windows. В то же время тех, кто привык рубрицировать файлы по категориям (по имени пользователя, области применения или же просто различая персональные и рабочие файлы), подход DiskMETA вполне устроит. Поиск осуществляется практически мгновенно, скорость индексирования, по словам разработчиков, достигает 1 GB в час, а величина индекса в среднем составляет 25% от объема индексируемых документов. При добавлении новых папок и файлов индексы можно регенерировать.

Утилита создавалась командой, которая разрабатывает Web-поисковик, поэтому интуитивным кажется и язык запросов: "+" -- для логического "и", "--" -- для логического "не", "|" -- для "или", кавычки -- для поиска фрагментов текста. Формат представления результатов также привычен для Web-пользователей -- выдержки текста, заголовок, размер и дата создания документа. Его название в случае Microsoft Word определяется программой автоматически -- если в свойствах DOC-файла информация не прописана, то заголовком служит первая строка.

Не следует однако забывать, что все более актуальной задачей (о чем твердят и представители Microsoft) становится не столько поиск по текстовым документам, сколько категоризация и поиск по мультимедиафайлам. Пользователи, сохраняющие на своих жестких дисках по несколько сотен цифровых фотографий после очередной поездки, не хотят тратить несколько часов на описание каждого файла и ввод ключевых слов, по которым затем нужное фото можно будет найти. Однако месяц спустя еще больше времени придется потратить на поиск нужной папки и просмотр файлов с именами IMG000315.jpg для обнаружения заветного снимка. С ростом популярности цифровых камер (как фото-, так и видео-) и мобильных телефонов со встроенными фотоаппаратами проблема поиска по нетекстовой информации станет еще более актуальной.