Поисковые системы уровня организации

30 ноябрь, 2004 - 00:00Игорь Дериев
Как ни парадоксально, но персональные поисковые средства -- вопреки доступности и многообразию -- отнюдь не стали верными и неизменными спутниками современного пользователя. На то, конечно же, имеются свои объективные причины -- в первую очередь, чрезмерное разнообразие несовместимых и нередко закрытых форматов. А быть может, критическая масса проблем все еще не накопилась в индивидуальном масштабе -- вопреки сообщениям досужих аналитиков, исчисляющих чуть ли не гигабайты как полезной информации, так и кибер-мусора на душу населения Земли.

По-видимому, поисковые технологии все же развиваются сверху вниз, от сложного к простому. Вначале они покорили Всемирную Паутину -- их успехи на данном поприще несомненны. На очереди следующий, более низкий уровень -- организации, интенсивно работающие с документами (независимо от их профиля). Судя по всему, в ближайшие годы здесь будет происходить много интересного, и именно поэтому мы сегодня решили уделить внимание корпоративным поисковикам.

Впрочем, термин "корпоративные" в данном контексте требует уточнения. Мы заведомо оставили в стороне "большие" решения, встраиваемые в СУБД, системы документооборота и другие масштабные приложения -- это совершенно отдельная область со своими законами, традициями и предубеждениями. По нашему мнению, зарождается спрос на более приземленные универсальные сервисы, работающие в рамках локальной сети (либо intranet), обеспечивающие централизованный доступ к своим услугам и поддерживающие самые распространенные форматы офисных документов. Причем это должны быть именно готовые "розничные" продукты -- довольно простые для настройки средней руки администратором (в идеале вообще любым пользователем) и доступные по цене.

Конечно, категория получилась несколько расплывчатая, и поначалу даже было сомнение, удастся ли нам найти достаточно интересного ПО для обзора. Каково же было наше удивление, когда только в Украине обнаружилось сразу три коллектива, предлагающих именно такие решения. Впрочем, не в каждом случае готовый коммерческий продукт уже имелся в наличии -- обычно, располагая всеми необходимыми технологиями и наработками, компании явно тяготели к созданию поисковых решений под заказ. Поэтому нам даже пришлось несколько отодвинуть сроки подготовки данной темы недели, однако способность за короткое время довести проекты до логического завершения сама по себе говорит о многом. Быть может, лед на нашем софтверном рынке все же тронулся?


В целом

Участники нашего обзора достаточно сильно отличаются друг от друга. С одной стороны, это говорит о том, что данный рынок все еще формируется. Как следствие, цены не всегда соответствуют функциональным возможностям. Собственно, и исчисляться они могут весьма по-разному, к примеру, в зависимости от разрешенного количества индексируемых документов или числа серверных и пользовательских лицензий. С другой стороны -- такая ситуация дает разработчикам определенный простор для творчества, так что иногда встречаются действительно оригинальные решения.

Однако какие-то общие характеристики для данного класса ПО выделить вполне возможно, особенно если оттолкнуться от реальных задач, стоящих перед потенциальным потребителем. Скажем, абсолютно во всех продуктах применяется технология предварительного индексирования -- другое просто невозможно себе представить. Прочие аспекты могут быть реализованы по-разному.

Локальная сеть. Обслуживание сетевых ресурсов кажется тривиальным делом, но только на первый взгляд. А что, если доступ к некоторым ограничен? Иногда вообще может быть удобным индексировать, к примеру, \\computer\C$, для чего, очевидно, нужны полномочия администратора. При этом далеко не все поисковые программы дают возможность указывать необходимые реквизиты, многие даже не позволяют ввести имя ресурса вручную -- только выбирать из древовидной структуры (обратная сторона GUI).

Централизованный доступ. Здесь практически безоговорочно правит бал Web-интерфейс. Разница состоит лишь в том, должен ли использоваться внешний Web-сервер (на платформе Windows обычно по умолчанию поддерживается IIS), либо имеется простенький встроенный. Во втором случае обычно также предлагается собственная система безопасности для разграничения доступа к администрированию, различным поисковым наборам и т. д. Каждый вариант, естественно, имеет свои плюсы и минусы.

Однако встречаются и более оригинальные решения, с одним из которых читатели познакомятся чуть позже.

Форматы документов. Обычно поддерживаются текстовые файлы и форматы Microsoft Office. Это некий минимальный набор, которого во многих случаях может оказаться недостаточно. В ряде продуктов реализована поддержка PDF, но ни в одном случае мы не смогли признать ее идеальной -- в первую очередь, из-за проблем с кириллицей (хотя основные претензии, скорее всего, следует адресовать самой Adobe). Во всех прочих вариантах -- к примеру, при использовании OpenOffice -- необходимые фильтры уже придется заказывать дополнительно (разработчики с готовностью предлагают такие услуги).

Языковая поддержка. Большинство Windows-программ работают с Unicode, поэтому формально они "всеядны". Однако для действительно эффективного поиска необходима поддержка морфологии (а также списки "шумовых" слов, не принимаемых во внимание, и пр.), и особенно это критично для украинского и русского. Все отечественные продукты поддерживают оба языка, российские (и некоторые зарубежные) ограничиваются только вторым.

Нужно также учитывать, что морфологическая поддержка бывает двух видов: словарная, основанная на знании реальных парадигм слов, и бессловарная, оперирующая лишь общими законами словообразования. Соответственно первая -- более точная, вторая -- универсальная, а идеальный вариант -- их сочетание.

Ранжирование результатов. Понятно, что в локальной сети действуют несколько иные законы, чем в Web, однако и здесь важна релевантность результатов. Изобретать какие-то хитрые методики, быть может, и не стоит, но, скажем, учитывать частоту вхождения слов запроса, их взаимное расположение и некоторые другие характеристики крайне желательно. К сожалению, далеко не все разработчики уделяют данному аспекту должное внимание.

На самом деле можно предложить и другие критерии сравнения (и выбора) корпоративных поисковых систем -- скажем, скорость индексирования или эффективность обработки одновременных запросов. Но мы пока не склонны рассматривать эти факторы как критические -- попавшие в обзор продукты достаточно сильно разнятся в функциональном плане, и даже создать для них общие условия довольно проблематично. Тем не менее по мере формирования рынка и "взросления" его участников мы надеемся еще вернуться к этому вопросу. Пока же предлагаем читателям принять (в первом приближении) нашу точку зрения и познакомиться с доступными продуктами поближе.


"МЕТАТЕКА"
www.meta.ua

Поисковые системы уровня организации
Главная изюминка продукта "Меты" -- учет морфологии при поиске по точной фразе
Поисковые системы уровня организации
Web­интерфейс позволяет легко контролировать работу "МЕТАТЕКИ"
Из всех изученных нами поисковых приложений украинского производства "МЕТАТЕКА" выглядит, пожалуй, наиболее зрело и солидно. Впрочем, удивляться тут особо нечему, поскольку опыта разработчикам не занимать -- как наверняка уже догадались наши читатели, созвучие с названием известнейшего отечественного Web-поисковика вовсе не случайно. Компания "Мета" действительно располагает достаточно совершенными технологиями и предлагает сегодня целый спектр продуктов для различных применений.

Соответственно, такое "благородное" происхождение не могло не сказаться и на особенностях архитектуры. К примеру, "МЕТАТЕКА" доступна как для Windows NT/2000/ XP/2003, так и для Linux/FreeBSD, а для указания индексируемых ресурсов используется универсальный синтаксис. Мы развернули поисковую службу на Windows XP, и нужно отметить, что инсталлятор довольно корректно выполнил все необходимые настройки, в том числе и штатного Internet Information Services. В реальных условиях, конечно же, предпочтение может быть отдано серверной платформе, и в этом случае следует иметь в виду, что конфигурация Web-сервера на Windows Server 2003 потребует выполнения некоторых дополнительных операций вручную, подробно описанных в документации.

Структурно "МЕТАТЕКА" выглядит достаточно традиционно, тремя основными компонентами являются поисково-индексирующий механизм, оформленный в виде системной службы, и два CGI-скрипта для администрирования и выполнения поиска -- назначение их вполне прозрачно. Естественно, таким простым все кажется только на словах, ведь именно внутри этих весьма небольших модулей и скрыты все наиболее важные алгоритмы и ноу-хау. Кроме того, к ним подключаются фильтры для обработки файлов в специальных форматах (DOC, RTF, XLS, PDF, а в перспективе, вероятно, и другие), а также словари для английского, украинского и русского языков.

Следует отметить, что "МЕТАТЕКА" -- один из немногих продуктов данного класса, в которых реализуется полноценная словарная морфологическая поддержка (особенно для украинского языка), дополненная бессловарными алгоритмами для неизвестных слов, что в совокупности с простым, но достаточно развитым языком запросов гарантирует очень эффективный поиск. В частности, кроме привычных плюса, минуса и кавычек, также поддерживаются круглые скобки -- для группирования слов и управления очередностью выполнения логических операторов -- и фигурные -- для поиска выражений с учетом словоизменения. Последнюю возможность можно смело отнести к уникальным. Кроме того, обеспечивается достаточно интеллектуальное ранжирование результатов, и это также заметный плюс.

Ядро "МЕТАТЕКИ" предназначено для работы с большими массивами информации, в частности оно может одновременно обновлять индекс и обслуживать пользовательские запросы. Для этого новая информация добавляется в виде приращений, которые можно сливать с основной базой вручную либо автоматически при указанных условиях. Вообще администраторы "МЕТАТЕКИ" наверняка окажутся вполне довольными управляемостью приложения, ведь помимо многочисленных настроек (в том числе, скажем, для организации эффективной работы с сетевыми ресурсами, доступными лишь периодически) имеется даже встроенный планировщик, обеспечивающий прямой доступ ко всем важным аспектам функционирования главной службы.


Dvygun Smart Server
www.dvygun.com

Поисковые системы уровня организации
Dvygun Smart Server -- система ранжирования результатов поиска в действии
Компания Dvygun вряд ли широко известна отечественным пользователям, однако весьма характерное название недвусмысленно указывает на ее происхождение. Основным достоянием молодого коллектива является поисковая технология Dvygun SE, на основе которой недавно была создана программа Dvygun Smart Search, призванная в первую очередь продемонстрировать потенциал разработчиков. И хотя компания явно тяготеет к созданию заказных систем, в ее планах и выпуск полновесного корпоративного поисковика -- как говорилось выше, возможно, наше обращение также повлияло на принятие такого решения.

Итак, нам удалось познакомиться с предварительной версией Dvygun Smart Server, которая выполнена по принципу "все свое ношу с собой". В ней реализован и сам индексатор, и Web-сервер, и все это хозяйство управляется из единой консоли. Возможно, такой подход выглядит менее "промышленным", но для относительно небольших компаний это не так и важно, зато администрирование пакета предельно простое -- одним щелчком мыши можно начать или завершить любой процесс, остановить Web-сервер и т. д. Тем не менее Dvygun Smart Server также обеспечивает выполнение поиска одновременно с обновлением индекса, чему способствует специальная структура последнего.

При более близком знакомстве создается впечатление, что идейное развитие продуктов под маркой Dvygun, в отличие, скажем, от линейки "Meтa", происходило от простого к сложному -- от десктопных подходов к серверным. И в данном случае это вполне оправданно. Ведь в итоге программа должна максимально устраивать конечного пользователя, который также начинает свой IT-путь с работы с персональной информацией. Например, Dvygun Smart Server позволяет осуществлять поиск в почтовых базах Outlook и Outlook Express и мультимедийных файлах, в том числе и задействуя их системные атрибуты. В нынешней версии еще не поддерживается PDF (хотя разработчики обещают восполнить этот пробел в ближайшем будущем), зато имеется довольно качественный RTF-фильтр.

Естественно, далеко не на каждого произведет благоприятное впечатление тот факт, что кто-то посторонний сможет выполнять поиск в его почтовом ящике -- разумеется, речь идет о каких-то общих ресурсах вроде [email protected]. Однако в Dvygun Smart Server предлагается и более развитый механизм управления полномочиями -- доступ к поисковому механизму можно сделать "именным" (а каждую учетную запись еще и дополнительно привязать к IP-адресу), ограничив каждого пользователя лишь положенными ему ресурсами. В перспективе планируется интеграция с системой безопасности Windows NT.

В Dvygun Smart Server реализована только бессловарная морфология для русского и украинского языков (на основе ispell), однако довольно удачная система ранжирования результатов поиска позволяет быстро добиваться желаемого.


MTSearch.NET
www.aomt.kiev.ua

Поисковые системы уровня организации
Так выглядит MTSearch.NET в браузере. Обратите внимание, что хотя выдержки из PDF-документов отображены в неправильной кодировке, собственно поиск выполнен абсолютно корректно
Данный продукт совершенно очевидно является ближайшим родственником MTSearch -- персональной поисковой утилиты, недавно включенной в состав ProLingOffice 5. Неважно, какая из программ появилась раньше, главное, что в них используется общая идеология, состоящая, в первую очередь, в максимальной утилизации стандартных технологий, предоставляемых операционными системами семейства Windows NT. В силу этого MTSearch.NET все так же базируется на механизмах Indexing Services, а в качестве Web-сервера задействует Internet Information Services.

Тем не менее, имеются и кое-какие отличия. Несмотря на окончание .NET сетевой продукт не использует .NET Framework, видимо, в данном случае эта технология показалась избыточной. В отличие от персональной версии, интегрирующейся в приложения Microsoft Office 2003, клиентом MTSearch.NET может выступать исключительно Internet Explorer. Впрочем, разработчики и здесь пошли своим особым путем -- вместо создания поисковой Web-страницы программа подменяет стандартную поисковую панель браузера Microsoft. Для этого пользователю предварительно нужно посетить страницу http://myserver/mtsearch и выполнить несложные инструкции.

Отсюда же обеспечивается доступ к избранным функциям администрирования, а для полноценной настройки системы рекомендуется воспользоваться специальным "офлайновым" апплетом, устанавливаемым на серверный компьютер. Как и следует ожидать, по большому счету он всего лишь обеспечивает удобный доступ к наиболее популярным настройкам Indexing Services (хотя за какими-то тонкостями придется по-прежнему обращаться к стандартной консоли Computer Management) -- необходимо лишь усвоить, что MTSearch.NET работает только с каталогом Web.

Новая поисковая панель в браузере обеспечивает доступ ко всем традиционным возможностям Indexing Services -- поиску по отдельным категориям файлов, дополнительно по автору (если этот атрибут поддерживается данным форматом), различные типы сортировки результатов. Дополнительно MTSearch.NET привносит морфологическую поддержку (словарную) для русского и украинского языка -- благодаря лингвистическим средствам ProLingOffice. Для поиска всех словоформ, как и в персональной версии, используются две звездочки "**" -- об этом почему-то умалчивается в достаточно подробной справке.

Естественно, основные достоинства и недостатки MTSearch.NET обусловлены применением Indexing Services, в результате чего значительная часть ответственности перекладывается на плечи других разработчиков (в наибольшей степени, конечно, Microsoft). Скажем, буквально накануне подготовки данного материала Adobe обновила свой фильтр, теперь он позволяет корректно работать со всеми версиями PDF. Поддержку других специфических форматов стоит также поискать у сторонних разработчиков. Очень неплохая подборка коммерческих фильтров, в том числе для OpenOffice, имеется на www.ifiltershop.com, а фильтр для DjVu сегодня можно получить и вовсе бесплатно. Однако у такой формы "сотрудничества" имеется и оборотная сторона -- в частности, утрачивается контроль над некоторыми аспектами качества функционирования системы в целом, особенно когда речь заходит о поддержке кириллицы.

C украинских компаний мы начали по вполне понятным причинам -- сегодня только они реализуют лингвистическую поддержку украинского языка. По слухам, это по плечу и некоторым российским разработчикам, однако они предпочитают совершать такие подвиги "под заказ". Впрочем, если ограничиться лишь английским и русским, то у нашего северо-восточного соседа вполне найдется, что предложить. Все компании, когда-то выпускавшие персональные поисковые средства, сегодня предлагают и сетевые решения -- хотя далеко не все они развиваются в достаточной мере. Появляются и новые довольно амбициозные проекты вроде Stocona Search Corporate, где обещается поддержка не только привычной уже морфологии, но и, скажем, синонимии (т. е. семантический поиск), но в целом ситуация такая же, как в Украине, -- готовые продукты на подходе, но приоритет отдается заказным решениям.


"Ищейка Сервер"
sleuthhound.com/ru/

Поисковые системы уровня организации
"Ищейка Сервер" предлагает набор готовых решенийдля аутентификации пользователей
Поисковые системы уровня организации
"Ищейка Сервер" -- список поддерживаемых форматов довольно представительный
Многим пользователям этот продукт покажется знакомым благодаря довольно популярной персональной версии "Ищейки". К сожалению, русскоязычная программа несколько отстает в развитии от англоязычной, хотя разница в одну десятую вряд ли подразумевает какие-то принципиальные отличия. Архитектурно "Ищейка Сервер" похожа на Dvygun Smart Server, т. е. все необходимые сервисы (Web-сервер, планировщик) обеспечивает самостоятельно. В результате -- минимальные требования к конфигурации компьютера, предельно простая настройка и т. д.

После установки необходимо настроить зоны поиска (их может быть несколько), в которые допускается включать как локальные диски и папки, так и сетевые, но исключительно предназначенные для общего доступа. Индексируется весь джентльменский набор офисных форматов -- RTF, DOC, XLS, PPT, PDF -- причем они даже будут извлекаться из ZIP-архивов, что довольно удобно. Мы не проводили специального исследования, но, похоже, что данный PDF-фильтр наиболее корректно работает с кириллицей, хотя и он далек от идеала.

В "Ищейка Сервер" поддерживается бессловарная морфология для русского языка и более-менее стандартный язык запросов с основными логическими операторами, возможностью группирования выражений и т. д. Все вместе работает вполне сносно, за исключением одного, но достаточно неприятного недостатка. Дело в том, что при поиске по точной фразе (которая, как обычно, заключается в кавычки) морфология не учитывается -- к примеру, по запросам "графическая станция" и "графические станции" нами были получены абсолютно разные результаты. Поиск же по отдельным словам "графическая" и "станция" выдал довольно обширный список документов, но искомые (т. е. содержащие точные фразы) нашлись лишь в самом его конце -- сказалось отсутствие механизма ранжирования.

В "Ищейка Сервер" реализована собственная система безопасности, группы пользователей необходимо формировать вручную. По умолчанию приложение настроено на анонимный доступ к своему сервису, для обеспечения аутентификации пользователей следует также выбрать подходящий шаблон поисковой страницы (они включены в стандартную поставку).


"Серверный Следопыт"
www.medialingua.ru

Поисковые системы уровня организации
Администрирование "Серверного Следопыта" также осуществляется через Web-интерфейс
Судя по всему, развитие программного обеспечения семейства "Следопыт" в последние годы было приостановлено, и мы констатируем это с особым сожалением, поскольку персональный поисковик был одним из лучших в своем классе. Что касается текущей серверной версии, то это достаточно добротный, идеологически выдержанный продукт, хотя в нем и реализованы далеко не все технологии, имеющиеся в арсенале компании "МедиаЛингва". Так, поддерживается только бессловарная морфология русского языка, отсутствует поддержка PDF и некоторых других форматов.

Между тем "Серверный Следопыт" прекрасно чувствует себя в локальной сети, не испытывает проблем с текстовыми файлами и DOC-документами и даже предлагает такую уникальную функцию, как автоматическое аннотирование документов. Архитектура приложения (в поставке "Профессиональный") позволяет строить распределенные системы и таким образом работать с большими массивами информации.

При установке "Серверный Следопыт" интегрируется с Internet Information Services, но с самыми последними версиями Windows эта операция выполняется не вполне корректно. Впрочем, завершить конфигурацию не составляет труда и вручную. Стоит также отметить, что все административные функции пакета доступны только через Web-интерфейс, и хотя он сделан довольно качественно, кое-каких мелочей порой не хватает. Скажем, агент индексирования активизируется только по расписанию, запустить его принудительно невозможно.

Как нам сообщили представители "МедиаЛингва", уже сейчас в работе находится новая версия "Серверного Следопыта", функциональность которой будет значительно расширена.


Выводы

Как нам кажется, активизация сегмента корпоративных поисковых систем заметна, что называется, невооруженным глазом. Конечно, наш обзор не претендует на полноту, фактически его можно было бы начать даже с западных разработок. Так, небезызвестная компания Copernic совсем недавно представила собственный продукт Coveo Enterprise Search, который обладает завидными возможностями (поддержка форматов Microsoft Office, WordPerfect, PDF, ZIP-архивов и почтовых папок) и при этом имеет полнофункциональную бесплатную версию, индексирующую до 5 тыс. документов. Камнем преткновения, как всегда, оказывается языковая поддержка, однако и здесь встречаются исключения вроде dtSearch.

Однако нам было особенно приятно представить именно новые украинские проекты, тем более что они отличаются довольно высоким качеством и нередко оригинальными идеями. Отечественным пользователям сегодня действительно есть из чего выбрать, и, надеемся, наш обзор поможет им принять правильное решение. Мы же пока не стали выносить окончательных вердиктов -- продукты еще совершенствуются, и при этом каждый из них интересен по-своему.

Основные характеристики поисковых систем 
Продукты    Морфология  Форматы  Web-сервер  Ранжи-
рование 
Цена, $ 
украинская  русская  MS Office  PDF    по релевантности  по атрибутам   
"МЕТАТЕКА"  Словарная+ бессловарная  Словарная+ бессловарная  Есть  Есть  Внешний  Есть  Есть  От 5000* 
Dvygun Smart Server  Бессловарная  Бессловарная  Есть  Нет  Встроенный  Есть  Есть  Н/д 
MTSearch.NET  Словарная  Словарная  Есть  Есть  IIS  Есть  Есть  450 
"Ищейка Сервер"  Нет  Бессловарная  Есть  Есть  Встроенный  Нет  Есть  215** 
"Серверный Следопыт"  Нет  Бессловарная  Есть  Нет  Внешний  Есть  Нет  1000*** 
*Ориентировочно. Окончательные цены не установлены.   
 **За пакет из 1 серверной и 10 пользовательских лицензий. Не включая стоимости PDF-фильтра.    
***За комплектацию Professional Edition.