`

СПЕЦІАЛЬНІ
ПАРТНЕРИ
ПРОЕКТУ

Чи використовує ваша компанія ChatGPT в роботі?

BEST CIO

Определение наиболее профессиональных ИТ-управленцев, лидеров и экспертов в своих отраслях

Человек года

Кто внес наибольший вклад в развитие украинского ИТ-рынка.

Продукт года

Награды «Продукт года» еженедельника «Компьютерное обозрение» за наиболее выдающиеся ИТ-товары

 

"Ищейка" 4: ищем по-русски и по-новому

0 
 
Впервые об "Ищейке" мы писали теперь уже в далеком 1999 г., так что на сайте ITC Online даже не сохранилось той публикации. Впрочем, проследить за этапами развития программы вполне удается по документу WhatsNew, ведущему хронологию с версии 2.х (т. е. как раз с того самого 1999 г.). Тем удивительнее читать о нынешнем выпуске: "Новый быстрый поисковый движок. Новый более удобный пользовательский интерфейс...". Постойте, а что же осталось прежнего? По-видимому, лишь общие концепции и подходы к организации программы, которые с самого начала сделали ее беспрецедентно простой и удобной в использовании (хотя и в ущерб некоторой "интеллектуальности"). Стало быть с нынешней "Ищейкой" вполне можно знакомиться как с совершенно новым продуктом, тем более, что в наше распоряжение попал самый полный пакет -- Проф Deluxe, лишенный каких бы то ни было ограничений и включающий все доступные на сегодня дополнительные модули (т. е. "фильтры", извлекающие текст из документов различных типов).

"Ищейка" 4 ищем по-русски и по-новому
"Ищейка" поддерживает практически все сколько-нибудь важные форматы
"Ищейка" 4.2 в целом сохраняет внутреннее устройство предыдущих версий. Пользователь по-прежнему определяет зоны поиска (которые могут и пересекаться) и выполняет предварительную индексацию документов. При необходимости созданные индексы актуализируются вручную либо автоматически с помощью встроенного планировщика заданий. В последнем случае "Ищейка", естественно, должна быть запущена -- для большего удобства в таком "резидентном" режиме программа сворачивается в значок на системной панели Windows. Зону поиска можно также расширить, добавив в нее новые папки. Хотя "Ищейка" как программа для персонального использования не позволяет напрямую работать с сетевыми ресурсами, она без проблем индексирует документы на подключенных сетевых дисках.

Кроме того, нынешняя версия "Ищейки" поддерживает довольно обширный список форматов: текстовых, применяемых в Word, Excel и PowerPoint, а также PDF. Обрабатываются даже файлы в zip-архивах. Это обеспечивается подключаемыми модулями (кстати, их можно приобретать поштучно), которые функционируют независимо от наличия родительских приложений (еще в версии 3.x это выполнялось не всегда) и корректно распознают кириллический текст в кодировках ASCII, ANSI, Unicode. Пользователю позволяется добавлять собственные форматы (на основе расширений файлов), они будут рассматриваться как обычный текст. Это вовсе не бессмысленная функция, если вы, к примеру, сохраняете некоторые важные письма в виде EML. К сожалению, "Ищейка" не поддерживает кодировку KOI8, но разработчики обещают исправить эту ситуацию в ближайшее время.

Следует отметить, что документы, защищенные от просмотра (DOC, XLS, PDF), программой не индексируются. С одной стороны, данный подход наиболее "политкорректен" (еще свежо в памяти "дело Склярова"), но с другой -- конечно же причиняет определенные неудобства. Скажем, пользователь, даже владеющий паролем для просмотра того или иного документа, не сможет его проиндексировать без предварительного преобразования. Очевидно, имело бы смысл предусмотреть некий механизм указания (и хранения) реквизитов для доступа к защищенным файлам -- к примеру, просто предоставляя их список по окончании индексирования.

В четвертой версии "Ищейки" появились более мощные и удобные средства построения запросов к хранилищу. Собственно говоря, в распоряжение пользователя предоставляются практически все инструменты, характерные для развитых поисковых систем. Можно строить сложные формальные запросы с использованием логических операторов, искать по точной фразе и применять шаблоны. Дополнительно разрешается задействовать реквизиты самих файлов -- даты и имена (почему-то при этом шаблоны как раз не действуют). Допускается также вторичный поиск -- в полученных результатах. При этом освоить язык запросов и методы их ввода совершенно не сложно, достаточно буквально одного обращения к справочной системе.

"Ищейка" 4 ищем по-русски и по-новому
С помощью формальных запросов удается получать наиболее точные результаты
Однако для действительно эффективного поиска необходимо более точно представлять себе принципы работы программы. Дело в том, что несколько расплывчатая трактовка понятия "морфологический поиск" может ввести пользователей в заблуждение (и автор этих строк не исключение). На деле "Ищейка" не использует словарную морфологию, вместо этого оперируя наиболее типичными в русском языке окончаниями и суффиксами (т. е. "шел" и "идти" для нее слова все же разные). Применяемый механизм больше похож на "нечеткий" поиск, реализованный, к примеру, в программе "Следопыт" компании "МедиаЛингва" ("Компьютерное Обозрение", # 15, 2002). Это ни в коей мере не умаляет достоинств "Ищейки", поскольку каждый алгоритм имеет свои плюсы и минусы, просто такие особенности действительно нужно понимать.

"Ищейка" распространяется в трех версиях: бесплатной, где введены некоторые ограничения и индексируются только текстовые и DOC-документы; Проф, поддерживающей неограниченное число зон поиска и формат RTF; Проф Deluxe, оснащенной всеми доступными дополнительными модулями (из принципиальных -- PDF, XLS, PPT, ZIP). Цены на две последние составляют соответственно $15 и $29, причем через онлайновый магазин Softkey заказ даже может быть оплачен в гривнях. Имеется также "Ищейка Сервер", способная обслуживать сетевые ресурсы и обеспечивать доступ к поисковому механизму посредством Web-броузера. Но подобные продукты заслуживают отдельного рассмотрения, и мы как-нибудь специально вернемся к этой теме.

Интересно отметить, что "локализованные" версии стоят заметно меньше "оригинальных", хотя формально предоставляют даже несколько более широкие возможности -- поиск на русском и английском, а также смену языка интерфейса. Правда, западным пользователям чуть раньше достаются все новинки -- так, на сайте www.isleuthhound.com уже доступны подключаемые модули для индексации почтовых баз Outlook и Outlook Express (вот, кстати, пример насущной необходимости в поддержке KOI8).

В целом, "Ищейка" оставила очень благоприятное впечатление. Программа компактна, экономно расходует ресурсы компьютера и работает достаточно быстро. Скажем, архив в 175 MB индексировался буквально несколько минут, размер полученной базы данных при этом составил около 30 MB (обычная оценка -- 10--40%). Последующее обслуживание запросов выполнялось фактически мгновенно, хотя в броузере результатов предоставляются даже фрагменты текстов.

Ready, set, buy! Посібник для початківців - як придбати Copilot для Microsoft 365

0 
 

Напечатать Отправить другу

Читайте также

 

Ukraine

 

  •  Home  •  Ринок  •  IТ-директор  •  CloudComputing  •  Hard  •  Soft  •  Мережі  •  Безпека  •  Наука  •  IoT