Семантический поиск от IBM

Всегда ли мы довольны работой поисковых систем? В большинстве случаев они предлагают сотни страниц с результатами, зачастую имеющими весьма далекое отношение к искомому, тогда как нас вполне устроил бы всего один, но максимально релевантный. Поэтому в лабораториях крупнейших софтверных компаний не прекращается поиск более эффективных технологий и механизмов, ведь, к примеру, та же Google своими невероятными успехами обязана, по сути, удачной системе ранжирования.

Простой поиск по ключевым словам дополняется контекстно-зависимыми данными

Поиск информации стал действительно привычным делом, раз в уважаемые словари включаются термины вроде «гуглить». Соответственно, нет недостатка и в поисковых инструментах. В Интернете любой пользователь наверняка навскидку назовет до десятка популярных служб (а с «большой тройкой», наверное, знакомы даже младенцы). Персональные поисковики давно стали сплошь бесплатными, а весьма приличные реализации встроены в Windows Vista и Mac OS Х. Недавно начали бесплатно предлагать и системы корпоративного уровня (ko.itc.ua/node/34024). Тем не менее во всех применяются фактически идентичные алгоритмы поиска по ключевым словам. И хотя чисто статистические методы нередко дают неплохие результаты, в данном случае их ограниченность вполне очевидна.

Дополнение запросов шаблонами, логическими операторами, специальными словами для поиска в метаданных и другими средствами уточнения картину принципиально не меняет. Более ценными оказываются качественная поддержка морфологии различных языков и учет расстояния между словами. Однако при обработке значительных массивов данных и они не позволяют радикально снизить «поисковый шум» – ведь простое наличие искомых слов далеко не всегда корректно отражает тему документа.

Современным системам зачастую не по плечу оказываются самые, на первый взгляд, простые задачи – отследить появление слов в пределах одного абзаца, выявить в массиве данных ФИО или узлы автомобиля (без точного их перечисления) и т. д. Порой с их помощью не удается найти даже телефонный номер – если наверняка не известно, как эта последовательность символов означена в тексте: пиктограммой, словами «телефон», «мобильный» или «номер».

Для настройки персональных поисковых критериев и управления ими есть специальная утилита – Tagger

Причина такого положения вещей достаточно очевидна: статистические методы принципиально не в состоянии справиться с распознаванием синонимов, а тем более омонимов и многозначных слов – ведь эти лингвистические особенности невозможно выявить, не понимая смысла запроса. А в живом разговоре собеседники без труда решают такие задачи – на основе общего контекста.

Аналогично этому пытаются работать и системы семантического поиска. Они определяют значение многозначного слова на основании данных о его окружении и благодаря этому трансформируют смысл запроса, устраняя неоднозначность. Впрочем, возможно и расширение запроса – за счет добавления в него терминов, связанных с общим контекстом. Это позволяет, с одной стороны, избавиться от избыточных результатов, а с другой – отыскать релевантную информацию, даже если явно указанных ключевых слов в тексте нет. Конечно, для этого в системе необходимо реализовать специфические инструменты текстового анализа (которые определяют язык документа, начальную форму слова, строят список словоформ, выявляют предложения и абзацы, готовят резюме документа). По сути, речь идет о своего рода нечетком поиске.

Работает в этой области и компания IBM. В свое время ею была создана программная инфраструктура Unstructured Information Management Architecture (UIMA), использующаяся для выявления взаимосвязей в массивах неструктурированной информации, идентификации шаблонов и прогнозирования сути запроса. Сейчас она продолжает развитие как открытое ПО в рамках проекта Apache Software Foundation (ASF) и успешно применяется в различных поисковых решениях IBM семейства OmniFind для интеллектуального анализа текста и ассоциативного поиска. Принадлежит к их числу и персональная система OmniFind Personal Email Search, созданная совместными усилиями трех подразделений корпорации: исследовательского центра в Алмадене (Калифорния, США) и лабораторий IBM Research Labs в Хайфе (Израиль) и Дели (Индия).

OmniFind Personal Email Search работает в Windows 2000, Windows Server 2003, Windows XP и Windows Vista (только 32-разрядных версиях), встраивается в Lotus Notes (от 6-й версии) и Microsoft Outlook (2003 и следующие) и, как следует из названия, обеспечивает поиск только по электронной корреспонденции. Загрузить соответствующие модули можно с веб-узла IBM alphaWorks.

Индексация больших почтовых массивов может оказаться ресурсоемкой задачей. Специальные режимы позволяют временно отложить процесс или, напротив, ускорить его

Интерфейс OmniFind Personal Email Search реализован в виде веб-страниц, соответственно, для работы программы необходимы браузеры Internet Explorer (от версии 5.0) и Mozilla Firefox (от 1.5). Архитектурно же она состоит из четырех основных компонентов: агента, который встраивается в почтовый клиент, системы индексации, движка семантического поиска и вспомогательного инструмента Tagger Utility.

Первичная индексация почтовой базы производится непосредственно после установки, впоследствии все новые сообщения программа выстраивает в очередь и обрабатывает в фоновом режиме, при этом не ограничивая возможность выполнения поиска. Разрешается изменять режим индексации, загрузив компьютер полностью или частично, либо отключить ее вообще. В процессе собственно поиска, исходя из анализа запроса, программа пытается уточнить, что именно интересует пользователя, и автоматически идентифицирует такие поисковые критерии, как дата и время, телефонный номер, расписание, электронный и почтовый адрес и пр.

Определять и описывать дополнительные семантические области позволяет именно компонент Tagger Utility. С его помощью можно формировать критерии для поиска специфических объектов, создавая списки синонимов (что нередко встречается и в более «традиционных» системах) и компонуя специальные шаблоны на основе регулярных выражений. Изначально имеются заготовки для даты, времени, телефонного номера, URL и адреса электронной почты – изменять их нельзя. Зато созданные самостоятельно позволяется экспортировать, импортировать, редактировать, мгновенно протестировать. В комплекте есть небольшое руководство, где подробно разобраны некоторые характерные примеры. Естественно, после добавления таких новых конструкций необходимо выполнить полную переиндексацию.

К сожалению, OmniFind Personal Email Search в наибольшей степени ориентирована на английский язык, хотя поддержка Unicode позволяет работать с любыми символами. Однако следует понимать, что семантика – это совокупность отношений между выражениями естественного языка и миром (реальным или воображаемым). И выражения, описывающие одни и те же концепции на английском, русском или китайском языках, не просто составлены из разных слов – в них существенно различаются правила взаимодействия, по которым формируется смысл сложных конструкций. Соответственно, даже если OmniFind Personal Email Search корректно идентифицирует русский язык, вникнуть в смысл запроса она все равно не сможет. Но, по крайней мере, в нашем распоряжении остаются средства поиска формализуемых объектов (номеров, адресов и пр.).

Стратегія охолодження ЦОД для епохи AI