`

СПЕЦИАЛЬНЫЕ
ПАРТНЕРЫ
ПРОЕКТА

Архив номеров

Как изменилось финансирование ИТ-направления в вашей организации?

Best CIO

Определение наиболее профессиональных ИТ-управленцев, лидеров и экспертов в своих отраслях

Человек года

Кто внес наибольший вклад в развитие украинского ИТ-рынка.

Продукт года

Награды «Продукт года» еженедельника «Компьютерное обозрение» за наиболее выдающиеся ИТ-товары

 

Семантический поиск от IBM

Статья опубликована в №11 (628) от 18 марта

+11
голос

Всегда ли мы довольны работой поисковых систем? В большинстве случаев они предлагают сотни страниц с результатами, зачастую имеющими весьма далекое отношение к искомому, тогда как нас вполне устроил бы всего один, но максимально релевантный. Поэтому в лабораториях крупнейших софтверных компаний не прекращается поиск более эффективных технологий и механизмов, ведь, к примеру, та же Google своими невероятными успехами обязана, по сути, удачной системе ранжирования.

Семантический поиск от IBM
Простой поиск по ключевым словам дополняется контекстно-зависимыми данными

Поиск информации стал действительно привычным делом, раз в уважаемые словари включаются термины вроде «гуглить». Соответственно, нет недостатка и в поисковых инструментах. В Интернете любой пользователь наверняка навскидку назовет до десятка популярных служб (а с «большой тройкой», наверное, знакомы даже младенцы). Персональные поисковики давно стали сплошь бесплатными, а весьма приличные реализации встроены в Windows Vista и Mac OS Х. Недавно начали бесплатно предлагать и системы корпоративного уровня (ko.itc.ua/node/34024). Тем не менее во всех применяются фактически идентичные алгоритмы поиска по ключевым словам. И хотя чисто статистические методы нередко дают неплохие результаты, в данном случае их ограниченность вполне очевидна.

Дополнение запросов шаблонами, логическими операторами, специальными словами для поиска в метаданных и другими средствами уточнения картину принципиально не меняет. Более ценными оказываются качественная поддержка морфологии различных языков и учет расстояния между словами. Однако при обработке значительных массивов данных и они не позволяют радикально снизить «поисковый шум» – ведь простое наличие искомых слов далеко не всегда корректно отражает тему документа.

Современным системам зачастую не по плечу оказываются самые, на первый взгляд, простые задачи – отследить появление слов в пределах одного абзаца, выявить в массиве данных ФИО или узлы автомобиля (без точного их перечисления) и т. д. Порой с их помощью не удается найти даже телефонный номер – если наверняка не известно, как эта последовательность символов означена в тексте: пиктограммой, словами «телефон», «мобильный» или «номер».

Семантический поиск от IBM
Семантический поиск от IBM
Для настройки персональных поисковых критериев и управления ими есть специальная утилита – Tagger

Причина такого положения вещей достаточно очевидна: статистические методы принципиально не в состоянии справиться с распознаванием синонимов, а тем более омонимов и многозначных слов – ведь эти лингвистические особенности невозможно выявить, не понимая смысла запроса. А в живом разговоре собеседники без труда решают такие задачи – на основе общего контекста.

Аналогично этому пытаются работать и системы семантического поиска. Они определяют значение многозначного слова на основании данных о его окружении и благодаря этому трансформируют смысл запроса, устраняя неоднозначность. Впрочем, возможно и расширение запроса – за счет добавления в него терминов, связанных с общим контекстом. Это позволяет, с одной стороны, избавиться от избыточных результатов, а с другой – отыскать релевантную информацию, даже если явно указанных ключевых слов в тексте нет. Конечно, для этого в системе необходимо реализовать специфические инструменты текстового анализа (которые определяют язык документа, начальную форму слова, строят список словоформ, выявляют предложения и абзацы, готовят резюме документа). По сути, речь идет о своего рода нечетком поиске.

Работает в этой области и компания IBM. В свое время ею была создана программная инфраструктура Unstructured Information Management Architecture (UIMA), использующаяся для выявления взаимосвязей в массивах неструктурированной информации, идентификации шаблонов и прогнозирования сути запроса. Сейчас она продолжает развитие как открытое ПО в рамках проекта Apache Software Foundation (ASF) и успешно применяется в различных поисковых решениях IBM семейства OmniFind для интеллектуального анализа текста и ассоциативного поиска. Принадлежит к их числу и персональная система OmniFind Personal Email Search, созданная совместными усилиями трех подразделений корпорации: исследовательского центра в Алмадене (Калифорния, США) и лабораторий IBM Research Labs в Хайфе (Израиль) и Дели (Индия).

OmniFind Personal Email Search работает в Windows 2000, Windows Server 2003, Windows XP и Windows Vista (только 32-разрядных версиях), встраивается в Lotus Notes (от 6-й версии) и Microsoft Outlook (2003 и следующие) и, как следует из названия, обеспечивает поиск только по электронной корреспонденции. Загрузить соответствующие модули можно с веб-узла IBM alphaWorks.

Семантический поиск от IBM Индексация больших почтовых массивов может оказаться ресурсоемкой задачей. Специальные режимы позволяют временно отложить процесс или, напротив, ускорить его

Интерфейс OmniFind Personal Email Search реализован в виде веб-страниц, соответственно, для работы программы необходимы браузеры Internet Explorer (от версии 5.0) и Mozilla Firefox (от 1.5). Архитектурно же она состоит из четырех основных компонентов: агента, который встраивается в почтовый клиент, системы индексации, движка семантического поиска и вспомогательного инструмента Tagger Utility.

Первичная индексация почтовой базы производится непосредственно после установки, впоследствии все новые сообщения программа выстраивает в очередь и обрабатывает в фоновом режиме, при этом не ограничивая возможность выполнения поиска. Разрешается изменять режим индексации, загрузив компьютер полностью или частично, либо отключить ее вообще. В процессе собственно поиска, исходя из анализа запроса, программа пытается уточнить, что именно интересует пользователя, и автоматически идентифицирует такие поисковые критерии, как дата и время, телефонный номер, расписание, электронный и почтовый адрес и пр.

Определять и описывать дополнительные семантические области позволяет именно компонент Tagger Utility. С его помощью можно формировать критерии для поиска специфических объектов, создавая списки синонимов (что нередко встречается и в более «традиционных» системах) и компонуя специальные шаблоны на основе регулярных выражений. Изначально имеются заготовки для даты, времени, телефонного номера, URL и адреса электронной почты – изменять их нельзя. Зато созданные самостоятельно позволяется экспортировать, импортировать, редактировать, мгновенно протестировать. В комплекте есть небольшое руководство, где подробно разобраны некоторые характерные примеры. Естественно, после добавления таких новых конструкций необходимо выполнить полную переиндексацию.

К сожалению, OmniFind Personal Email Search в наибольшей степени ориентирована на английский язык, хотя поддержка Unicode позволяет работать с любыми символами. Однако следует понимать, что семантика – это совокупность отношений между выражениями естественного языка и миром (реальным или воображаемым). И выражения, описывающие одни и те же концепции на английском, русском или китайском языках, не просто составлены из разных слов – в них существенно различаются правила взаимодействия, по которым формируется смысл сложных конструкций. Соответственно, даже если OmniFind Personal Email Search корректно идентифицирует русский язык, вникнуть в смысл запроса она все равно не сможет. Но, по крайней мере, в нашем распоряжении остаются средства поиска формализуемых объектов (номеров, адресов и пр.).

+11
голос

Напечатать Отправить другу

Читайте также

 
 
IDC
Реклама

  •  Home  •  Рынок  •  ИТ-директор  •  CloudComputing  •  Hard  •  Soft  •  Сети  •  Безопасность  •  Наука  •  IoT