Поисковые инициативы Microsoft
9 декабрь, 2003 - 00:00Александр Москалюк
Во-первых, после скандалов по поводу уклонения от уплаты налогов и нецелевого
использования средств компаниями Enron и WorldComm американское правительство
приняло закон (так называемый Sarbanes-Oxley Act), согласно которому все крупные
корпорации с акционерным капиталом обязаны сохранять сообщения, проходящие через
их серверы. Это означает, что электронная почта, instant messaging-переписка и
т. д. оседают в локальной сети, а поскольку закон предусматривает хранение таких
данных как минимум в течение трех лет, американские компании задумались об инвестициях
в инструменты локального и сетевого поиска.
Во-вторых, к первичному размещению акций готовится Google. Слухи о выходе на биржу
любимца Internet-публики ходили уже давно, и еще в начале октября
нам
стало известно о согласии руководства Google на оценку ее активов в 16 млрд.
долл. Наше издание старается не публиковать непроверенных данных, однако уже к
концу октября информация о предстоящем выпуске акций в свободное обращение попала
в Financial Times и не была опровергнута руководством Google.
В-третьих, небывалый интерес к поисковым технологиям начала проявлять Microsoft.
На конференции
PDC
(Professional Developers Conference) представители компании сообщили, что в процессе
разработки операционной системы нового поколения Longhorn особое внимание будет
уделено поисковым процедурам. К дате запуска Longhorn, которая в календаре Microsoft
приходится на конец 2005 -- начало 2006 гг., пользователи получат доступ к терабайтовым
хранилищам данных на собственном жестком диске, что повысит требования к качеству
поиска, и "собачке" из Windows XP, судя по сообщениям специалистов Microsoft,
придется претерпеть радикальные алгоритмические изменения.
Из редмондского лагеря уже довольно длительное время поступают сообщения о повышении значимости поискового механизма в списке приоритетов корпорации. Вначале она отказалась от услуг LookSmart, поставлявшей на сайты MSN свой Web-каталог. После этого в MSN пообещали уделить разработке нового поискового механизма особое внимание. Затем инсайдеры, близкие к Google, сообщили о якобы полученном от Microsoft неприличном предложении купить всю калифорнийскую компанию за 10 млрд. долл. В последнее время PR-команда Microsoft не забывала мимоходом упомянуть о том, что новая поисковая технология является приоритетом номер один главного софтверного архитектора Билла Гейтса. В рамках PDC компания также объявила о грядущей интеграции Web-поиска в операционную систему.
Какие же поисковые проекты находятся в стадии активной разработки в Microsoft?
MyLifeBits. В последнее время ученые Microsoft Research активно
разрабатывают новые методики поиска информации. О проекте MyLifeBits мы писали
в "Компьютерном Обозрении", # 46, 2002 (
"Жизнь
1.0"). В рамках MyLifeBits исследователи пытаются индексировать громадные
объемы информации (чаще всего исчисляемые десятками и сотнями терабайтов) и предоставить
пользователю удобный и интуитивный интерфейс для поиска текста, изображений, аудио-
и видеороликов.
Implicit Query. Отдел адаптивных систем и интерактивности (Adaptive Systems and Interactive Group) в Microsoft Research на сегодняшний день может похвастаться поисковой технологией, которая предоставит результаты в контексте рабочей сессии пользователя. К примеру, когда на рабочем столе открыто сразу несколько приложений (скажем, Word, Outlook, Internet Explorer и Windows Media Player), то Implicit Query при обработке поискового запроса выдаст текстовые документы, электронную почту, Web-страницы и аудиоссылки на релевантные файлы. Для домашнего пользователя Implicit Query, возможно, покажется чрезмерно функциональной, а вот офисный сотрудник, введя название фирмы клиента, сможет проверить всю электронную корреспонденцию, бухгалтерию и голосовую почту, связанную с ним.
WinFS. Эта надстройка над файловой системой дебютирует в Longhorn. Значительная часть программного кода, по словам разработчиков, позаимствована у команды SQL Server. Параллельная миграция форматов данных в сторону XML обеспечит более детальную структуризацию документов. Например, кроме стандартного поиска по ключевым словам, файловая система даст возможность ограничить поиск по имени автора, времени создания файла и ряду других параметров.
Stuff I've seen. Каждому из нас знакома ситуация, когда мы пытаемся вспомнить интересный URL, который посетили буквально два часа, а теперь он начисто вылетел из головы, хотя вроде бы так легко запоминался. Если места на жестком диске предостаточно (а рассчитывать на дефицит гигабайтов в ближайшее время не советуют даже самые пессимистичные аналитики), то ПО от Microsoft Research будет автоматически сохранять скриншоты рабочего экрана каждый раз, когда запускается новое приложение. После этого вопрос о сайте, который вы посещали вчера в обед, будет решен -- поисковый запрос выдаст на-гора серию скриншотов, сделанных именно в тот отрезок времени.
Memory Landmarks. Как
утверждают
психологи, представители homo sapiens имеют эпизодическую память. Большинство
событий в своей жизни мы связываем с некими запоминающимися эпизодами из политической,
спортивной жизни и т. д. Исследователи Microsoft выяснили, что относительно низкое
число пользователей могли восстановить в памяти детали своей работы за компьютером,
когда им называли дату и время. Вместе с тем при упоминании некоего значительного
события (здесь используется термин landmark) участники опроса внезапно вспоминали
о том, что делали за компьютером в день футбольного матча или сразу же после возвращения
из летнего отпуска. Технология Memory Landmarks от Microsoft Research позволяет
архивировать мультимедиафайлы и текстовые документы с последующей индексацией
через "указатели" на значительные события в жизни пользователя. Сделано
это, в основном, для упрощения доступа к информации и придания поисковому интерфейсу
интуитивности.
AskMSR. Существующие сегодня поисковые технологии предоставляют замечательное
поле для исследований тем, кому важно наличие в документе ключевых слов. В то
же время довольно часто нам приходится искать ответы на вопросы в среде, где поиск
через ключевые слова не приносит определенных результатов. Так,
ученые
из Microsoft Research указывают на тот факт, что запрос "Кто убил президента
Линкольна?" в стандартном Web-поисковике или локальной энциклопедии постарается
найти документы, содержащие термины "Линкольн" и "убить".
Если же редактор Web-страницы или энциклопедии использовал художественный оборот
вроде "Пуля оборвала жизнь Линкольна", то в списке результатов данный
текст может быть оценен как не слишком релевантный. Проект AskMSR (где MSR --
Microsoft Research) делает попытку семантического разбора исходных текстов, после
чего по базе данных можно запускать естественные запросы.
Как видно, работа над поисковыми проектами в рамках Microsoft и научного подразделения MSR (где над ними иногда трудятся не специалисты компании, а профессора и аспиранты американских вузов) не прекращается. Многие из них могут получить "путевку в жизнь" уже в ближайшее время, другим уготован дебют в Longhorn, а некоторые так и останутся интересными идеями без возможности практического применения.