`

СПЕЦИАЛЬНЫЕ
ПАРТНЕРЫ
ПРОЕКТА

Архив номеров

Как изменилось финансирование ИТ-направления в вашей организации?

Best CIO

Определение наиболее профессиональных ИТ-управленцев, лидеров и экспертов в своих отраслях

Человек года

Кто внес наибольший вклад в развитие украинского ИТ-рынка.

Продукт года

Награды «Продукт года» еженедельника «Компьютерное обозрение» за наиболее выдающиеся ИТ-товары

 

Блиц-опрос. Поисковые машины: лучше, быстрее, точнее?

0 
 

Джессика Келлер (Jessica Keller)
специалист по связям с прессой агентства Waggener Edstrom,
PR-представителя Microsoft

Если говорить об общих тенденциях последних двух лет в мире поисковых машин, в первую очередь стоит упомянуть о появлении возможности поиска по заголовкам новостей и их текстовому содержанию.

Что касается удобства, здесь можно отметить коррекцию орфографии и подсказки с целью сужения поиска по конкретным темам, когда в запросе присутствуют термины, приобретающие разные значения в зависимости от контекста.

Немало функций, упрощающих поиск в Internet, компания Microsoft интегрировала в броузер Internet Explorer. К таким относятся автопоиск, помощь в навигации и панель для быстрого поиска. Для повышения релевантности мы пользуемся услугами группы редакторов, которые самостоятельно отбирают качественные сайты для каталога.


Дэвид Крейн (David Krane)
директор департамента PR компании Google

За последние два года наша компания провела большой объем интересной инновационной работы в области Web-поиска.

Так, например, сегодня Google индексирует 4 млрд. документов, что не сравнимо с показателями двухлетней давности. Увеличен не только объем, но и частота индексации, которая сейчас исчисляется миллионами страниц ежедневно.

Кроме этого, интересно наблюдать за тем, как технологии Web-поиска постепенно перетекают в технологии для Internet-рекламы. Это происходит и в Google, так как мы стараемся сделать рекламу своих клиентов максимально оперативной, целенаправленной и действенной.

Две основные задачи наших программистов -- это релевантность результатов и удобство поиска. За последние два года мы подретушировали Web-интерфейс поисковика (добавили ссылки на поиск иллюстраций, новостей, конференций Usenet и каталога). Алгоритмы для определения релевантности находятся в состоянии постоянного обновления -- ежемесячно мы внедряем несколько новых механизмов, призванных улучшить качество поиска.


Дарси Маллин (Darcy Mullin)
специалист по связям с прессой Dotted Line Communications,
PR-представителя компании Ask Jeeves

Самая интересная новая технология в области Web-поиска -- это возможность анализа Web-сообществ. Мы пытаемся рассматривать Всемирную Паутину как группу сообществ и таким образом определять релевантность поиска. Честно говоря, с момента выхода на арену Google никаких серьезных подвижек в мире Web-поиска не произошло.

Мы стараемся угадать мотивацию пользователя, стремимся повысить эффективность и интуитивность поисковой машины.

Так, сегодня вместо стандартного поиска по ключевым словам многие поисковики пытаются найти именно нужную информацию. Зайдите, например, на Ask.com и задайте вопрос "The date of Mother's Day" -- вы получите дату этого праздника, спросите "What time is it?" -- и вам скажут, который сейчас час, сделайте запрос "Zip code for Danville, CA" -- и Ask.com выдаст почтовый индекс этого города.


Илья Сегалович
технический директор "Яндекс"

Последние два года для нас были весьма плодотворными.

В сентябре 2001 г. мы запустили в поисковой части портала "Яндекс-Энциклопедии" (на данный момент 250 тыс. статей, 270 посетителей в неделю), в декабре того же года обновили клиентскую программу поиска "Яндекс-Бар", что дало возможность обмена информацией с "Яндексом" в реальном времени (сейчас ею пользуется 230 тыс. человек в день). В апреле 2002 г. мы кардинально изменили дизайн поисковой выдачи, а в июне открыли поиск изображений "Яндекс.Картинки", который стал крупнейшей базой русскоязычного поиска в своей категории (34 млн. картинок в базе, 900 тыс. пользователей в неделю). Мы также переработали "Яндекс.Каталог" -- вторая версия содержит новое представление классификации Рунета (вышла в июле 2002 г., и сейчас ее посещают 1,7 млн. человек в неделю). "Яндекс" был первым из русских поисковиков, который начал индексировать документы не-Web-форматов. Так, в феврале этого года мы добавили поиск по форматам .rtf и .pdf, а в июне --.doc.

Серьезной общемировой проблемой Internet-поиска является сложность эффективного выявления очень похожих документов, так называемых "почти-дубликатов". Для ее решения в первой половине 2002 г. мы внедрили процедуру чистки базы на основе оригинального алгоритма, который регулярно сокращает размеры индекса на 15--20%. Этот механизм позволил существенно повысить качество поиска, выявления спама и т. д.

Вторым по важности направлением после поиска для нас является почтовая служба. Так, за последние два года мы включили тотальную проверку электронных сообщений антивирусом (октябрь 2001 г.); с помощью алгоритмов, заимствованных из поисковых технологий, начали эффективно фильтровать массовые рассылки (август 2002 г.); предложили возможность отключения рекламы (январь 2003 г.); повысили эффективность спам-фильтрации (апрель 2003 г.).

Особо хотелось бы отметить сложный проект, потребовавший от нас интенсивного процесса алгоритмической разработки, -- вторая версия "Яндекс-Новостей". Сейчас этот раздел посещает 750 тыс. человек в неделю, и мы считаем, что потенциал для дальнейшего роста велик. В целом это уникальный проект для Рунета, который полностью автоматически объединяет сюжеты, ранжирует и аннотирует сообщения 150 русскоязычных Internet-СМИ. В ходе его создания были использованы оригинальные методы социального анализа: учет интересов пользователей поисковой системы, учет текстуальной близости индивидуальных сообщений и даже близости Internet-изданий.

В секции электронной коммерции мы модернизировали экспертную систему "Яндекс-Гуру" (сентябрь 2001 г.), совместно с PayCash запустили систему цифровой наличности "Яндекс-Деньги" (июль 2002 г.), первыми в России получили лицензию Центробанка на предоплаченные финансовые продукты (ноябрь 2002 г.) и, наконец, соединили "Яндекс-Товары" и "Яндекс-Гуру" в единый проект "Яндекс-Маркет" (декабрь 2002 г.), который сейчас насчитывает 500 тыс. посетителей в неделю.

Если говорить о других проектах, то, не считая проведения уникальных в своем роде соревнований-кубков по поиску, мы открыли лицензию на использование нашей идеи (июль 2003 г.), внедрили вторую версию словаря "Яндекс-Лингво" (сентябрь 2002 г., 135 тыс. пользователей в неделю), а также "Яндекс-Игрушки" (апрель 2002 г., сейчас 200 тыс. посетителей в неделю).

Кроме того, портал отметил несколько важных вех: мы перешли границу в терабайт проиндексированных текстов (март 2002 г.), отсудили у "Адвокатуры.Ру" домен yandex.com (июнь 2002 г.), отметили пятилетие своего запуска (сентябрь 2002 г.), вышли на самоокупаемость (ноябрь 2002 г.), обработали 150 млн. запросов в месяц (май 2003 г.).


Алексей Чуксин
директор по маркетингу и рекламе компании "МЕТА"

В 2001 г. нами было разработано новое программное ядро поисковой системы, основным достоинством которого стал координатный индекс, учитывающий взаимное расположение слов в документе при поиске, что позволяет более точно находить не просто отдельные слова, а и словосочетания. Кроме этого, появилась возможность группировки результатов поиска по серверам, реконструкции содержания документов непосредственно на нашем сервере; расширен язык запросов. Новое ядро стало базой для создания целой линейки продуктов: корпоративной поисковой системы, поисковой системы для сайтов, CD, ПК и локальных сетей.

За последние два года у нас появилась возможность полнотекстового поиска по заданным регионам Украины, новостям, справочнику "Бизнес-Украина", нескольким электронным магазинам. "МЕТА" научилась понимать новые форматы документов, такие, как .doc, .xls, .rtf, .zip, .rar и т. п. Сейчас эти возможности доступны только нашим корпоративным клиентам, но в текущем году они будут внедрены и на "большом" поисковом портале.

В дополнение к используемым в системе словарным морфологическим анализаторам были разработаны модули "вероятностной морфологии" для украинского, русского и английского языков. Они позволяют с очень высокой точностью склонять "несловарные" слова (фамилии, аббревиатуры, неологизмы и т. п.).

За истекший период количество запросов к системе увеличилось в пять раз, в то время как поисковый индекс вырос почти в десять раз. Чтобы успевать за таким ростом, приходится постоянно развивать программную часть и наращивать аппаратные мощности. Так, например, летом этого года "МЕТА" перешла на кластерную технологию, в результате чего поисковый индекс был разнесен на несколько компьютеров -- это позволило существенно повысить производительность системы и сократить время полного обновления индекса примерно до одного месяца.

Основные шаги, предпринимаемые нами сейчас в целях повышения качества поиска, заключаются в учете взаимной "ссылаемости", тематической принадлежности сайтов и борьбе с поисковым спамом.
0 
 

Напечатать Отправить другу

Читайте также

 
 
IDC
Реклама

  •  Home  •  Рынок  •  ИТ-директор  •  CloudComputing  •  Hard  •  Soft  •  Сети  •  Безопасность  •  Наука  •  IoT