Поиск информации в Internet

В рамках публикации архивных материалов предлагаем вашему вниманию статью из № 17-18 (187) «Компьютерного Обозрения» от 10 мая 1999 г. Что нужно было знать про веб-поиск в догугловскую эпоху?

Что мы вкладываем в понятие Internet? Наверное, сколько людей, столько и мнений, причем нередко совершенно полярных: от «кладезя знаний» до «гигантского мусоросборника». Однако все сходятся в одном: Internet — это огромный источник самой разнообразной информации. «Идея состояла в том, чтобы каждый мог не только извлекать знания из Сети, но и вкладывать их», — говорит Тим Бернерс-Ли, изобретатель World Wide Web. Стихия! С пуританской точки зрения, в Internet каждый второй — хакер/крэкер/спамер, каждый третий — сексуальный маньяк, все прочие — бездельники и тунеядцы. Как здесь отделить зерна от плевел? Что делать, если нам от Internet действительно что-то нужно?

Всякий «чайник» знает, что добраться до интересной информации в Internet можно двумя путями: либо от кого-то узнать, где она находится, либо найти ее самостоятельно. С первым вариантом все более или менее понятно — читаете Web-навигатор, делитесь друг с другом полезными ссылками и т.д. Со временем наберется некоторое количество действительно полезных Web-узлов.

Необходимость во втором варианте возникает, когда понадобится что-то непривычное или более конкретное. Несмотря на расхожее мнение «да чего там искать, AltaVista все сделает», хочу сразу предупредить, что квалифицированный поиск в Internet — дело довольно непростое. Впрочем, есть в предыдущей сентенции и нечто позитивное: поиском в Internet действительно занимаются онлайновые службы вроде AltaVista.

ИНТЕРАКТИВНЫЕ ПОИСКОВЫЕ СЛУЖБЫ

Поисковые службы различаются и по количественным (охват, глубина поиска), и по качественным (возможность использования формальных логических запросов, фильтрация результата) характеристикам. Условно их можно разделить на собственно «поисковики» (поисковые машины) и каталоги (директории, рубрикаторы).

Первые «прочесывают» пространство IP-адресов с помощью специальных программ, называемых «пауками» (spider) или роботами, и индексируют найденные страницы. К самым мощным и популярным поисковым машинам обычно относят AltaVista (www.altavista.com), HotBot (www.hot-bot.com) и Northern Lite (www.nlsearch.com), из русскоязычных — Яndex (www.yandex.ru) и Rambler (www.rambler.ru).

Каталоги работают совершенно иначе: новые Web-узлы изучаются экспертами и относятся к соответствующим тематическим категориям. Многие каталоги также обеспечивают поиск в своей базе данных. В качестве примера можно привести Yahoo! (www.yahoo.com) и русскоязычный «Ау!» (www.au.ru).

На самом деле любая поисковая служба представляет собой довольно сложный программно-аппаратный комплекс. Например, AltaVista реализована в виде распределенной вычислительной системы из более чем двадцати компьютеров (естественно не персональных), на которых выполняется специализированное программное обеспечение. Подсистема обработки запросов состоит из шестнадцати 12-процессорных AlphaServer 8400 5/440 с 8 GB RAM и 300 GB RAID-массивом каждый; робот выглядит несколько скромнее: AlphaServer 4100 5/300 с 1,5 GB RAM и 30 GB RAID-массивом.

Подавляющее большинство поисковых служб предоставляют свои услуги совершенно бесплатно. На самом деле это не более удивительно, чем бесплатная раздача компьютеров: затраты компенсируются рекламой, проводятся социологические исследования и т.д. Та же AltaVista недавно собралась взимать плату с компаний за то, что их Web-узлы будут указываться вверху списка найденных ссылок. Социологические исследования могут оказаться еще более полезными, хотя их редко афишируют. Например, на Rndex действует НИНИ-индекс (Непостоянство Интересов Населения Интернет). Как оказалось (к сожалению, уже после известных событий), за неделю (!) до российского кризиса наблюдался резкий скачок интереса к словам «курс» и «банк», который перекрыл даже традиционных лидеров «секс» и «реферат» (http://yandex.ru/skazka11.html).

ИСТОКИ ПРОБЛЕМЫ

Давайте познакомимся с некоторыми статистическими данными. В 1998 г. общее число Web-страниц, известных поисковым службам (реальный размер Web должен быть гораздо больше), оценивалось в пределах от 200 до 320 млн. Подобный разброс оценок очень показателен — на самом деле достоверных данных об Internet нет и быть, по-видимому, не может, все оценки получаются косвенным путем. Считается, что каждые 6–12 месяцев размер Internet удваивается. При этом ни одна из 2500 (!) поисковых Internet-служб не обладает информацией даже о трети страниц в Internet, а многие ограничиваются всего лишь несколькими процентами. В среднем около 5% полученных ссылок оказываются устаревшими, еще больше — нерелевантными (т. е. практически не соответствующими теме запроса); чем больше Web-узлов покрывает поисковая машина, тем выше доля ложных ссылок, которая в некоторых случаях может достигать даже 10%.

Согласно той же статистике, результаты самых известных поисковых служб, как правило, пересекаются не более чем на 18%. Отчасти это объясняется различными алгоритмами исследования Internet, в первую очередь, компромиссом между качеством и скоростью обработки каждой Web-стра-ницы. Одни поисковые службы относятся к полнотекстовым: они ищут ключевые слова и в заголовке, и метатэгах, и в теле страницы; другие ограничиваются только заголовком и метатэгами. То же самое относится и к «глубине» исследования узлов: одни обрабатывают только заглавную страницу, другие — все ссылки до определенного уровня, третьи — Web-узел целиком. Кроме того, некоторые службы имеют специализацию (явную или неявную) и уделяют большее внимание узлам, посвященным определенной теме. Одним словом, такая общецелевая поисковая служба, как AltaVista, далеко не всегда оказывается самым удачным средством для поиска какой-то конкретной, особенно узкоспециализированной информации.

Выход один: одновременно задействовать несколько поисковых служб. По результатам недавних исследований, использование шести служб увеличивает эффективность поиска в три с половиной раза. Впрочем, идея эта не так уж нова. В Internet достаточно давно функционируют так называемые метапоисковые службы, например MetaCrawler (http://www.go2net.com/search.html), которая не имеет собственной базы данных, а просто передает запросы нескольким настоящим поисковым службам (в том числе, Lycos, Infoseek, WebCrawler, Excite, AltaVista, Looksmart, Yahoo!) и после систематизирует все найденные ссылки.

ПО-РУССКИ

Отдельного разговора заслуживает тема поиска русскоязычных ресурсов. Во-первых, у нас используются несколько кодировок, и далеко не всегда страницы полностью дублируются. Некоторые русскоязычные службы ищут информацию сразу во всех кодировках, с остальными придется возиться самостоятельно. Многие зарубежные поисковые службы напрочь не понимают русского языка, и пользоваться ими просто бессмысленно, в лучшую сторону отличается AltaVista, которая даже позволяет выбирать нужную кодировку.

Другая большая проблема связана с особенностями русского словообразования: для большинства поисковых машин «игра» и «игры» — разные вещи, а общее число словоформ может быть довольно большим. Возможность поиска по подстроке (когда в качестве ключевого слова указывается «игр*») также не панацея: во-первых, наверняка такая подстрока найдется и в совершенно посторонних словах (например, «игрек»), во-вторых, все равно выпадают слова вроде «игорный». Лучшие русскоязычные службы умеют искать не просто ключевые слова, а все их словоформы. Вообще, наши поисковые службы — одни из самых интеллектуальных. Например, система «Апорт» (www.aport.ru) умеет даже переводить аннотации найденных страниц на русский язык.

Дополнительные нюансы относятся к нашим «национальным особенностям». Во-первых, мы вступили в эру Internet с некоторым опозданием и сейчас переживаем своеобразный этап «бурного роста». Одни узлы возникают, другие пропадают, третьи переезжают от провайдера к провайдеру и т.д. Вряд ли где-то будет больше некорректных ссылок, чем в доменах .ru, .ua, .su.

Кроме того, русскоязычные поисковые машины большее внимание уделяют отечественным узлам, а зарубежные — наоборот. Поэтому результаты, полученные с помощью Rambler или AltaVista, могут почти полностью не совпадать.

ПРОГРАММНОЕ ОБЕСПЕЧЕНИЕ

В конечном счете, любой поиск упирается во время. Например, если вы ищете некую информацию о компьютерах, можно использовать запрос с одним ключевым словом «computer» и получить на AltaVista более 50 млн ссылок. Наверняка среди них есть и нужные вам, вот только найти их проблематично. В Internet тезис «время — деньги» зачастую приобретает вполне конкретный смысл, особенно учитывая практикуемую у нас почасовую оплату за онлайновые услуги. Вездесущие статистики подсчитали, что при поиске информации в Internet (при достаточно хорошем соединении) на каждую найденную ссылку затрачивается от 0,5 до 3 мин. Правда, бытует мнение, что большинство Internet-«искателей» просматривают не более десяти первых ссылок, но это совершенно порочная практика: неизвестно, по каким признакам поисковые службы их ранжируют. На самом деле собственно поиск информации времени практически не отнимает, например, AltaVista для обработки вашего запроса достаточно 0,3 с. Гораздо продолжительней процедуры передачи запроса/получения результата, выгрузки найденных страниц и ознакомления с ними, которые, к тому же, зависят от качества канала связи.

Естественно, существует довольно много «хороших и разных» средств ускорения Internet-поиска. Самые элементарные можно найти даже в популярных броузерах. В Internet Explorer, к примеру, встроено средство, обеспечивающее передачу запроса выбранной поисковой службе, без необходимости предварительного посещения ее страницы. Многие службы предлагают собственные дополнения (обычно в виде панелей) к броузерам с похожими функциями, например, с помощью нехитрой процедуры (www.go2net.com/tools/iedefault) стандартным поисковым средством в Internet Explorer можно сделать MetaCrawler.

Однако наибольшие преимущества сулит «настоящее» программное обеспечение — поисковые агенты, или клиенты. На первый взгляд, такие программы похожи на обычные метапоисковые службы: созданный запрос одновременно передается нескольким поисковым машинам, а результаты сводятся воедино и сортируются. Однако даже после недолгого знакомства обнаруживается масса дополнительных удобств:

♦ опрос большого числа поисковых служб, от нескольких десятков до сотен, разбитых на категории;

♦ гибкое управление передачей запроса с указанием максимального времени ожидания ответа, числа одновременно устанавливаемых соединений и т.д.;

♦ возможность сохранения результатов поиска с последующей обработкой или обновлением;

♦ проверка доступности найденных ссылок и загрузка страниц для автономного изучения;

♦ возможность дополнительной проверки найденных документов (так называемая «очистка» — refine).

Самое приятное, что все это выполняется автоматически, для обработки ссылок/документов запускается сразу несколько процессов, за счет этого оптимально используется Internet-канал, и временные затраты существенно снижаются.

Решившись воспользоваться одним из поисковых агентов, вы будете приятно удивлены количеством подобных программ. Загляните хотя бы на www.download.com, их там десятки. Почти все программы относятся к бесплатным и условно-бесплатным, и выбрать одну из них непросто.

Большинство бесплатных программ, например WebFerret от FerretSoft (www.ferretsoft.com), мало чем отличаются от обычных метапоисковых служб. «Белой вороной» на их фоне выглядит Copernic 99 (www.copernic.com). Эта программа обладает современным, достаточно интуитивным, удобным и настраиваемым интерфейсом, работает более чем с двадцатью поисковыми службами, разбитыми на четыре категории, и обеспечивает необходимые средства для обработки найденных ссылок: проверку доступности, загрузку страниц, «очистку». Дублирующиеся ссылки отбрасываются, остальные упорядочиваются по уровню релевантности. Для каждой найденной ссылки приводятся список обнаруживших ее служб, выдержки из страницы с подсветкой ключевых слов и многое другое.

Обновление приложений через Internet давно уже перестало быть диковинкой, однако для поисковых агентов это особенно актуально: онлайновые службы нередко меняют форматы запроса и отчета с результатами. В Copernic 99 эта функция отработана до тонкостей. Обновления проверяются регулярно, необходимые данные загружаются и инсталлируются автоматически, пользователь оповещается о новых версиях программы.

Правда, есть и кое-какие недостатки. Во время обработки запроса появляется дополнительная панель с рекламными баннерами, отключить которую, естественно, нельзя (традиционная для Internet форма «бесплатности»). Кроме того, информация о поисковых машинах может добавляться только разработчиком, который напрочь игнорирует русскоязычные службы. Тем не менее запрос на русском языке будет обработан, но для поиска информации в разных кодировках придется немного попотеть.

Для более требовательных пользователей имеется условно-бесплатная версия Copernic 99 Plus, отличающаяся, в основном, количеством известных поисковых служб (125 в 21 категории) и возможностью отключения рекламы.

Если говорить об условнобесплатных программах, то в среднем они мало чем отличаются от бесплатных. Однако встречаются среди них и действительно интересные. Copernic использует довольно простой механизм поиска: полученные от онлайновых служб результаты сводятся воедино и сортируются. Информация о найденных ссылках получается непосредственно от поисковой машины, и нет никакой гарантии, что она будет актуальной и релевантной. Иначе работает программа SSSpider (Subject Search Spider), которую разработчики (www.kryltech.com) относят к поисковым агентам второго поколения:

♦ результаты, полученные от поисковых служб, сразу проверяются на доступность, некорректные и дублирующиеся ссылки удаляются;

♦ затем программа с помощью специального алгоритма еще раз проверяет присутствие на найденных страницах ключевых слов/фраз и готовит отчет на основе актуальной информации.

SSSpider знает 26 языков, в том числе и русский. Кроме того, программа позволяет пользователю самостоятельно подключать дополнительные поисковые службы, хотя это и не очень простое дело.

Все описанные до сих пор программы могут обрабатывать только простые запросы. Обычно можно искать все ключевые слова, любое из них или фразу целиком. Профессионалы Internet-поиска, тем не менее, рекомендуют применять формальные запросы, т.е. составленные с помощью логических (булевых) операторов. Однако синтаксис таких запросов не стандартизован и различен для многих служб. Одна из редких (а может, и единственная) программ, обеспечивающих работу с формальными запросами, — Mata Hari (www.the webto-ols.com). Размеченный с помощьюлоги-ческих операторов, скобок и кавычек запрос может быть передан на любые из 140 поддерживаемых поисковых служб. Если какая-то из них не понимает формальных запросов, ей направляется обычный, а логическая обработка производится локально. В целом, Mata Hari действует аналогично SSSpider: автоматически загружает найденные страницы и дополнительно проверяет их актуальность и релевантность. Главный недостаток этой программы — полное непонимание русского языка. Вы даже не сможете ввести запрос, а если как-то исхитритесь, программа просто зависнет. Тем не менее этот поисковый агент наверняка заинтересует профессионалов своими интеллектуальными возможностями и обширной статистикой о результатах поиска.

ДОПОЛНИТЕЛЬНЫЕ СРЕДСТВА

Приведу простой пример: вы нашли ссылку на очень интересную статью, но по указанному адресу ее уже нет. Хорошо, если на этом Web-узле предусмотрен локальный поиск, а если нет? В этом случае помогут программы вроде SSSiter (Subject Search Siter) от Kryloff Technology (www.kryltech.com),которая ищет на Web-узле документы с указанными ключевыми словами, может построить карту узла и, в целом, похожа на автономный броузер.

Очень удобно, что эта программа умеет работать со множеством языков, в том числе и с русским в кодировках Windows и KOI8-R.

Оказывается, мысли о «тесной» интеграции Web с локальным компьютером витают не только в голове Microsoft. Формы такой интеграции могут быть самыми разнообразными. Например, бесплатная программа AltaVista Discovery, кроме традиционного интерфейса к своей поисковой машине, предлагает также возможность индексирования файлов (различных форматов, в том числе и Microsoft Word) на локальном компьютере и указанных Web-узлах. Это обеспечивает действительно «глобальный» поиск информации.

ОБЩИЕ РЕКОМЕНДАЦИИ

На самом деле «правильного» способа поиска информации в Internet нет. В большой мере это зависит от индивидуальных вкусов, привычек и т.д. Тем не менее можно сформулировать несколько правил, достаточно очевидных, но приходящих, как правило, с опытом:

♦ естественно, нужно задействовать несколько поисковых служб одновременно, с помощью специального агента или метапоискового сервера;

♦ лучше использовать логические запросы, но в любом случае нужно двигаться «от сложного к простому», т.е. изначально указывать больше ключевых слов, а при необходимости сокращать их число за счет наименее важных;

♦ при поиске русскоязычных ресурсов нельзя ограничиваться только отечественными или только «импортными» службами: дело в том, что охватываемые ими сегменты Internet пересекаются очень незначительно. Не забывайте также искать информацию в разных кодировках — это, в первую очередь, относится к иностранным серверам. Достаточно менять кодировки прямо в окне броузера и повторять запросы;

♦ получив результат, всегда выполняйте проверку ссылок и «очистку», если ваш агент (или другое средство) не делает этого самостоятельно;

♦ не теряйте зря времени: открывайте найденные страницы в отдельных окнах броузера — пока вы читаете одну, остальные будут загружаться. В некоторых случаях имеет смысл загрузить все найденные страницы и работать с ними в автономном режиме;

♦ если какая-то поисковая машина выдает больше релевантных ссылок, чем остальные, имеет смысл поработать с ней непосредственно. Возможно, она поддерживает формальные запросы и другие интеллектуальные функции.

Ready, set, buy! Посібник для початківців - як придбати Copilot для Microsoft 365