Тьма египетская, или "Александрийский синдром"

Айсберг.COM

Профессия Корсо, главного героя "Клуба Дюма" Переса Реверте, книжного детектива, разыскивающего древние фолианты для богатых коллекционеров, по всей видимости, будет жить вечно. Даже приход Internet и публикация документов в электронной форме не означают заката эры библиофилов. Явление под названием "Deep Web" не даст ей умереть: согласно исследованиям компании BrightPlanet, число "скрытых" (но не секретных или частных) Web-страниц, которые никогда не появятся в результатах поиска большинства крупных сервисов, превышает количество видимых источников в сотни раз. Впервые термин "invisible web" употребила Джилл Иллсворт (Jill Ellsworth) в 1994 г., обозначив им источники, недоступные для обычных поисковых служб.

Согласно некоторым исследованиям, "невидимые" узлы содержат около 500 млрд. документов в сравнении с 1 млрд. индексированных на сегодня в публичной части Internet (по данным NEC). Правда, если брать более поздний отчет Cyveillance, представляющий интерес сам по себе, благодаря разработанной компанией уникальной модели "Internet-в-пробирке", имитирующей развитие глобальной Сети, то здесь упоминается уже цифра 2,5 млрд. По сведениям BrightPlanet, датированным 2000 г., на 60 крупнейших узлах этого "глубоководного мира" хранится 750 ТВ данных. Исходя из оценки количества "скрытых" узлов (от 70 до 200 тыс.) и среднего объема информации, содержащейся на таких сайтах, общее число недоступных большинству пользователей данных по максимальным оценкам достигает 7440 ТВ (18,7 TB на обычных сайтах). Проблема в том, что ссылки на страницы скрытой части WWW практически отсутствуют в видимой Всемирной Паутине или находятся в минимальном количестве.

Почему такое внимание к поисковым серверам? Потому что по статистике более 85% пользователей при необходимости получить какую-либо информацию из Web обращаются именно к ним. Увы, поисковые узлы не оправдывают возложенных на них надежд: уровень удовлетворения пользователей их работой стабильно снижается с 1997 г. Учитывая, что данные NEC Research Institute свидетельствуют о низком проценте индексированных "видимых" сайтов (16% от общего количества), факт существования изолированных участков Internet доводит процент индексируемых узлов до смехотворной величины -- 0,03%.

Что же представляет собой "скрытый" Web? В первую очередь, "невидимым" для поисковых узлов является содержимое онлайновых баз данных. Такой сервер ни за что не отдаст вам своей информации, пока вы не сформулируете точный запрос с применением правильного языка запросов. Индексирующие роботы как программы, не обладающие даже зачатками искусственного интеллекта, пока не в состоянии "опрашивать" такие БД. Далее, к "скрытому" Web следует причислить платные источники информации. Согласно оценкам BrightPlanet, их количество и объем невелики (в процентном соотношении с публичным контентом), однако, как правило, содержимое таких узлов также отличается высоким качеством и информационной насыщенностью. В недрах WWW располагаются корпоративные системы помощи и онлайновых консультаций, требующие участия пользователя для генерирования документов. И наконец, самый что ни на есть невидимый контент -- это закрытая информация, находящаяся в частных сетях, и отфильтрованные (в соответствии с правилами proxy-серверов) страницы.

Ошибкой будет полагать, что проблемы с базами данных не касаются среднестатистического серфера, поскольку информация, находящаяся в БД, является узкоспециализированной. Большинство современных информационных и новостных узлов широкого профиля базируются на механизмах и скриптах, полагающихся на БД как на основное место хранения иллюстраций и материалов. Если на сайте не предусмотрен хорошо организованный статический каталогизатор, едва новость отправляется в архив, она рискует оказаться в "тени".

Рис. 1

Команда Майкла Бергмана (Michael K. Bergman), основателя BrightPlanet, в ходе своих изысканий смогла идентифицировать, ни много ни мало, 12 разновидностей сайтов "скрытого" Web, относящихся к классу онлайновых БД. В списке оказались и классические формы такой организации информации (патентные, медицинские и финансовые системы), и такие вроде бы публичные и обыденные ресурсы, как серверы с объявлениями о поиске работы, чаты, библиотеки, справочники ("белые" и "желтые" страницы) (рис. 1).

Исследуя собранную коллекцию сайтов, специалисты попытались оценить скорость роста "скрытого" Web и качество представленной на его страницах информации. Методика определения "качества" сведений, конечно, является спорной. Вкратце ее суть сводится к составлению запросов по определенным тематикам для обычных поисковых узлов, а потом в подборке подходящих "скрытых" сайтов. Запросы выбирались так, чтобы снизить количество результатов не более чем до 200 ссылок. Высокая избирательность запросов должна была компенсировать низкую избирательность стандартного поискового узла, что, в свою очередь, могло привести к искажениям. В отчете Бергмана говорится о возможно неверной оценке "качества" как абсолютной величины, однако выражается надежда на сохранение баланса между показателями обычного и "невидимого" Web. И это соотношение складывается в пользу последнего (табл. 1).

Одним из наиболее любопытных в отчете Бергмана является решение причислить специализированные поисковые службы к "невидимому" Web. Такие узлы обычно занимаются обслуживанием какой-либо индустрии, например машиностроения или юриспруденции. Наиболее полный, академический, вариант списка вы можете найти на сайте www.leidenuniv.nl/ub/biv/specials.htm, его коммерческий аналог -- на www.finderseeker.com. Индексные базы специализированных поисковых систем включают в себя документы, не фигурирующие в каталогах традиционных служб широкого профиля вследствие более глубокого первичного и более частого повторного индексирования. Проблема этих сервисов -- в ограничениях (продиктованных здравым смыслом) на количество страниц, индексируемых на одном сайте за раз, и фиксированной глубине просмотра гипертекстовой структуры.

Итак, в результате исследований удалось выявить немало интересных особенностей. Так, средняя страница "скрытого" WWW на 27% компактнее своей публичной "соседки", но средний "скрытый" Web-сайт может сообщить вам 74,4 MB сведений. При этом он более популярен, нежели широкодоступный, и его админы насчитывают около 123 тыс. просмотров в месяц (против 85 тыс.). По статистике на "скрытый" Web-сайт приходится около 6200 ссылок в отличие от 3700, приходящихся на обычный узел, однако если взять наиболее типичные "скрытый" и обычный сайты, то здесь перевес будет на стороне последнего (66 против 83 ссылок). Это, как считает Бергман, свидетельствует о высокой популярности, которую приобретают отдельные "скрытые" Web-ресурсы, чьи адреса известны широкой публике. Что ж, среди плевел действительно обнаруживаются зерна.

Какие области знаний представлены в "невидимой" части Web? Практически все и почти равномерно (табл. 2).

Таблица 2. Тематика "скрытых" сайтов, %

Сельское хозяйство	2,7
Искусство	6,6
Бизнес	5,9
Компьютеры/Web	6,9
Образование	4,3
Трудоустройство	4,1
Инженерия	3,1
Государство	3,9
Здоровье	5,5
Гуманитарные дисциплины	13,5
Закон/Политика	3,9
Стиль жизни	4
Новости/Масс-медиа	12,2
Люди, компании	4,9
Отдых, спорт	3,5
Справочники	4,5
Наука, математика	4
Путешествия	3,4
Покупки	3,2

Источник: Майкл Бергман (BrightPlanet)

Рис. 2

Собрав даты регистрации ста обычных и "скрытых" Web-сайтов, специалисты BrightPlanet также пришли к выводу, что популяция узлов, относящихся к последней категории, растет несколько быстрее, причем отставание первых постепенно становится все более явным. Эта методика тоже имеет свои недостатки, и со временем ее выводы будут подвергнуты пересмотру. Если же сравнить рост объемов контента, различие в темпах еще разительнее (рис. 2).

"Я поведу тебя в музей"

Какие последствия влечет за собой рост объемов "скрытого" контента для его создателей (авторов, компаний, информационных служб) и пользователей? Почему это должно нас беспокоить, если тысячи фолиантов пылятся в библиотеках по всему миру и конец века просвещения от этого не наступает? Многие из них не внесены в каталоги, да и соответствующие указатели обычно доступны только ограниченному кругу постоянных зарегистрированных посетителей, а для всего прочего населения земного шара их попросту не существует. С Web мы имеем несколько иную ситуацию. Универсальность и доступность -- вот самое ценное свойство этой системы. Сайты, как правило, служат одной из двух целей: маркетинговой или коммерческой. Создавая свой Web-узел, автор пытается либо получить определенную известность и донести свои сведения до как можно большего количества людей, либо заработать деньги за счет прямой продажи контента и рекламы. Поэтому "невидимый" Web, делают вывод аналитики IDC, в итоге оборачивается потерей денег и ресурсов.

Немудрено, что множество специалистов во всем мире ищут пути разрешения этой проблемы. Есть несколько простых способов не дать развиться "болезни невидимости" на вашем узле. Например, защищенный паролем коммерческий контент обычно попадает в категорию, недоступную для индексирования поисковыми службами, и, следовательно, об этих материалах большинство пользователей не узнают никогда. Чтобы захотеть что-то купить, надо хотя бы знать, что оно существует. Стив Аутинг (Steve Outing) говорит: "Все интересные материалы, способные, по мнению издателей, заставить людей раскошелиться, являются видимыми только для постоянных пользователей их Web-сайтов. Поисковые узлы, специализирующиеся на новостях, которые генерируют существенный трафик для новостных служб, не увидят и не направят своих клиентов к таким материалам".

Аналитик IDC Джеймс Левин (James Lewin) советует последовать примеру платного онлайнового журнала Salon. Его статьи всегда попадают в результаты поиска за счет публикации усеченной бесплатной версии каждого материала. Простой совет: система управления контентом коммерческого сайта должна поддерживать бесплатный онлайновый архив аннотаций.

Новые чудеса света

Таблица

Так кто же они, герои нашего времени? Бергман сотоварищи разыскал и опубликовал список шестидесяти самых-самых больших "скрытых" ресурсов. Здесь мы приведем лишь первую двадцатку. Каждый из этих колоссальных справочников представляет собой невероятный гибрид Александрийской библиотеки (по иронии судьбы сайт Alexandria Digital Library на "почетном" 20-м месте) и авгиевых конюшен -- Всемирная авгиевая Библиотека. Конечно, их "авгиевость" проявляется лишь в глобальном смысле, внутри они являются более чем структурированными и хорошо организованными системами. Но средний пользователь WWW видит лишь непонятную "слипшуюся" массу информации, которую не способен переварить слабый желудок стандартной поисковой службы.

Сделать содержимое баз данных доступным для поисковых роботов можно, создав специально подобранную коллекцию запросов в html-формате. Вероятно, это будут самые популярные среди посетителей поисковые термины или тщательно отобранные запросы, позволяющие охватить максимальную долю контента. Хотя, учитывая динамичность WWW, попытка искоренить явление "невидимого" Web с помощью публикации типичных запросов на статических Web-страницах, по меньшей мере, наивна.

А что делается для нас, рядовых пользователей? Существуют системы, которые пытаются ликвидировать "белые пятна" на карте Internet. Среди них InvisibleWeb и BigHub. Однако лидер среди первооткрывателей -- CompletePlanet авторства BrightPlanet. Компания также предлагает несколько корпоративных продуктов для инсталляции на серверах предприятия. Пакет DeepWebDirectory прежде всего предназначен для организации поисковой службы внутри корпоративной сети, инсталлируется на серверах предприятия и оплачивается в зависимости от сложности структуры полученного каталога. DeepQueryManager (DQM) -- это своего рода средство метапоиска: DQM обеспечивает поиск по 55 тыс. категоризированным "невидимым" сайтам, позволяет применять изощренные методики сортировки и фильтрации результатов, помогает сохранить и упорядочить найденные документы.

Программисты BrightPlanet также создали индивидуальное средство поиска в онлайновых базах данных. Программа LexiBot транслирует любые запросы с использованием стандартной для подобных ситуаций булевой логики на языки сотен локальных поисковых систем (на текущий момент 4300). Найденные документы загружаются и обрабатываются поисковым механизмом LexiBot, что снижает зависимость от возможностей и особенностей конкретных поисковых узлов и должно повышать качество генерируемого списка результатов. Утилита имеет встроенные функции аннотирования, хранения и рассылки собранных ссылок и документов.

Достоинства LexiBot есть следствие ее недостатков. Почему традиционные известные поисковые службы не предлагают метапоиска и фильтров документов, отсекающих хотя бы пресловутые Dead Links? Потому что время реакции онлайновой системы должно быть минимальным, обслуживание серферов подобно бизнесу фаст-фуда: чем больше и быстрее, тем лучше. Однако сегодня BrightPlanet готова на все, чтобы популяризировать свои разработки. Плодом усилий стал сайт CompletePlanet, предоставляющий Web-интерфейс к поисковому движку. Это еще не полноценный поиск, но уже попытка приблизиться к нему: в ответ на запрос служба генерирует список подходящих онлайновых локальных поисковых систем. Фактически сайт является гигантским каталогом "скрытого" WWW, насчитывающим к настоящему моменту около 103 тыс. ссылок.

Подведем итоги: пока действенного "лекарства" от "невидимости" не найдено. Все вышеперечисленные сервисы и публичные каталоги не решают проблемы доступа к терабайтам информации, скрывающейся на множестве неиндексируемых сайтов WWW. И положение все ухудшается: некоторые авторы говорят о недавно появившейся новой категории так называемых "серых" сайтов, функционирующих на основе динамических движков управления контентом. Поисковые службы обычно избегают глубокого индексирования "серых" сайтов, поскольку существует очень большая вероятность циклического повторного просмотра одной и той же страницы в различных ипостасях и по разным адресам.

Пожалуй, единственным очевидным выходом на сегодня может быть создание нового стандарта на файлы robots.txt, информирующие поисковых роботов об особенностях индексирования конкретного сайта. В эти файлы можно внести и синтаксис, тематику и нюансы организационной структуры, использующейся БД или системы управления контентом. Таким образом, робот сможет проиндексировать их содержимое и сформировать пул ссылок-запросов, эквивалентных Web-страницам статического WWW. Правда, в любом случае -- это дело относительно далекой перспективы.

Стратегія охолодження ЦОД для епохи AI