`

СПЕЦИАЛЬНЫЕ
ПАРТНЕРЫ
ПРОЕКТА

Архив номеров

BEST CIO

Определение наиболее профессиональных ИТ-управленцев, лидеров и экспертов в своих отраслях

Человек года

Кто внес наибольший вклад в развитие украинского ИТ-рынка.

Продукт года

Награды «Продукт года» еженедельника «Компьютерное обозрение» за наиболее выдающиеся ИТ-товары

 

Виталий Кобальчинский

Период полураспада ссылок в Сети – 15 лет

+88
голосов

Интернет задумывался его пионерами как среда мгновенного и свободного доступа ко всей информации, накопленной человеческой цивилизацией. Реальная Сеть оказалась далека от этого идеала: содержимое, представляющее какой-либо интерес, всё труднее найти за пределами подписных сервисов, охраняемых зубастыми юристами. Но даже та информация, что вроде бы общедоступна онлайн, остаётся таковой ненадолго.

Гиперссылки это мощный инструмент в научных исследованиях и журналистике. Они позволяют бороться с недостоверной или фальсифицированной информацией, предоставляя гиперссылки на первоисточники цитируемых фактов или высказываний.

URL-адресами управляют хостинг-провайдеры. Когда они, преднамеренно или нет,  удаляют содержимое веб-ресурса, читатели натыкаются на сообщение о недоступности веб-сайта. Это, обычно, необратимое разложение веб-контента и называют термином линкрот (link rot – протухание ссылок). Родственная линкроту проблема дрейфа контента (content drift) подразумевает замену, модификацию или удаление  (в большинстве случаев без какого-либо предупреждения) содержимого по определённому URL-адресу.

Целью получить количественное представление о скорости, с которой «протухает» Интернет, задалась группа исследователей из Гарвардской юридической школы в совместном проекте с New York Times, этим признанным «законодателем мод» в цифровой журналистике, обладающим отлаженной процедурой архивирования контента.

Период полураспада ссылок в Сети – 15 лет

Этой работой было охвачено 553 693 статей, размещённых на ресурсе nytimes.com со времени его открытия в 1996 году и по середину 2019 года. Эти статьи содержали в общей сложности  2 283 445 гиперссылок на контент за пределами nytimes.com. Семьдесят два процента из них были «глубокими ссылками», ведущими к определённой странице, например example.com/article, (в отличие от корневого адреса example.com).

Для измерения линкрота был написан скрипт, автоматизировавший посещение каждого из уникальных «глубоких» URL-адресов в анализируемом наборе данных и регистрацию кодов HTTP-ответов, перенаправлений и тайм-аутов сервера. На основе этого каждая ссылка помечалась как «испорченная» (удаленная или недоступная), либо «неповрежденная» (возвращающая нормальную страницу).

Анализ показал, что 25% массива глубоких ссылок оказались полностью недоступны. Также была продемонстрирована прямая зависимость вероятности линкрота от давности: протухло 6% ссылок за 2018, 43% за 2008 и 72% за 1998 г. Из статей с глубокими ссылками, свыше половины (53%) содержали хотя бы одну, ведущую на более не существующий контент.

Некоторые разделы Times были более подвержены линкроту, чем другие. Например, спортивные ссылки демонстрируют относительную скорость разложения (Relative Rot Rate) примерно 36%, а в разделе «Итоги» (Upshot) – всего 13%. Исследователи объясняют это в первую очередь тем, что средний возраст ссылок Upshot гораздо меньше и составляет 1450 дней, тогда как в Sport это 3196 дней.

Озабоченность авторов исследование вызвал и тот факт, что глубокие ссылки на такие домены, как .gov или .edu, показывают относительно более высокий уровень разложения. Например, ссылки на Белый Дом (whitehouse.gov) при каждой новой администрации кардинально меняются как по содержанию, так и по структуре.

Разумеется, наличие по указанному адресу работающей страницы ещё не даёт гарантии, что изначальный контент там не был заменён на информацию, не имеющую с ним ничего общего, либо вводящую в заблуждение.

Для оценки дрейфа контента исследователи вручную проверили наполнение 4500 страниц, выбранных случайным образом из массива URL, обозначенных скриптом как неповрежденные. Было установлено, что 13% URL из этой выборки существенно «сдрейфовали» с тех пор как Times опубликовал их. При этом, в статьях за 2019 г. дрейф обнаружен в 4% работающих ссылок, по сравнению с 25% в 2009 г.

Приводимые исследователями результаты, – отнюдь не камень в огород New York Times, скорее всего общая ситуация в современном онлайновом цитировании является ещё более удручающей.

Цифровая журналистика значительно выросла за последнее десятилетие, став важной частью творения истории. Подрыв доверия к ней фундаментальной нестабильностью Интернета указывает на необходимость новых практик, рабочих процессов и технологий.

Хорошим подспорьем в исправлении ущерба от линкрота и дрейфа контента могут стать службы веб-кэширования, такие как Internet Archive, хранящие впечатляющую, пусть и далеко не полную коллекцию моментальных снимков веб-сайтов. Следует улучшать видимость подобных веб-архивов как инструмента для читателей или даже автоматически перенаправлять на архивы неработающие ссылки, как это делает сообщество Википедии.

Инструментальная среда цифровой публикации должна предоставлять журналисту выбор, вставлять ли динамическую ссылку – с риском линкрота и дрейфа контента, но с возможностью расширенного изучения темы, или ограничиться замороженным фрагментом архивного материала, демонстрирующего только то, что подразумевал автор на момент публикации. Новые технические инструменты оптимизации такого усложнившегося процесса, смогут предоставить авторам максимальный контроль над тем, как их творения взаимодействуют с другим веб-контентом, сделать обеспечение сохранности ссылок интегральной частью цифровой журналистики.

По мнению авторов исследования, реализация действенной стратегии невозможна без более плотного и широкого взаимодействия библиотек, специалистов в информационной сфере и цифровых сервисов публикации новостей, и, в конечном итоге, без автоматизированных средств надёжного обнаружению линкрота и дрейфа контента.

Вы можете подписаться на нашу страницу в LinkedIn!

+88
голосов

Напечатать Отправить другу

Читайте также

Хах!!! Ну и новость.
Посмотрите на корпоративные порталы, они меняются раз в пятилетку, теряя тапки.

Самое сохраненное, ИМХО, наследие SunMicroosystems, где можно продраться до залежей древнейшей документации по Солярису из 90х.
Оно конечно не актуально на сегодня, но сам факт - ресурс живет, даже после смерти корпорации.

Самый маразм - сайт с документацией от Микрософт. Там спагетти! Старое мешается в выдаче с новым и никакой структуризации.

 
 

  •  Home  •  Рынок  •  ИТ-директор  •  CloudComputing  •  Hard  •  Soft  •  Сети  •  Безопасность  •  Наука  •  IoT