Почему интернет портится со временем и как решают проблему учёные и технологи

VC.RUHi-Tech

Накопленные человечеством знания исчезают из-за «битых» ссылок — страдают даже научные статьи и документы

Почему интернет портится со временем и как решают проблему учёные и технологи, в пересказе колонки профессора права Джонатана Зиттрейна.

Полина Лааксо

1280
Профессор права Джонатан Зиттрейн. Harvard Law Today, Джон Чейс

До интернета основным способом сохранить информацию было письмо: сначала её записывали на камне и папирусе, затем — на магнитных лентах и дискетах. Тогда «носители» хранились в церквях и библиотеках, в идеале — сразу в нескольких зданиях и не в одном экземпляре:

  • Во-первых, чтобы повреждение одной копии не уничтожило знание.
  • Во-вторых, чтобы копии можно было сравнить, если документ вдруг тайно изменят.

Интернет должен был упростить процесс: предложить глубокую систематизацию знаний, которые потом хранились бы в библиотеках, считает профессор.

Вместо этого децентрализованная сеть стала складом ссылок — как на канонические источники вроде научных и газетных статей, так и на множество личных файлов, блогов и публикаций.

Ссылки ведут не туда или вовсе «вымирают»

Чтобы помочь поисковым системам сортировать источники, разработчики создали поисковых роботов: они фиксируют каждую найденную ссылку, а затем составляют из них упорядоченные списки.

Источники, считает Зиттрейн, — это клей, скрепляющий знания человечества. Они позволяют перепроверить факты и узнать больше о том, что автор упоминает лишь вкратце.

Однако разорвать эту связь угрожают два явления — вымирание ссылок и «дрейф» контента, то есть его перемещение. Сталкиваются с этими проблемами в том числе и правительственные структуры.

В 2010 году 44-й президент США Барак Обама подписал Закон о доступном здравоохранении, однако в 2013 году республиканцы прекратили финансирование программы. Агентствам пришлось отключить ряд правительственных сайтов и вместе с этим закрыть доступ к миллиону официальных документов.

1280
Такое сообщение видели тогда посетители страницы NASA: «Сайт приостановил работу в связи с прекращением финансирования со стороны федерального правительства. Приносим извинения за доставленные неудобства»

В 2010 году американский судья Сэмюэль Алито в качестве аргумента по делу о дурном влиянии видеоигр на подростков сослался на один из сайтов. Страница вскоре стала недоступной, а её содержимое намеренно изменили.

1280
«Вы наверняка рады, что не сослались на эту страницу, как в своё время судья Алито. Нужного вам источника здесь бы уже не было, а домен бы выкупили, чтобы написать о том, как теперь недолговечны ссылки»

В 2014 году Зиттрейн изучил ссылки в тех документах, которые, по его мнению, должны храниться бессрочно — это научные статьи юридического журнала Harvard Law Review, а также судебные заключения Верховного суда США. 75% ссылок в Harvard Law Review и 50% источников в судебных заключениях не работали.

Зиттрейн также проанализировал около 2 млн глубоких ссылок в электронных статьях The New York Times — тех, что вели не на главные страницы сайтов, а на конкретные материалы. 25% из них «вымерли», а в материалах одного только 1998 года нерабочими оказалось сразу 72%.

В 2001 году учёные из Принстонского университета обнаружили, что в академических статьях, собранных с 1994 года, «мёртвыми» оказалось 53% URL-адресов. Через 13 лет они создали расширенный корпус из более чем 3,5 млн статей: каждая пятая вела на неверный источник, и в 2016 году доля таких ссылок составила 75%.

Бумажные копии создают всё реже, а цифровые удаляют, изменяют и цензурируют

Авторизуйтесь, чтобы продолжить чтение. Это быстро и бесплатно.

Регистрируясь, я принимаю условия использования

Открыть в приложении