Ссылка гниль - Link rot

Ссылка гниль (также называется связать смерть, разрыв ссылки, или эталонная гниль) является феноменом гиперссылки имеют тенденцию со временем перестать указывать на исходную цель файл, веб-страница, или сервер из-за того, что этот ресурс перемещается или становится постоянно недоступным. Ссылка, которая больше не указывает на свою цель, часто называется сломанный или мертвых ссылка, это особая форма висячий указатель.

Скорость гниения ссылок является предметом изучения и исследования в связи с ее значимостью для способности Интернета сохранять информацию. Оценки этого показателя сильно различаются между исследованиями.

Распространенность

В ряде исследований изучалась распространенность гнили звеньев в Всемирная сеть, в академической литературе, использующей URL-адреса цитировать веб-контент и в электронные библиотеки.[1][2]

Исследование 2003 года показало, что в Интернете примерно одна ссылка из каждых 200 разрывается каждую неделю,[3] предлагая период полураспада 138 недель. Этот показатель был в основном подтвержден исследованием ссылок в 2016–2017 гг. Yahoo! Каталог (который прекратил обновление в 2014 году после 21 года разработки), согласно которому период полураспада ссылок каталога составляет два года.[4]

Исследование 2004 года показало, что подмножества веб-ссылок (например, нацеленные на определенные типы файлов или размещенные в академических учреждениях) могут иметь совершенно разные периоды полураспада.[5] URL-адреса, выбранные для публикации, кажутся более долговечными, чем средний URL-адрес. В исследовании Weblock, проведенном в 2015 году, было проанализировано более 180 000 ссылок из полнотекстовых корпусов трех крупных издателей с открытым доступом, и было обнаружено, что период их полураспада составляет около 14 лет.[6] в целом подтверждая исследование 2005 года, которое обнаружило, что половина URL-адреса цитируется в Журнал D-Lib статьи были активны через 10 лет после публикации.[7] Другие исследования выявили более высокие показатели гниения звеньев в академической литературе, но обычно предполагают, что период полураспада составляет четыре года или больше.[8][9] Исследование 2013 г. BMC Bioinformatics проанализировали около 15 000 ссылок в выдержках из Thomson Reuters Web of Science индекс цитирования и обнаружил, что средняя продолжительность жизни веб-страниц составляла 9,3 года, и только 62% были заархивированы.[10]

Исследование 2002 года показало, что гниение ссылок в цифровых библиотеках происходит значительно медленнее, чем в Интернете, и обнаружило, что около 3% объектов перестали быть доступными через год.[11] (что соответствует периоду полураспада почти 23 года).

Причины

Связка гниения может возникнуть в результате нескольких случаев. Целевая веб-страница может быть удалена. Сервер, на котором размещена целевая страница, может выйти из строя, быть отключен от обслуживания или переместиться на новый доменное имя. Регистрация доменного имени может быть прекращена или передана другому лицу. Некоторые причины могут привести к тому, что ссылка не сможет найти какую-либо цель при возврате ошибки, например HTTP 404. Другие причины приведут к тому, что ссылка будет нацелена на контент, отличный от того, что было задумано автором ссылки.

К другим причинам неработающих ссылок относятся:

  • реструктуризация веб-сайтов, которая вызывает изменение URL-адресов (например, domain.net/pine_tree может быть перемещен в domain.net/tree/pine)
  • перемещение ранее бесплатного контента за платный доступ
  • изменение в архитектуре сервера, результатом которого является такой код, как PHP функционирует иначе
  • динамическое содержимое страницы, такое как результаты поиска, которое изменяется по дизайну
  • наличие пользовательской информации (например, логина) в ссылке
  • умышленное блокирование фильтры содержимого или брандмауэры
  • удаление рДВУ[12]

Профилактика и обнаружение

Стратегии предотвращения гниения ссылок могут быть сосредоточены на размещении контента там, где вероятность его сохранения выше, создании ссылок, которые с меньшей вероятностью будут повреждены, принятии мер по сохранению существующих ссылок или восстановлении ссылок, целевые объекты которых были перемещены или удалены.

Создание URL-адресов, которые не будут меняться со временем, является основным методом предотвращения гниения ссылок. Превентивное планирование поддерживалось Тим Бернерс-Ли и другие пионеры Интернета.[13]

Стратегии, касающиеся авторства ссылок, включают:

Стратегии защиты существующих ссылок включают:

  • с помощью перенаправление такие механизмы, как HTTP 301 для автоматического направления браузеров и поисковых роботов к перемещенному контенту
  • с помощью системы управления контентом который может автоматически обновлять ссылки при перемещении содержимого на том же сайте или автоматически заменять ссылки каноническими URL-адресами.[20]
  • интеграция поисковых ресурсов в HTTP 404 страницы[21]

Обнаружение битых ссылок может выполняться вручную или автоматически. Автоматизированные методы включают плагины для системы управления контентом а также автономные средства проверки неработающих ссылок, такие как Сыщик Зену. Автоматическая проверка может не обнаруживать ссылки, возвращающие мягкий 404 или ссылки, возвращающие 200 ОК ответ, но укажите на содержание, которое изменилось.[22]

Смотрите также

дальнейшее чтение

  • Марквелл, Джон; Брукс, Дэвид В. (2002). "Неработающие ссылки: эфемерный характер образовательных гиперссылок в Интернете". Журнал естественно-научного образования и технологий. 11 (2): 105–108. Дои:10.1023 / А: 1014627511641.
  • Гомеш, Даниэль; Сильва, Марио Дж. (2006). «Моделирование устойчивости информации в сети» (PDF). Материалы 6-й Международной конференции по веб-инженерии. ICWE'06. Архивировано из оригинал (PDF) на 2011-07-16. Получено 14 сентября 2010.
  • Dellavalle, Robert P .; Хестер, Эрик Дж .; Heilig, Lauren F .; Дрейк, Аманда Л .; Кунцман, Джефф У .; Грабер, Марла; Шиллинг, Лиза М. (2003). "Идет, идет, уходит: потерянные ссылки в Интернете". Наука. 302 (5646): 787–788. Дои:10.1126 / science.1088234. PMID  14593153.
  • Келер, Уоллес (1999). «Анализ веб-страницы и постоянства и постоянства веб-сайта». Журнал Американского общества информационных наук. 50 (2): 162–180. Дои:10.1002 / (SICI) 1097-4571 (1999) 50: 2 <162 :: AID-ASI7> 3.0.CO; 2-B.
  • Селлитто, Кармин (2005). "Влияние непостоянных цитирований в Интернете: исследование 123 публикаций научных конференций" (PDF). Журнал Американского общества информационных наук и технологий. 56 (7): 695–703. CiteSeerX  10.1.1.473.2732. Дои:10.1002 / asi.20159.

Примечания и ссылки

Заметки
  1. ^ Системы сохранения могут испытывать перебои в обслуживании, из-за чего сохраненные URL-адреса периодически становятся недоступными.[15]
использованная литература
  1. ^ Хабибзаде, П. (2013). «Уменьшение количества ссылок на веб-сайты в статьях, опубликованных в общих медицинских журналах: основные против небольших журналов». Прикладная клиническая информатика. 4 (4): 455–464. Дои:10.4338 / aci-2013-07-ra-0055. ЧВК  3885908. PMID  24454575.
  2. ^ «Гиберлинк». Hiberlink.org. В архиве из оригинала 29 января 2015 г.. Получено 15 января 2015.
  3. ^ Феттерли, Деннис; Манассе, Марк; Наджорк, Марк; Винер, Джанет (2003). «Масштабное исследование эволюции веб-страниц». Материалы 12-й международной конференции по всемирной паутине. Получено 14 сентября 2010.
  4. ^ ван дер Грааф, Ганс. «Период полураспада ссылки - два года». Блог ZOMDir. В архиве с оригинала на 2017-10-17. Получено 2019-01-31.
  5. ^ Келер, Уоллес (2004). «Продолжение продольного исследования веб-страниц: рассмотрение сохраняемости документов». Информационные исследования. 9 (2). В архиве из оригинала на 2017-09-11. Получено 2019-01-31.
  6. ^ «Отчет о веб-блокировках за все время». Август 2015. Архивировано с оригинал 4 марта 2016 г.. Получено 12 января 2016.
  7. ^ а б Маккаун, Фрэнк; Чан, Шеффан; Нельсон, Майкл Л .; Боллен, Йохан (2005). «Доступность и постоянство веб-ссылок в журнале D-Lib» (PDF). Труды 5-го Международного семинара по веб-архивированию и цифровому хранению (IWAW'05). Архивировано из оригинал (PDF) на 2012-07-17. Получено 2005-10-12.
  8. ^ Спинеллис, Диомидис (2003). «Упадок и неудачи веб-ссылок». Коммуникации ACM. 46 (1): 71–77. CiteSeerX  10.1.1.12.9599. Дои:10.1145/602421.602422.
  9. ^ Лоуренс, Стив; Пеннок, Дэвид М .; Flake, Гэри Уильям; Кровец, Роберт; Coetzee, Frans M .; Гловер, Эрик; Нильсен, Финн Аруп; Крюгер, Андрис; Джайлз, К. Ли (2001). «Устойчивость веб-ссылок в научных исследованиях». Компьютер. 34 (2): 26–31. CiteSeerX  10.1.1.97.9695. Дои:10.1109/2.901164.
  10. ^ Хеннесси, Джейсон; Xijin Ge, Стивен (2013). «Междисциплинарное исследование разрушения звеньев и эффективности методов смягчения последствий». BMC Bioinformatics. 14: S5. Дои:10.1186 / 1471-2105-14-S14-S5. ЧВК  3851533. PMID  24266891.
  11. ^ Нельсон, Майкл Л .; Аллен, Б. Данетт (2002). «Сохранение и доступность объектов в электронных библиотеках». Журнал D-Lib. 8 (1). Дои:10.1045 / январь2002-нельсон.
  12. ^ «Смерть TLD». blog.benjojo.co.uk. В архиве из оригинала на 2018-07-26. Получено 2018-07-27.
  13. ^ Бернерс-Ли, Тим (1998). «Классные URI не меняются». В архиве из оригинала от 02.03.2000. Получено 2019-01-31.
  14. ^ а б Килле, Лейтон Уолтер (8 ноября 2014 г.). "Растущая проблема Интернета" гниение ссылок "и лучшие практики для СМИ и интернет-издателей". Ресурс для журналиста, Гарвардская школа Кеннеди. В архиве из оригинала 12 января 2015 г.. Получено 16 января 2015.
  15. ^ Хабибзаде, Пархам (30 июля 2015 г.). "Достаточно ли надежны существующие системы архивирования?". Международный журнал урогинекологии. 26 (10): 1553. Дои:10.1007 / s00192-015-2805-7. ISSN  0937-3462. PMID  26224384.
  16. ^ "Интернет-архив: электронная библиотека бесплатных книг, фильмов, музыки и Wayback Machine". 2001-03-10. В архиве с оригинала от 26 января 1997 г.. Получено 7 октября 2013.
  17. ^ Айзенбах, Гюнтер; Трудель, Матьё (2005). «Идет, идет, еще там: использование службы WebCite для постоянного архивирования цитируемых веб-страниц». Журнал медицинских интернет-исследований. 7 (5): e60. Дои:10.2196 / jmir.7.5.e60. ЧВК  1550686. PMID  16403724.
  18. ^ Зиттрейн, Джонатан; Альберт, Кендра; Лессиг, Лоуренс (12 июня 2014 г.). "Perma: определение и решение проблемы ссылочной и ссылочной гнили в юридических цитатах" (PDF). Управление правовой информацией. 14 (2): 88–99. Дои:10.1017 / S1472669614000255.
  19. ^ "Центр Беркмана Гарвардского университета выпускает Amber, инструмент" взаимопомощи "для блоггеров и владельцев веб-сайтов, помогающий поддерживать доступность Интернета | Центр Беркмана". cyber.law.harvard.edu. В архиве из оригинала на 02.02.2016. Получено 2016-01-28.
  20. ^ Рённ-Йенсен, Джеспер (2007-10-05). «Программное обеспечение устраняет ошибки пользователя и линкрот». Justaddwater.dk. В архиве из оригинала 11 октября 2007 г.. Получено 5 октября 2007.
  21. ^ Мюллер, Джон (2007-12-14). "К вашему сведению, о последних функциях панели инструментов Google". Центральный блог Google для веб-мастеров. В архиве из оригинала 13 сентября 2008 г.. Получено 9 июля 2008.
  22. ^ Бар-Йосеф, Зив; Бродер, Андрей З .; Кумар, Рави; Томкинс, Эндрю (2004). «Sic transit gloria telae: к пониманию распада Интернета». Материалы 13-й международной конференции по всемирной паутине - WWW '04. С. 328–337. CiteSeerX  10.1.1.1.9406. Дои:10.1145/988672.988716. ISBN  978-1581138443.

внешние ссылки