Веб-архивирование - Web archiving

Веб-архивирование это процесс сбора порций Всемирная паутина чтобы гарантировать, что информация сохранился в архив для будущих исследователей, историков и общественности.[1] Веб-архивисты обычно используют поисковые роботы для автоматического захвата из-за огромного размера и количества информации в Интернете. Крупнейшей организацией веб-архивирования, использующей метод массового сканирования, является Wayback Machine, который стремится поддерживать архив всего Интернета.

Растущая часть человеческой культуры, создаваемой и записываемой в Интернете, неизбежно приводит к тому, что все больше и больше библиотек и архивов будут вынуждены сталкиваться с проблемами веб-архивирования.[2] Национальные библиотеки, национальные архивы и различные консорциумы организаций также участвуют в архивировании культурно важного веб-контента.

Коммерческое программное обеспечение и услуги веб-архивирования также доступны организациям, которым необходимо архивировать свой собственный веб-контент для корпоративного наследия, нормативных или юридических целей.

История и развитие

В то время как курирование и организация Интернета преобладали с середины до конца 1990-х годов, одним из первых крупномасштабных проектов веб-архивирования был проект Интернет-архив, некоммерческая организация, созданная Брюстер Кале в 1996 г.[3] Интернет-архив выпустил собственную поисковую систему для просмотра заархивированного веб-контента, Wayback Machine, в 2001.[3] По состоянию на 2018 год в Интернет-архиве было 40 петабайт данных.[4] Интернет-архив также разработал множество собственных инструментов для сбора и хранения данных, в том числе Petabox для эффективного и безопасного хранения больших объемов данных и Hertrix, поисковый робот, разработанный совместно с национальными библиотеками Скандинавии.[3] Другие проекты, запущенные примерно в то же время, включали австралийский Пандора и тасманские веб-архивы и шведская Kulturarw3.[5]

С 2001 г. к 2010 г.,[неудачная проверка ] Международный семинар по веб-архивированию (IWAW) предоставил платформу для обмена опытом и идеями.[6][7] В Международный консорциум сохранения Интернета (IIPC), созданная в 2003 году, способствовала международному сотрудничеству в разработке стандартов и инструментов с открытым исходным кодом для создания веб-архивов.[8]

Ныне несуществующий Фонд Интернет-памяти была основана в 2004 году и основана Европейская комиссия для того, чтобы заархивировать Интернет в Европе.[3] В рамках этого проекта было разработано и выпущено множество инструментов с открытым исходным кодом, таких как «захват мультимедийных данных, анализ временной когерентности, оценка спама и обнаружение эволюции терминологии».[3] Данные фонда сейчас хранятся в Интернет-архиве, но не являются общедоступными.[9]

Несмотря на отсутствие централизованной ответственности за его сохранение, веб-контент быстро становится официальным рекордом. Например, в 2017 году Министерство юстиции США подтвердило, что правительство рассматривает твиты президента как официальные заявления.[10]

Сбор сети

Веб-архивисты обычно архивируют различные типы веб-контента, включая HTML веб-страница, таблицы стилей, JavaScript, картинки, и видео. Они также архивируют метаданные о собранных ресурсах, таких как время доступа, Тип MIME и длина содержимого. Эти метаданные полезны при установлении подлинность и происхождение архивной коллекции.

Методы сбора

Удаленный сбор урожая

Наиболее распространенный метод веб-архивирования: поисковые роботы автоматизировать процесс сбора веб-страница. Поисковые роботы обычно обращаются к веб-страницам таким же образом, как пользователи с браузером видят сеть, и поэтому предоставляют сравнительно простой метод удаленного сбора веб-контента. Примеры веб-сканеров, используемых для веб-архивирования:

Существуют различные бесплатные сервисы, которые можно использовать для архивации веб-ресурсов «по запросу» с использованием методов веб-сканирования. Эти услуги включают Wayback Machine и WebCite.

Архивирование базы данных

Архивирование базы данных относится к методам архивирования основного контента веб-сайтов, управляемых базами данных. Обычно требуется извлечение база данных содержание в стандарт схема, часто используя XML. После сохранения в этом стандартном формате заархивированное содержимое нескольких баз данных можно сделать доступным с помощью единой системы доступа. Примером такого подхода является DeepArc и Xinq инструменты, разработанные Bibliothèque Nationale de France и Национальная библиотека Австралии соответственно. DeepArc позволяет структурировать реляционная база данных быть сопоставленным с Схема XML, и содержимое экспортировано в документ XML. Затем Xinq позволяет доставлять этот контент онлайн. Хотя исходный макет и поведение веб-сайта не могут быть точно сохранены, Xinq позволяет воспроизвести базовые функции запросов и извлечения.

Транзакционное архивирование

Архивирование транзакций - это управляемый событиями подход, который собирает фактические транзакции, которые происходят между веб сервер и веб-браузер. Он в основном используется как средство сохранения доказательств того, что контент действительно просматривался на конкретном интернет сайт, в заданную дату. Это может быть особенно важно для организаций, которым необходимо соблюдать законодательные или нормативные требования в отношении раскрытия и хранения информации.

Система транзакционного архивирования обычно работает путем перехвата каждого HTTP запрос и ответ от веб-сервера, фильтрация каждого ответа для устранения дублированного контента и постоянное сохранение ответов в виде битовых потоков.

Трудности и ограничения

Краулеры

Веб-архивы, которые полагаются на сканирование в качестве основного средства сбора данных в Интернете, подвержены влиянию трудностей сканирования в Интернете:

  • В протокол исключения роботов может запросить у сканеров запретить доступ к частям веб-сайта. Некоторые веб-архивисты могут игнорировать запрос и сканировать эти части в любом случае.
  • Большие части веб-сайта могут быть скрыты в Глубокая паутина. Например, страница результатов за веб-формой может находиться в глубокой сети, если сканеры не могут перейти по ссылке на страницу результатов.
  • Гусеничные ловушки (например, календари) могут привести к тому, что сканер загрузит бесконечное количество страниц, поэтому поисковые роботы обычно настраиваются так, чтобы ограничивать количество просматриваемых динамических страниц.
  • Большинство инструментов архивирования не захватывают страницу как она есть. Замечено, что при архивировании часто упускаются рекламные баннеры и изображения.

Однако важно отметить, что веб-архив в собственном формате, т. Е. Полностью просматриваемый веб-архив с рабочими ссылками, носителями и т. Д., Действительно возможен только с использованием технологии поисковых роботов.

Интернет настолько велик, что сканирование значительной его части требует большого количества технических ресурсов. Сеть меняется так быстро, что части веб-сайта могут измениться еще до того, как поисковый робот завершит сканирование.

Общие ограничения

Некоторые веб-серверы настроены так, чтобы возвращать на запросы веб-архиватора страницы, отличные от тех, которые они делали бы в ответ на обычные запросы браузера.[11] Обычно это делается для того, чтобы обмануть поисковые системы, заставляя их направлять больше пользовательского трафика на веб-сайт, и часто делается, чтобы избежать ответственности или предоставить расширенный контент только тем браузерам, которые могут его отображать.

Веб-архивисты должны не только решать технические проблемы веб-архивирования, они также должны бороться с законами об интеллектуальной собственности. Питер Лайман[12] заявляет, что «хотя Интернет обычно считается всеобщее достояние ресурс, это защищенный авторским правом; таким образом, архивисты не имеют законного права копировать Интернет ». Однако национальные библиотеки в некоторых странах[13] имеют законное право копировать части Интернета под расширением обязательный депозит.

Некоторые частные некоммерческие веб-архивы, которые являются общедоступными, например WebCite, то Интернет-архив или Фонд Интернет-памяти разрешить владельцам контента скрывать или удалять заархивированный контент, к которому они не хотят, чтобы у общественности был доступ. Другие веб-архивы доступны только из определенных мест или имеют регулируемое использование. WebCite цитирует недавний иск против кеширования Google, который Google выиграл.[14]

Законы

В 2017 г. Financial Industry Regulatory Authority, Inc. (FINRA), финансовая регулирующая организация США, выпустила уведомление, в котором говорится, что все компании, занимающиеся цифровой связью, обязаны вести учет. Сюда входят данные веб-сайтов, сообщения в социальных сетях и сообщения.[15] Немного законы об авторском праве может препятствовать архивированию в Интернете. Например, академическое архивирование Sci-Hub выходит за рамки современного закона об авторском праве. Сайт обеспечивает постоянный доступ к академическим работам, в том числе к тем, которые не имеют открытый доступ лицензию и тем самым способствует архивированию научных исследований, которые в противном случае могут быть потеряны.[16][17]

Смотрите также

Рекомендации

Цитаты

  1. ^ Habibzadeh, P .; Sciences, Schattauer GmbH - Publishers for Medicine and Natural (1 января 2013 г.). «Уменьшение количества ссылок на веб-сайты в статьях, опубликованных в общих медицинских журналах: основные против небольших журналов». Прикладная клиническая информатика. 4 (4): 455–464. Дои:10.4338 / aci-2013-07-ra-0055. ЧВК  3885908. PMID  24454575.
  2. ^ "Трумэн, Гейл. 2016. Сканирование окружающей среды веб-архива. Отчет Гарвардской библиотеки". Гейл Трумэн. 2016 г. Цитировать журнал требует | журнал = (Помогите)
  3. ^ а б c d е Toyoda, M .; Кицурегава, М. (май 2012 г.). «История веб-архивирования». Труды IEEE. 100 (Специальный выпуск к столетию): 1441–1443. Дои:10.1109 / JPROC.2012.2189920. ISSN  0018-9219.
  4. ^ «Внутри Wayback Machine, капсулы времени Интернета». Суета. 28 сентября 2018 г. сек. Уйыы назад. Получено 21 июля, 2020.
  5. ^ Коста, Мигель; Гомеш, Даниэль; Сильва, Марио Дж. (Сентябрь 2017 г.). «Эволюция веб-архивирования». Международный журнал электронных библиотек. 18 (3): 191–205. Дои:10.1007 / s00799-016-0171-9. ISSN  1432-5012.[требуется проверка ]
  6. ^ «IWAW 2010: 10-й международный семинар по веб-архивированию». www.wikicfp.com. Получено 19 августа, 2019.
  7. ^ «IWAW - Международные семинары по веб-архивированию». bibnum.bnf.fr. Получено 19 августа, 2019.
  8. ^ «О IIPC». IIPC. Получено 19 августа, 2019.[требуется проверка ]
  9. ^ «Internet Memory Foundation: бесплатный Интернет: бесплатное скачивание, заимствование и потоковая передача». archive.org. Интернет-архив. Получено 21 июля, 2020.
  10. ^ Регис, Камилла (4 июня 2019 г.). «Веб-архивирование: думаете, что Интернет постоянен? Подумайте еще раз». History Associates. Получено 14 июля, 2019.
  11. ^ Хабибзаде, Пархам (30 июля 2015 г.). "Достаточно ли надежны существующие системы архивирования?". Международный журнал урогинекологии. 26 (10): 1553. Дои:10.1007 / s00192-015-2805-7. ISSN  0937-3462. PMID  26224384.
  12. ^ Лайман (2002)
  13. ^ "Обязательный депозит | IIPC". netpreserve.org. В архиве из оригинала 16 марта 2017 г.. Получено 31 января, 2017.
  14. ^ "Часто задаваемые вопросы о WebCite". Webcitation.org. Получено 20 сентября, 2018.
  15. ^ «Социальные сети и цифровые коммуникации» (PDF). finra.org. FINRA.
  16. ^ Клэберн, Томас (10 сентября 2020 г.). «Журналы открытого доступа исчезают из Интернета, Интернет-архив готов заполнить пробелы». Реестр.
  17. ^ Лааксо, Микаэль; Матиас, Лиза; Ян, Найко (3 сентября 2020 г.). «Открытость не вечна: исследование исчезнувших журналов открытого доступа». arXiv: 2008.11933 [cs]. Получено 11 октября, 2020. CC-BY icon.svg Текст и изображения доступны под Международная лицензия Creative Commons Attribution 4.0.

Общая библиография

внешняя ссылка