PADICAT - PADICAT

PADICAT
PADICAT BN.jpg
URLhttp://www.padicat.cat/

PADICAT акроним для Patrimoni Digital de Catalunya, в Каталонский; или цифровое наследие Каталония, на английском языке, это Веб-архив Каталонии.[1]

Создано в 2005 г.[2] посредством Biblioteca de Catalunya, государственное учреждение, ответственное за сбор, сохранение и распространение библиографического наследия и цифрового наследия в целом. Имеет технологическое сотрудничество Центр научных и академических услуг Каталонии, (CESCA) для сохранения и предоставления доступа к старым версиям веб-страниц, опубликованных на Интернет. Biblioteca de Catalunya, как ответственный за PADICAT, является членом Международный консорциум сохранения Интернета (IIPC).[3]

История

Веб-сайт PADICAT 2011

PADICAT родился в 2005 году, следуя тенденции других национальные библиотеки по созданию веб-архивов и в ответ на публикацию руководящих принципов по сохранению цифрового наследия[4] посредством ЮНЕСКО. Есть много веб-архивы работают.[5] Самые известные из них начались в 1996 году: шведская Kulturarw3;[6] австралийский Пандора,[7] и самый популярный репозиторий, Интернет-архив.[8]

Анализ этих и других проектов позволил разработать проект PADICAT, следуя общей мировой тенденции гибридной модели функционирования, дополняющей регулярный захват целой географической области (.Кот домен в данном случае), с выборочными действиями, и расширить это покрытие на различные социальные события, которые вызывают интенсивную активность в сети (избирательные кампании, например) или тематическими пакетами (музеи Каталонии, каталонский фолк-рок в сети и т. д.). PADICAT дополняет все это вкладом пользователей через рекомендованные сети.

В июне 2005 года Biblioteca de Catalunya приступила к предварительному этапу планирования, в ходе которого был проведен анализ проектов в отношении существующих ресурсов, агентов, участвующих в создании веб-страниц Каталонии, и юридических вопросов, которые определяют практические действия, которые необходимо выполнить.

На основании параметров, определенных Biblioteca de Catalunya, 21 июля 2006 г. начал автоматически собирать веб-сайты, которые, вероятно, являются частью цифрового наследия Каталонии. 11 сентября 2006 г., в день празднования Национальный день Каталонии, Веб-сайт PADICAT был открыт для публики, на нем было сохранено около тридцати веб-страниц.

Период 2006–2008 гг. Представляет собой этап производства, пилотный план проекта, этап работы PADICAT: систематический захват веб-страниц Каталонии.

В период 2009–2011 годов Biblioteca de Catalunya должна занять оптимальное положение, благодаря чему эта система является пионером в Испания и эталон в Европа - работает на полную мощность. Кроме того, мы достигли соглашений о сотрудничестве с более чем 450 учреждениями всех видов и обеспечили онлайн-открытый доступ ко всей коллекции. 11 сентября 2011 года, снова совпадая с Национальным днем ​​Каталонии и с пятой годовщиной своего веб-сайта, PADICAT открыл новая версия веб-сайта для доступа ко всему размещенному на сайте содержимому.

В ноябре 2012 года PADICAT сохранил 58 122 веб-сайтов, 249 609 сканирований, 349 миллионов файлов и 13 файлов. Туберкулез дискового пространства. Все они находятся в свободном доступе.[9]

Миссия и функционирование

Миссия и цели

Миссия PADICAT - собирать, обрабатывать и предоставлять доступ к цифровому наследию Каталонии, рожденному в Интернете.

  • Массивная компиляция .Кот домен, благодаря соглашению с Fundació puntCat.[10]
  • Систематическое архивирование продукции веб-сайтов каталонских организаций и компаний.
  • Продвигайте направления исследований посредством тематической интеграции цифровых ресурсов, связанных с конкретными событиями каталонской общественной жизни, такими как политические кампании[11] в Интернете, в музыкальном онлайн-феномене или в музеях в Интернете.

После его зарождения (2005-2006 гг.), Роста (2007-2008 гг.) И консолидации (2009-2011 гг.) С 2012 г. требуется систематизировать его способность к росту с целью включения 75,700 версий примерно 32,000 веб-сайтов в год. из:

  • Подборка производится два раза в год из 30 000 ресурсов домена .cat.
  • Подборка проводится два раза в год из 550 ресурсов более 450 организаций, заключивших соглашение о сотрудничестве.
  • Подборка, составляемая два раза в год на основе рекомендованных пользователями ресурсов.
  • Ежедневный сборник из значительной части 30 серийных онлайн-публикаций.

Кроме того, есть четыре постоянных рабочих направления:

  • Определение стратегий сохранения цифрового наследия, рожденного в Интернете. PADICAT предоставляет периодические отчеты о каталонских веб-сайтах; определяет, какие форматы имеют проблемы с разборчивостью; и определяет наиболее часто используемые языки и т. д.
  • Продвижение направлений исследований путем создания монографических коллекций с привлечением экспертов по каждому предмету.
  • Создание и ведение архива цифровых сериалов посредством систематизированного захвата цифровых сериалов в Интернете. Теперь он состоит из репрезентативной выборки о виде и содержании, отобранных среди рожденных в цифровом формате, без аналогового эквивалента.
  • Сотрудничество с другими веб-архивами, библиотеками, архивами и музеями, чтобы дать эффективный ответ на проблемы цифрового хранения и доступа к его ресурсам.

Функционирование

Программного обеспечения

Схема рабочего процесса программного обеспечения PADICAT

PADICAT - это система, основанная на реализации нескольких программного обеспечения которые позволяют собирать, хранить, организовывать, сохранять веб-страницы и получать к ним постоянный доступ. Позже на этапе анализа и тестирования программного обеспечения было определено, что использовать Heritrix[12] программное обеспечение, применяемое в большинстве проектов по захвату цифровых ресурсов. Это плата за программное обеспечение для компиляции веб-страниц в том виде, в каком их видит пользователь, просматривая Интернет, и сохранения их в сжатых файлах с ARC или WARC расширение. Затем программное обеспечение Heritrix дополняется NutchWax,[13] или в сочетании с Hadoop[14] и Путь назад,[15] выполнение процесса индексации для скомпилированной информации, которая позволит использовать этот индекс для локализации ресурсов сбора из интерфейсов запросов: Wera,[16] что позволяет осуществлять поиск по ключевым словам через сгенерированные NutchWax индексы; и Wayback, что позволяет проконсультироваться URL в сгенерированных индексах Hadoop и тем же Wayback.

Был использован инструмент веб-куратора[17] программное обеспечение, разработанное Национальная библиотека Новой Зеландии и Британская библиотека, в качестве системы управления документами, которая позволяет выделять метаданные для значительной части коллекции, чтобы в будущем интегрировать средства депозита для поиска в других каталогах из Biblioteca de Catalunya или других учреждений. В настоящее время веб-сайты каталогизируются через CAT,[18] программное обеспечение, специально разработанное техническими специалистами CESCA для проекта.

Аппаратное обеспечение

Серверы PADICAT в CESCA

В отношении к аппаратное обеспечение Система, обслуживающая шесть узлов HP ProLiant DL360 G4p, отвечает за сбор и индексацию веб-страниц. За поиск и просмотр результатов в веб-интерфейсе отвечает высокая доступность Linux-кластера с функциями балансировки нагрузки запросов и устойчивости к ошибкам в случае технического сбоя узлов, интегрирующих платформу. NetApp FAS3170 cabin предоставляет этим узлам 19 ТБ дискового пространства через NFS.

Узлы соединены волокном с Сеть хранения данных (SAN) и дополнен системой сохранения данных робота резервного копирования.

Ожидается, что содержимое, депонированное в PADICAT, будет включено в COFRE.[19] (COnservem per al Futur Recursos Electrònics), система хранения с высоким уровнем безопасности, созданная для Biblioteca de Catalunya.

Рекомендации

  1. ^ Официальный веб-сайт
  2. ^ Biblioteca de Catalunya (2005 г.), Memòria del plantejament del projecte PADICAT (Patrimoni Digital de Catalunya), Барселона: Biblioteca de Catalunya, получено 2012-11-22
  3. ^ Международный консорциум сохранения Интернета
  4. ^ Национальная библиотека Австралии (2003 г.), Рекомендации по сохранению цифрового наследия (PDF), Канберра: ЮНЕСКО, получено 2012-11-22
  5. ^ Ллюека, Чиро (2005), Доступные веб-сайты: les biblioteques nacionals i els dipòsits digitals nacionals, БиД: тексты университарис библиотечной экономики и документов, получено 2012-11-20
  6. ^ Kulturarw3
  7. ^ Пандора
  8. ^ Интернет-архив
  9. ^ PADICAT
  10. ^ Подписано соглашение о сотрудничестве между Biblioteca de Catalunya и fundació puntCAT по сохранению веб-страниц.
  11. ^ Ллюека, Чиро; Кочера, Даниэль; Торрес, Наталия; и другие. (2012), Твиттер: archivando elecciones 2.0 (PDF), El profesional de la información, получено 2012-11-21
  12. ^ Heritrix
  13. ^ NutcWax
  14. ^ Hadoop
  15. ^ Путь назад
  16. ^ Вера
  17. ^ Инструмент веб-куратора
  18. ^ Ллюека, Чиро; Кочера, Даниэль; Торреса, Наталия; и другие. (2010), CAT (средство архивирования куратора): улучшение доступа к веб-архивам = CAT (средство архивирования куратора): millorant l'accés als arxius web = CAT (средство архивирования куратора): mejorando el acceptso a los archivos web (PDF), получено 2012-11-21
  19. ^ Серра, Эжения; Перес, Карибель; Ллюека, Чиро (2012), "La Biblioteca de Catalunya i l'accés al patrimoni digital", Métodos de Informacion, МЭИ, 2 (2): 5–20, Дои:10.5557 / IIMEI2-N2-005020, получено 2012-11-21

внешняя ссылка