Архив Дарвина - Darwin Core Archive
Архив Дарвина (DwC-A) - это информатика биоразнообразия стандарт данных, использующий Ядро Дарвина условия для создания единого автономного набора данных о встречаемости видов, контрольном списке, событии отбора проб или данных об образцах материала. По сути, это набор текстовых (CSV) файлов с простым дескриптором (meta.xml) для информирования других о том, как организованы ваши файлы. Формат определен в Руководстве по основному тексту Дарвина.[1] Это предпочтительный формат для публикации данных в GBIF сеть.
Ядро Дарвина
Стандарт Дарвиновского ядра[2] был использован для мобилизации подавляющего большинства данных о встречах и наблюдениях образцов в сети GBIF.[3] В Ядро Дарвина Стандарт изначально был задуман для облегчения открытия, поиска и интеграции информации о современных биологических образцах, их пространственно-временном возникновении и подтверждающих их доказательствах, хранящихся в коллекциях (физических или цифровых).
Сегодня Дарвиновское ядро шире. Его цель - обеспечить стабильный стандартный справочник для обмена информацией о биологическом разнообразии. В качестве глоссария терминов Darwin Core предоставляет стабильные семантические определения с целью максимального повторного использования в различных контекстах. Это означает, что Darwin Core может по-прежнему использоваться так же, как и раньше, но может также служить основой для создания более сложных форматов обмена, при этом обеспечивая совместимость с помощью общего набора терминов.
Формат архива
Центральная идея архива заключается в том, что его файлы данных логически организованы в виде звезды, при этом один основной файл данных окружен любым количеством «расширений». Каждая запись расширения (или «строка файла расширения») указывает на запись в основном файле; таким образом, для каждой отдельной основной записи может существовать от нуля до многих записей расширения, что является более экономичным методом передачи данных, чем альтернатива включения всех данных в одну таблицу, которая в противном случае могла бы содержать много пустых ячеек.
Подробную информацию о рекомендуемых расширениях можно найти в соответствующих подразделах, и они будут подробно задокументированы в реестре GBIF, в котором будут перечислены все доступные расширения.
Совместное использование целых наборов данных вместо использования страничных веб-сервисов, таких как DiGIR и TAPIR, позволяет гораздо проще и эффективнее передавать данные. Например, получение 260 000 записей через TAPIR занимает около девяти часов, при этом выполняется 1300 HTTP-запросов для передачи 500 МБ данных в формате XML. Тот же самый набор данных, закодированный как DwC-A и заархивированный, становится файлом размером 3 МБ. Поэтому GBIF настоятельно рекомендует сжимать архив с помощью ZIP или GZIP при создании DwC-A.
Архив требует стабильных идентификаторов для основных записей, но не для расширений. Следовательно, для любых типов общих данных необходимо иметь какие-то идентификаторы локальных записей. Хорошей практикой является сохранение - с исходными данными - идентификаторов, которые стабильны во времени и не используются повторно после удаления записи. Если можете, укажите глобальные уникальные идентификаторы вместо локальных.
Дескриптор архива
Должен быть завершен.
Метаданные набора данных
Архив Darwin Core должен содержать файл, содержащий метаданные, описывающие весь набор данных. В Язык экологических метаданных (EML) является наиболее распространенным форматом для этого, но используются и простые файлы Dublin Core.
использованная литература
- ^ Рекомендации по основному тексту Дарвина
- ^ Вечорек, Джон; Д. Блум; Р. Гуралник; С. Блюм; М. Деринг; Р. Де Джованни; Т. Робертсон; Д. Вьегле (2012). «Ядро Дарвина: развивающийся стандарт данных о биоразнообразии, разработанный сообществом». PLoS ONE. 7 (1): e29715. Bibcode:2012PLoSO ... 729715W. Дои:10.1371 / journal.pone.0029715. ЧВК 3253084. PMID 22238640.
- ^ Архивы Darwin Core - Практическое руководство