Машиночитаемый документ - Machine-readable document

А машиночитаемый документ это документ чей контент может быть легко обработан компьютеры. Такие документы отличаются от машиночитаемые данные в силу наличия достаточной структуры для обеспечения необходимого контекста для поддержки бизнес-процессов, для которых они созданы.

Определение

Данные без контекст (использование языка) бессмысленна и лишена четырех основных характеристик заслуживающего доверия деловые записи указано в ISO 15489 Информация и документация - Управление записями:[1]

Подавляющая часть информации неструктурированные данные и, с точки зрения бизнеса, это означает, что он «незрелый», т. е. Уровень 1 (хаотичный) Модель зрелости возможностей. Такая незрелость ведет к неэффективности, снижает качество и ограничивает эффективность. Неструктурированная информация также не подходит для ведение документации функции, предоставляет неадекватные свидетельство в юридических целях увеличивает стоимость открытие в судебный процесс, и делает доступ и использование излишне обременительным в рутинной, постоянной деловые процессы.

Машиночитаемость имеет как минимум четыре аспекта:

  • Во-первых, слова или фразы должны быть дискретно разграничены (помечены), чтобы компьютерное программное обеспечение и / или логику оборудования можно было применить к ним как к отдельным концептуальным элементам.
  • Во-вторых, следует указать семантику каждого элемента, чтобы компьютеры могли помочь людям достичь общего понимания их значений и потенциальных возможностей использования.
  • В-третьих, если также указаны отношения между отдельными элементами, компьютеры могут автоматически применять к ним выводы, тем самым еще больше освобождая людей от бремени попыток понять их, особенно в целях исследования, открытия и анализа.
  • В-четвертых, если также указаны структуры документов, в которых присутствуют элементы, человеческое понимание еще больше улучшится, и данные станут более надежными для юридических и деловых целей.

Еще в 1983 году США Счетная палата правительства (GAO) начал подчеркивать преимущества машиночитаемой информации.[2] Еще раньше, в 1981 году, GAO начало сообщать о проблеме неадекватной практики ведения документации в федеральном правительстве США.[3] Такие недостатки присущи не только правительству, а достижения в области информационных технологий означают, что большая часть информации теперь «рождается в цифровом виде» и, следовательно, потенциально гораздо легче управлять с помощью автоматизированных средств.[4] Тем не менее, в показаниях Конгрессу в 2010 году GAO подчеркнуло проблемы с управлением электронными записями, и совсем недавно, в 2015 году, GAO продолжало сообщать о несоответствиях в деятельности агентств исполнительной ветви в выполнении требований к управлению записями.[5][6] Более того, более чем через два десятилетия после крупной и ранее весьма уважаемой аудиторской фирмы, Артур Андерсен, встретил свою кончину из-за скандала с уничтожением документации, практика ведения документации стала центральной проблемой на президентских выборах 2016 года.

4 января 2011 года президент Обама подписал H.R. 2142, Закон о деятельности и результатах правительства (GPRA) Закон о модернизации 2010 г. (GPRAMA), ставший законом P.L. 111-352. Раздел 10 GPRAMA требует, чтобы федеральные агентства США публиковали свои стратегические планы и планы производительности и отчеты в машиночитаемом формате с возможностью поиска.[7]Дополнительно в 2013 году он выпустил Распоряжение 13642, Сделать открытую и машиночитаемую - новый стандарт для правительственной информации в целом.[8]28 июля 2016 г. Управление управления и бюджета (OMB) после включения в пересмотренный выпуск Циркуляра A-130 указание агентствам использовать открытые машиночитаемые форматы,[9] и публиковать «общедоступную информацию в Интернете таким образом, чтобы способствовать ее анализу и повторному использованию для максимально широкого диапазона целей»,[10] Это означает, что информация является общедоступной и машиночитаемой. 14 января 2019 года президент Трамп подписал закон HR 4174,[11] то ОТКРЫТЫЙ Закон о государственных данных (OGDA), который кодифицирует в законе требование к агентствам предоставлять свои общедоступные данные в машиночитаемом формате. 28 июня 2019 г. в Циркуляре A-11[12] OMB выразило намерение начать соблюдать раздел 10 GPRAMA.[13]

В поддержку такого направления политики технический прогресс делает возможным более эффективное управление и использование машиночитаемых электронных записей. Документно-ориентированные базы данных были разработаны для хранения, извлечения и управления документно-ориентированной информацией, также известной как полуструктурированные данные. Расширяемый язык разметки (XML ) является консорциумом World Wide Web (W3C ) Рекомендация устанавливая правила кодирования документов в формате, который одновременно человек читаемый и машиночитаемый. Много Редактор XML были разработаны инструменты, и большинство, если не все основные приложения информационных технологий, в большей или меньшей степени поддерживают XML. Тот факт, что XML сам по себе является открытым стандартным машиночитаемым форматом, позволяет разработчикам приложений сделать это относительно легко.

Прилагаемая W3C схема XML (XSD ) Рекомендация определяет, как формально описывать элементы в документе XML. Что касается спецификации схем XML, Организация по развитию стандартов структурированной информации (ОАЗИС) - ведущий организация по разработке стандартов. Однако многие технические разработчики предпочитают работать с JSON, а также для определения структуры данных JSON для проверки, документирования и контроля взаимодействия, Схема JSON был разработан Инженерная группа Интернета (IETF).

В Формат переносимого документа (PDF) - это формат файла, используемый для представления документов способом, независимым от прикладного программного обеспечения, оборудования и операционных систем. Каждый PDF-файл инкапсулирует полное описание представления документа, включая текст, шрифты, графику и другую информацию, необходимую для его отображения. PDF / A является стандартизированной ISO версией PDF, специально предназначенной для использования при архивировании и долгосрочном хранении электронных документов. PDF / A-3 позволяет встраивать другие форматы файлов, включая XML, в документы, соответствующие PDF / A, тем самым потенциально обеспечивая лучшую читаемость как для человека, так и для машины. W3C's XSL-FO (Объекты форматирования XSL) язык разметки обычно используется для создания файлов PDF.

Метаданные, данные о данных, могут использоваться для организации электронных ресурсов, обеспечения цифровой идентификации и поддержки архивирования и сохранения ресурсов. В хорошо структурированных, машиночитаемых электронных записях содержание может быть перепрофилированный как данные, так и метаданные. В контексте систем электронного учета термины «управление» и «метаданные» практически синонимичны. При наличии надлежащих метаданных функции управления записями можно автоматизировать, тем самым снижая риск кража доказательств и другие мошеннические манипуляции с записями. Более того, такие записи можно использовать для автоматизации процесса аудиторская проверка данные хранятся в базы данных, тем самым снижая риск возникновения единичных точек отказа, связанных с Макиавеллианский концепция единственный источник истины.

Блокчейн (база данных) это новая технология для ведения постоянно растущих списков записей, защищенных от подделки и изменения. Ключевой особенностью является то, что каждый узел в децентрализованной системе имеет копию блокчейна, поэтому нет единая точка отказа подвергается манипуляциям и мошенничество.

Смотрите также

Рекомендации

  1. ^ «Руководство NARA по управлению веб-записями». Национальный архив. 15 августа 2016 г.
  2. ^ «Лучшее использование информационных технологий может снизить нагрузку на федеральные документы» (PDF). gao.gov. 1983-04-11. Получено 2019-07-25.
  3. ^ «ФЕДЕРАЛЬНОЕ УПРАВЛЕНИЕ ЗАПИСЬМИ: История пренебрежения». gao.gov. 1981-02-24. Получено 2016-09-08.
  4. ^ «Определение« рожденных цифровыми »: эссе Рики Эрвея, OCLC Research» (PDF). oclc.org. 2010-11-30. Получено 2016-09-08.
  5. ^ «УПРАВЛЕНИЕ ИНФОРМАЦИЕЙ: проблемы управления электронными записями, заявление Валери К. Мелвин, директора по вопросам управления информацией и человеческого капитала» (PDF). gao.gov. 2010-06-17. Получено 2016-09-08.
  6. ^ «УПРАВЛЕНИЕ ИНФОРМАЦИЕЙ: необходимы дополнительные действия для выполнения требований Директивы об управлении государственными записями». gao.gov. 2015-05-14. Получено 2016-09-08.
  7. ^ «GPRAMA SEC. 10. ФОРМАТ ПЛАНОВ И ОТЧЕТОВ». congress.gov. 2011-01-04. Архивировано из оригинал на 2016-04-13. Получено 2016-09-08.
  8. ^ «Исполнительное распоряжение 13642 в открытом стандартном машиночитаемом формате языка стратегической разметки». whitehouse.gov. 2013-05-09. Архивировано из оригинал на 2016-03-03. Получено 2016-09-08.
  9. ^ "Циркуляр StrategicPlan № A-130, Управление информацией как стратегическим ресурсом, цель d.5.a: совместимость, API и машиночитаемость".
  10. ^ «Циркуляр Стратегического плана № A-130, Управление информацией как стратегическим ресурсом, цель e.2.a: публикация».
  11. ^ Райан, Пол Д. (14 января 2019 г.). "Текст - H.R.4174 - 115-й Конгресс (2017-2018 гг.): Закон 2018 г. об основах разработки политики на основе фактов". www.congress.gov.
  12. ^ «ПОДГОТОВКА, ПОДАЧА И ИСПОЛНЕНИЕ БЮДЖЕТА» (PDF). whitehouse.gov. 2019-06-28. Получено 2019-07-25.
  13. ^ "Циркуляр StrategicPlan № A-130, Управление информацией как стратегическим ресурсом, объективная машиночитаемость".

Внешняя ссылка