Оцифровка газет - Newspaper digitization

Оцифровка газет это процесс преобразования старых газет из аналоговой формы в цифровые изображения. Наиболее распространенными аналогами старых газет являются бумага и микрофильм. Оцифрованные изображения газетных страниц обычно (хотя и не всегда) анализируются с помощью OCR программное обеспечение для создания текстовых файлов с содержанием газеты. Оцифровка газет - частный случай оцифровка в целом.

Газеты хранят богатую историю прошлого, и с момента появления цифровых медиа многие учреждения по всему миру начали оцифровывать их и делать цифровые файлы общедоступными. Однако в 2015 году более 90% газет не сканировались.[1] Оцифрованные газеты могут быть доступны бесплатно или за плату. Несколько списков (указанных ниже) пытаются каталогизировать оцифрованные газеты всего мира.

Успешное сканирование газет - сложный процесс. Хотя сканирование с бумаги возможно, сканирование микрофильмов обходится дешевле, а хорошие микрофильмы называют «самым важным фактором успеха оцифровки газет».[2] Анализ OCR отсканированных страниц представляет ряд технических проблем, а текст старых газет часто бывает трудно читать, что приводит к ошибкам и усложняет поиск. Еще один важный шаг - прикрепление метаданных к изображениям, чтобы их было легче найти. Наконец, необходимо разработать поисковые интерфейсы. Ряд компаний специализируется на сканировании газет, а некоторые выпускают программное обеспечение, специально разработанное для этого процесса.

Стоимость хранения печатных газет и относительно низкий спрос на оригиналы после микрофильмирования и сканирования означает, что печатные газеты после микрофильмирования или сканирования часто выбрасываются. Некоторые люди считают, что это потеря для исследователей, или что ощущение остроты ощущения от чтения бумаги исчезает. Автор Николсон Бейкер зашел так далеко, что создал архив бумажных газет, который он назвал Репозиторий американских газет, чтобы сохранить бумажные газеты, которые в противном случае были бы выброшены.

Более поздние газеты могли быть «рождены цифровыми», что означает, что они печатались из компьютерных файлов, а не с помощью высокой печати или фотонабора.[нужна цитата ] Их можно заархивировать, сохраняя цифровые файлы издателя с изображением каждой страницы, а не сканировать страницы.

Средства поиска и метапоисковые системы

Смотрите также

Рекомендации

  1. ^ «Центр научных библиотек,« Состояние дел: сравнительный анализ оцифровки газет на сегодняшний день », 10 апреля 2015 г.» (PDF).
  2. ^ "Лучшие практики оцифровки газет, глава 4 в Лучшие практики для создания цифровых коллекций, Иллинойсский университет в Урбане-Шампейн ".

внешняя ссылка