Оцифровка газет - Newspaper digitization
Оцифровка газет это процесс преобразования старых газет из аналоговой формы в цифровые изображения. Наиболее распространенными аналогами старых газет являются бумага и микрофильм. Оцифрованные изображения газетных страниц обычно (хотя и не всегда) анализируются с помощью OCR программное обеспечение для создания текстовых файлов с содержанием газеты. Оцифровка газет - частный случай оцифровка в целом.
Газеты хранят богатую историю прошлого, и с момента появления цифровых медиа многие учреждения по всему миру начали оцифровывать их и делать цифровые файлы общедоступными. Однако в 2015 году более 90% газет не сканировались.[1] Оцифрованные газеты могут быть доступны бесплатно или за плату. Несколько списков (указанных ниже) пытаются каталогизировать оцифрованные газеты всего мира.
Успешное сканирование газет - сложный процесс. Хотя сканирование с бумаги возможно, сканирование микрофильмов обходится дешевле, а хорошие микрофильмы называют «самым важным фактором успеха оцифровки газет».[2] Анализ OCR отсканированных страниц представляет ряд технических проблем, а текст старых газет часто бывает трудно читать, что приводит к ошибкам и усложняет поиск. Еще один важный шаг - прикрепление метаданных к изображениям, чтобы их было легче найти. Наконец, необходимо разработать поисковые интерфейсы. Ряд компаний специализируется на сканировании газет, а некоторые выпускают программное обеспечение, специально разработанное для этого процесса.
Стоимость хранения печатных газет и относительно низкий спрос на оригиналы после микрофильмирования и сканирования означает, что печатные газеты после микрофильмирования или сканирования часто выбрасываются. Некоторые люди считают, что это потеря для исследователей, или что ощущение остроты ощущения от чтения бумаги исчезает. Автор Николсон Бейкер зашел так далеко, что создал архив бумажных газет, который он назвал Репозиторий американских газет, чтобы сохранить бумажные газеты, которые в противном случае были бы выброшены.
Более поздние газеты могли быть «рождены цифровыми», что означает, что они печатались из компьютерных файлов, а не с помощью высокой печати или фотонабора.[нужна цитата ] Их можно заархивировать, сохраняя цифровые файлы издателя с изображением каждой страницы, а не сканировать страницы.
Средства поиска и метапоисковые системы
- Мировой список архивов интернет-газет, хранится в Википедии.
- Мировой список проектов по оцифровке газет в Центре научных библиотек, Международная коалиция газет.
- Elephind.com, веб-сайт, предоставляющий бесплатную службу метапоиска для нескольких крупных коллекций (в основном австралийских и американских).
Смотрите также
Рекомендации
внешняя ссылка
- Кеннинг Арлич и Джон Герберт, «Микрофильм, бумага и OCR: проблемы оцифровки газет» Обзор микроформ и изображений, 33, 2 (2003): 59-67. (Ранний обзор оцифровки газет.)
- Эдвин Клин, «Текущее состояние оцифровки газет: рыночная перспектива» Журнал D-Lib, 14, 1-2 (январь – февраль 2008 г.).
- Центр научных библиотек, «Современное состояние: сравнительный анализ оцифровки газет на сегодняшний день», 10 апреля 2015 г.