Сканирование книг - Book scanning

Интернет-архив Книжный сканер-писец 2011
Интернет-архивный сканер книг

Сканирование книг или же оцифровка книг (также: сканирование журнала или же оцифровка журналов) - это процесс преобразования физических книги и журналы в цифровые СМИ Такие как изображений, электронный текст, или же электронные книги (электронные книги) с помощью сканер изображений.

Цифровые книги можно легко распространять, воспроизводить и читать на экране. Распространенные форматы файлов: DjVu, Формат переносимого документа (PDF) и Теговый формат файла изображения (TIFF). Чтобы преобразовать необработанные изображения оптическое распознавание символов (OCR) используется для преобразования страниц книги в цифровой текстовый формат, например ASCII или другой аналогичный формат, который уменьшает размер файла и позволяет переформатировать текст, искать или обрабатывать его другими приложениями.

Сканеры изображений могут быть ручными или автоматическими. В обычном коммерческом сканере изображений книга помещается на плоскую стеклянную пластину (или валик), а световой и оптический массив перемещается по книге под стеклом. В ручных книжных сканерах стеклянная пластина доходит до края сканера, что упрощает выравнивание корешка книги. Другие книжные сканеры помещают книгу лицевой стороной вверх в V-образную рамку и фотографируют страницы сверху. Страницы можно переворачивать вручную или с помощью автоматических устройств подачи бумаги. Листы стекла или пластика обычно прижимают к странице, чтобы она стала плоской.

После сканирования программное обеспечение корректирует изображения документа, выстраивая их, обрезая, редактируя изображения и преобразовывая в текст и окончательную форму электронной книги. Корректоры-люди обычно проверяют вывод на наличие ошибок.

Сканирование на 118 точек / сантиметр (300 dpi) подходит для преобразования в цифровой текст, но для архивного воспроизведения редких, сложных или иллюстрированных книг используется гораздо более высокое разрешение.[нужна цитата ] Высококачественные сканеры, способные обрабатывать тысячи страниц в час, могут стоить тысячи долларов, но сделай это сам (DIY) ручные книжные сканеры, способные обрабатывать 1200 страниц в час, были построены за 300 долларов США.[1]

Коммерческие книжные сканеры

Эскиз V-образного книжного сканера от Atiz
Эскиз типичного ручного книжного сканера

Коммерческие книжные сканеры не похожи на обычные сканеры; эти книжные сканеры обычно высокого качества цифровая камера с источниками света по обе стороны от камеры, установленными на какой-то рамке, чтобы обеспечить легкий доступ человеку или машине для перелистывания страниц книги. В некоторых моделях используются V-образные подставки для книг, которые обеспечивают поддержку корешков книг, а также автоматически центрируют положение книги.

Преимущество этого типа сканера в том, что он очень быстрый по сравнению с производительностью накладных сканеров.

Масштабные проекты

Проекты вроде Проект Гутенберг (оценка 1971 г.), Проект "Миллион книг" (оценка около 2001 г.), Google Книги (оценка 2004 г.), а Open Content Alliance (оценка 2005 г.) крупномасштабное сканирование книг.

Одна из основных проблем - огромное количество книг, которые необходимо сканировать. В 2010 году общее количество произведений, появившихся в качестве книг по истории человечества, оценивалось примерно в 130 миллионов.[2] Все они должны быть отсканированы, а затем доступны для поиска в Интернете, чтобы их могли использовать в качестве универсальная библиотека. В настоящее время есть три основных способа, на которые полагаются крупные организации: аутсорсинг, внутреннее сканирование с использованием коммерческих книжных сканеров и собственное сканирование с использованием решений для роботизированного сканирования.

Что касается аутсорсинга, книги часто отправляются для сканирования из недорогих источников в Индия или же Китай. В качестве альтернативы, из-за удобства, безопасности и улучшения технологий, многие организации предпочитают сканировать собственными силами, используя либо потолочные сканеры, которые требуют много времени, либо сканирующие машины на базе цифровых фотоаппаратов, которые значительно быстрее и являются методом, используемым Internet Archive as. ну как гугл. Традиционные методы включали отрезание корешка книги и сканирование страниц в сканер с возможностью автоматической подачи страниц с последующей переплеткой отдельных страниц.

После сканирования страницы данные вводится либо вручную, либо с помощью OCR, что является еще одной важной статьей расходов при сканировании книг.[согласно кому? ]

Из-за Авторские права проблемы, большинство отсканированных книг не защищены авторским правом; тем не мение, Поиск книг Google известно, что сканирует книги, все еще защищенные авторским правом, если только издатель специально запрещает это.[нужна цитата ]

Совместные проекты

В Соединенных Штатах существует множество совместных проектов по оцифровке. Двумя из самых ранних проектов были проект совместной оцифровки в Колорадо и NC ECHO - Северная Каролина изучает культурное наследие в Интернете,[3] на основе Государственная библиотека Северной Каролины.

Эти проекты устанавливают и публикуют передовые методы оцифровки и работают с региональными партнерами над оцифровкой материалов культурного наследия. Дополнительные критерии лучших практик совсем недавно были установлены в Великобритании, Австралии и Европейском союзе.[4] Wisconsin Heritage Online[5] - это совместный проект оцифровки, созданный по образцу Колорадского совместного проекта оцифровки. Висконсин использует вики[6] для создания и распространения совместной документации. Грузинская программа совместной оцифровки, Цифровая библиотека Грузии,[7] представляет собой единую виртуальную библиотеку по истории и жизни государства, включающую более сотни цифровых коллекций из 60 учреждений и 100 правительственных агентств. В Цифровая библиотека Грузии это ГАЛИЛЕО[8] инициатива, основанная на библиотеках Университета Джорджии.

В двадцатом веке Музей Хилла и библиотека рукописей сфотографировал книги в Эфиопии, которые впоследствии были уничтожены в результате политического насилия в 1975 году. С тех пор библиотека работала над фотографированием рукописей в странах Ближнего Востока.[9]

В Южной Азии трест Нанакшахов оцифровывает рукописи Гурмухисскрипт.

В Австралии было много совместных проектов между Национальная библиотека Австралии и университеты для улучшения инфраструктуры репозитория, в которой будет храниться оцифрованная информация.[10] Некоторые из этих проектов включают проект ARROW (Австралийские исследовательские репозитории в Интернете для всего мира) и проект APSR (Австралийское партнерство для устойчивого репозитория).

Методы деструктивного сканирования

Самый дешевый способ сканирования книги или журнала с ограниченным бюджетом - это обрезать переплет. Это превращает книгу или журнал в пачку листов бумаги, которые затем можно загрузить в стандартный автоподатчик документов (АПД) и сканированные с использованием недорогой и распространенной технологии сканирования. Хотя это нежелательное решение для очень старых и необычных книг, это полезный инструмент для сканирования книг и журналов, когда книга не является дорогостоящим предметом коллекционирования и легко заменить отсканированное содержимое. Этот процесс связан с двумя техническими трудностями: первая связана с резкой, а вторая - со сканированием.

Развязывание

Более точным и менее разрушительным, чем разрезание страниц гильотиной для бумаги, бритвой или ножницами, является метод тщательного развязывания вручную с помощью инструментов. Этот метод был успешно применен для десятков тысяч страниц архивных оригиналов бумаги, отсканированных для проекта цифрового архива Рязановской библиотеки из газет, журналов и брошюр возрастом от 50 до 100 лет и более, часто составленных из хрупкой, хрупкой бумаги. Хотя денежная ценность для некоторых коллекционеров (и для большинства продавцов такого рода материалов) снижается в результате развязывания, развязывание во многих случаях на самом деле значительно помогает сохранению самих физических страниц, делая их более доступными для исследователей и снижая вероятность их повреждения при впоследствии обследован. Обратной стороной является то, что несвязанные стопки страниц «взлохмачены» и, следовательно, больше подвержены воздействию кислорода воздуха, что в некоторых случаях (теоретически) может привести к снижению скорости. Эту проблему можно решить, установив веса на страницы после того, как они распакованы, и поместив их в соответствующие контейнеры.

Ручное развязывание сохранит текст, который попадает в канавки переплетов, и, что наиболее важно, позволяет выполнять более простые и полные высококачественные отсканированные материалы шириной в две страницы, такие как центральные мультфильмы, графические изображения и фотографии в журналах. Цифровой архив «Освободителя 1918-1924» в марксистском Интернет-архиве прекрасно демонстрирует качество двухстраничных графических сканирований, которые стали возможными благодаря осторожному развязыванию вручную перед сканированием на плоской платформе или другим способом.

Методы развязывания различаются в зависимости от технологии переплета: от простого удаления нескольких скоб до разгибания и удаления гвоздей и до тщательной шлифовки слоев клея на корешке книги до точного точного расположения с последующим трудоемким удалением веревки, которая использовалась для удержания книги. бронируйте вместе.

Обратите внимание, что в некоторых газетах (например, Labour Action 1950-1952) в центре обращены к страницам колонки, которые идут прямо между страницами. Отрубив часть корешка переплетенного тома таких бумаг, вы потеряете часть этого текста. Даже в репринте Гринвуда этой публикации не удалось сохранить текстовое содержание этих центральных столбцов, в результате чего было вырезано значительное количество текста. Только когда переплетенные тома оригинальной газеты были тщательно развязаны и открытая пара центральных страниц сканировалась как одна страница на планшетном сканере, содержимое центральной колонки стало доступным в цифровом виде. В качестве альтернативы можно представить две развернутые центральные страницы как три скана. По одной для каждой отдельной страницы и по одной в области размером со страницу, расположенной над центром двух страниц.

Резка

Один из способов разрезания стопки от 500 до 1000 страниц за один проход выполняется с помощью гильотина резак для бумаги. Это большой стальной стол с бумагой. тиски который прикручивается к стопке и надежно фиксирует ее перед резкой. Резка выполняется большим заостренным стальным лезвием, которое движется прямо вниз и разрезает каждый лист сразу по всей длине. Рычаг на лезвии позволяет приложить к лезвию несколько сотен фунтов силы для быстрой резки за один проход.

Чистый разрез толстой стопки бумаги невозможно сделать традиционным недорогим серповидным шарниром. резак для бумаги. Эти резаки предназначены только для нескольких листов, при этом практический предел резки - до десяти листов. Большая стопка бумаги воздействует на шарнир скручивающими усилиями, отталкивая лезвие от режущей кромки стола. Резание становится более неточным по мере удаления от петли, и сила, необходимая для удержания лезвия у режущей кромки, увеличивается по мере удаления разреза от петли.

В процессе гильотинной резки лезвие со временем затупляется, что требует повторной заточки. Бумага с покрытием например, гладкая журнальная бумага притупляет лезвие быстрее, чем обычная книжная бумага, из-за каолинит глина покрытие. Кроме того, удаление переплета всей книги в твердом переплете приводит к чрезмерному износу из-за прорезания жесткого материала основы обложки. Вместо этого можно снять внешнюю обложку и вырезать только внутренние страницы.

Альтернативный метод развязывания книг - использовать настольную пилу. Хотя этот метод потенциально опасен и не оставляет такой гладкой кромки, как метод гильотинного резака для бумаги, он более доступен для обычного человека. Идеальный метод - зажать книгу между двумя толстыми досками с помощью тяжелых крепежных винтов, чтобы обеспечить прижимную силу. Вся пачка древесины и книг пропускается через настольную пилу, используя направляющую планку. Острое лезвие из твердого сплава с мелкими зубьями идеально подходит для получения приемлемого среза. Качество резки зависит от лезвия, скорости подачи, типа бумаги, покрытия бумаги и переплетного материала.

Сканирование

Как только бумага будет освобождена от корешка, ее можно сканировать по одному листу за раз, используя традиционный планшетный сканер или же автоподатчик документов.

Страницы с декоративными рифлеными краями или изогнутыми по дуге из-за неплоского переплета могут быть трудно сканировать с помощью АПД, поскольку они предназначены для сканирования страниц одинаковой формы и размера, а страницы переменного размера или формы могут привести к неправильному сканированию. сканирование. Рифленые края или изогнутый край можно удалить гильотинированием, чтобы сделать внешние края плоскими и гладкими перед обрезкой переплета.

Бумага с покрытием в журналах и переплетенных учебниках может затруднить захват роликов АПД и их направление вдоль пути прохождения бумаги. Устройство автоматической подачи документов, в котором для переворачивания листов используется ряд роликов и каналов, может замяться или застрять при подаче бумаги с покрытием. Как правило, меньше проблем при использовании максимально прямого тракта прохождения бумаги с небольшим количеством изгибов и изгибов. Глина также может со временем стирать бумагу и покрывать липкие ролики захвата бумаги, из-за чего они плохо захватывают бумагу. Ролики АПД могут нуждаться в периодической чистке, чтобы предотвратить скольжение.

Журналы могут создавать проблемы при массовом сканировании из-за небольших неоднородных листов бумаги в стопке, таких как карточки подписки на журналы и складывающиеся страницы. Их необходимо удалить до начала массового сканирования, и они либо сканируются отдельно, если они содержат полезный контент, либо просто исключаются из процесса сканирования.

Неразрушающее сканирование

Пример неразрушающего книжного сканера / дигитайзера, сделанного своими руками, с направленной вниз книгой, позволяющей гравитации выравнивать страницы

Программно-управляемые машины и роботы были разработаны для сканирования книг без необходимости их развязывания, чтобы сохранить как содержимое документа, так и создать архив цифровых изображений с его текущим состоянием. Эта недавняя тенденция отчасти объясняется постоянным совершенствованием технологий обработки изображений, которые позволяют снимать высококачественные цифровые архивные изображения с минимальным или нулевым повреждением редкой или хрупкой книги за достаточно короткий период времени.

Первым полностью автоматизированным книжным сканером был сканер DL (Digitizing Line), произведенный 4DigitalBooks в Швейцарии. Первая известная установка была в Стэнфордском университете в 2001 году.[11][12] Сканер получил награду Dow Jones, занявшую второе место в категории бизнес-приложений в 2001 году.[13]

Видео роботизированного книжного сканера DL mini

В 2007 году компания ТРЕВЕНТУС представила автоматизированный книжный сканер с углом раскрытия книги для сканирования 60 °. Это улучшение в области сохранения книг во время сканирования. Компания была награждена премией Европейского Союза «ICT Grand Prize 2007».[14],[15] за разработку ScanRobot®. Эта технология также использовалась в проекте массовой оцифровки из Баварской государственной библиотеки.[16] где 8 900 книг XVI века были оцифрованы с помощью трех V-образных сканеров в течение 18 месяцев.

ScanRobot. Автоматический сканер с углом раскрытия 60 °

Indus International, Inc, базирующаяся в Западный Салем, Висконсин, производит сканеры, которые были куплены некоторыми организациями в США для таких услуг, как межбиблиотечный абонемент.[17]

В большинстве коммерческих роботизированных сканеров высокого класса используются традиционные воздушные и всасывание технологии, в то время как некоторые другие используют альтернативные подходы, такие как бионические пальцы для перелистывания страниц. Некоторые сканеры используют преимущества ультразвуковые датчики или же фотоэлектрические датчики для обнаружения двойных страниц и предотвращения пропуска страниц. Благодаря отчетам о машинах, способных сканировать до 2900 страниц в час,[18] роботизированные книжные сканеры специально разработаны для крупномасштабных проектов оцифровки.

Патент Google 7508978 показывает инфракрасный технология камеры, которая позволяет определять и автоматически настраивать трехмерную форму страницы.[19][20] У исследователей из Токийского университета есть экспериментальный неразрушающий книжный сканер.[21] который включает в себя 3D-сканер поверхности, позволяющий программно выравнивать изображения изогнутой страницы. Таким образом, книгу или журнал можно сканировать так быстро, как оператор может перелистывать страницы, около 200 страниц в минуту.

Смотрите также

Переворачивая страницы между сканированием.

Рекомендации

  1. ^ «Скоростной книжный сканер своими руками из мусора и дешевых фотоаппаратов». Instructables.com. Получено 19 января 2014.
  2. ^ Тайчер, Леонид (05.08.2010). «По состоянию на 5 августа 2010 г., по оценкам Google, в мире насчитывается 129 864 880 различных книг». Googleblog.blogspot.co.at. Получено 2014-08-08.
  3. ^ "ECHO Северной Каролины: изучение культурного наследия в Интернете". ncecho.org.
  4. ^ Электронные библиотеки: принципы и практика в мире Окружающая среда, Ариадна, апрель 2005 г.
  5. ^ "Воспоминание о Висконсине". 29 ноября 2006 г.
  6. ^ «Wisconsin Heritage Online [только для некоммерческого использования] / FrontPage». pbworks.com.
  7. ^ «Добро пожаловать в Цифровую библиотеку Грузии». usg.edu.
  8. ^ "ГАЛИЛЕО". usg.edu.
  9. ^ «Кодексы расшифрованы». Экономист. 18 декабря 2010. с. 151.
  10. ^ Библиотеки в двадцать первом веке: новые направления информационных услуг. Под редакцией Стюарта Фергюсона, 2007 г., стр. 84
  11. ^ Дэвис, Джон. «4DigitalBooks запускает сканер цифровых книг». PrintWeek.
  12. ^ "Роботизированный книжный сканер библиотек Стэнфордского университета (SUL)". Библиотеки Стэнфордского университета (SUL).
  13. ^ «Награды за технологические инновации: победители 2001 года». Доу Джонс. Архивировано из оригинал на 2015-09-23. Получено 2017-08-07.
  14. ^ «Европейская Комиссия - ПРЕСС-РЕЛИЗЫ - Пресс-релиз - Британские, шведские и австрийские предприниматели получили« Нобелевскую премию »ЕС в области ИКТ». europa.eu. Получено 2019-06-04.
  15. ^ "Treventus ICT Grand price 2007". Тревентус.
  16. ^ «Проект Баварской государственной библиотеки VD16» (PDF). Тревентус. Архивировано из оригинал (PDF) на 2016-07-08. Получено 2019-06-04.
  17. ^ Колледж Надежды (06.09.2012). "Встречайте новый сканер библиотеки". Получено 2020-05-21.
  18. ^ Рэпп, Дэвид. "Обзор продукта: библиотечные сканеры". Библиотечный журнал. Получено 11 мая 2014.
  19. ^ США 7508978, Lefevere, Francois-Marie & Marin Saric, "Обнаружение бороздок на отсканированных изображениях", выпущенный 24 марта 2009 г., передан Google 
  20. ^ Раскрыт секрет сканирующей машины Google, Морин Клементс, 30 апреля 2009 г.
  21. ^ Гуиццо, Эрико (17 марта 2010 г.). ""Сверхбыстрый сканер позволяет оцифровывать книгу путем перелистывания страниц ", IEEE Spectrum, 17 марта 2010 г.". Spectrum.ieee.org. Получено 2014-08-08.

внешняя ссылка