Мозаика документа - Document mosaicing

Мозаика документа это процесс, который швы несколько, перекрывающиеся снимок изображения документа вместе для создания одного большого композитного изображения с высоким разрешением. Документ продвигается вручную под стационарную камеру, устанавливаемую над столом, до тех пор, пока все части документа не будут сфотографированы в поле зрения камеры. Когда документ скользил под камерой, все движение документа грубо отслеживается системой технического зрения. Документ периодически создается моментальными снимками, так что последовательные снимки перекрываются примерно на 50%. Затем система находит перекрывающиеся пары и многократно сшивает их вместе, пока все пары не будут сшиты вместе как один кусок документа.^[1]

Мозаику документа можно разделить на четыре основных процесса.

Отслеживание
Обнаружение функции
Установление корреспонденции
Мозаика изображений.

Отслеживание (простой процесс корреляции)

В этом процессе движение документа, скользящего под камерой, грубо отслеживается системой. Отслеживание выполняется с помощью процесса, называемого простым корреляция процесс. В первом кадре моментальных снимков небольшой фрагмент извлекается из центра изображения в качестве шаблона корреляции, как показано на рисунке 1. Процесс корреляции выполняется в четырехкратном размере области фрагмента следующего кадра. На движение бумаги указывает пик корреляционной функции. Пик корреляционной функции указывает на движение бумаги. Из этого кадра выполняется повторная выборка шаблона, и отслеживание продолжается до тех пор, пока шаблон не достигнет края документа. После того, как шаблон достигает края документа, делается еще один снимок, и процесс отслеживания выполняется многократно, пока не будет отображен весь документ. Снимки хранятся в упорядоченном списке, чтобы упростить объединение перекрывающихся изображений в более поздние процессы.

Обнаружение признаков для эффективного сопоставления

Обнаружение признаков - это процесс поиска преобразования, которое выравнивает одно изображение с другим. Есть два основных подхода к обнаружению функций.^[2]^[3]

Функциональный подход : Параметры движения оцениваются по точечным соответствиям. Этот подход подходит для случая, когда имеется множество стабильных и обнаруживаемых функций.
Безликий подход : Когда движение между двумя изображениями небольшое, параметры движения оцениваются с помощью оптический поток. С другой стороны, когда движение между двумя изображениями велико, параметры движения оцениваются с использованием обобщенного взаимная корреляция. Однако этот подход требует затратных в вычислительном отношении ресурсов.

Каждое изображение сегментированный в иерархию столбцов, строк и слов, чтобы соответствовать организованным наборам функций на изображениях. Оценка угла перекоса и поиск столбцов, линий и слов являются примерами операций обнаружения признаков.

Оценка угла перекоса

Во-первых, угол, под которым строки текста образуют изображение. растр линий (угол перекоса) оценивается. Предполагается, что он лежит в диапазоне ± 20 °. Небольшой фрагмент текста на изображении выбирается случайным образом и затем поворачивается в диапазоне ± 20 ° до тех пор, пока дисперсия интенсивностей пикселей фрагмента, суммированного по линиям растра, не станет максимальной.^[4] См. Рисунок 2.

Чтобы гарантировать точность найденного угла перекоса, система мозаики документа выполняет вычисление на многих участках изображения и получает окончательную оценку, находя среднее значение отдельных углов, взвешенных по дисперсии яркости пикселей каждого участка.

Поиск столбцов, строк и слов

В ходе этой операции деактивируемый документ интуитивно сегментируется на иерархию столбцов, строк и слов. Чувствительность к освещению и окраске страницы перекошенного документа можно устранить, применив Оператор Собеля к неискаженному изображению и установлению порога вывода, чтобы получить бинарный градиент, устраненное искажение изображения.^[5] См. Рисунок 3.

Операцию можно условно разделить на 3 этапа: сегментация столбцов, сегментация строк и сегментация слов.

Столбцы легко отделяются от двоичного файла градиент изображения смещены путем суммирования пикселей по вертикали, как показано на рисунке 4.
Базовые линии каждой строки сегментируются так же, как процесс сегментации столбцов, но по горизонтали.
Наконец, отдельные слова сегментируются путем применения вертикального процесса к каждой сегментированной строке.

Эти сегментирования важны, потому что мозаика документа создается путем сопоставления правых нижних углов слов в паре перекрывающихся изображений. Более того, операция сегментации может надежно организовать список изображений в контексте иерархии строк и столбцов.

Операция сегментации включает в себя значительное суммирование в двоичном формате. градиент, деискаженные изображения, которые выполняются путем построения матрицы частичных сумм^[6] элементы которого даны

${ displaystyle p_ {iy} = sum _ {u = 1} ^ {i} sum _ {v = 1} ^ {j} b_ {uv}}$

Матрица частичных сумм вычисляется за один проход через двоичную систему. градиент, изображение без перекоса.^[6]

${ displaystyle sum _ {u = u_ {1}} ^ {u_ {2}} sum _ {v = v_ {1}} ^ {v_ {2}} b_ {uv} = p_ {u_ {2} v_ {2}} + p_ {u_ {1} v_ {1}} - p_ {u_ {1} v_ {2}} - p_ {u_ {2} v_ {1}}}$

Установление корреспонденции

Два изображения теперь организованы в иерархию связанных списков в следующей структуре:

image = список столбцов
row = список слов
столбец = список строк
слово = длина (в пикселях)

Внизу структуры записывается длина каждого слова для установления соответствия между двумя изображениями, чтобы уменьшить их для поиска только соответствующих структур для групп слов с совпадающими длинами.

Поиск совпадений семян

Поиск начального совпадения выполняется путем сравнения каждой строки в image1 с каждой строкой в image2. Затем две строки сравниваются друг с другом по каждому слову. Если длина (в пикселях) двух слов (одно из изображения 1 и одно из изображения 2) и их непосредственных соседей согласуются друг с другом в пределах заранее определенного порога допуска (например, 5 пикселей), то предполагается, что они совпадают. Строка каждого изображения считается совпадающей, если между двумя строками есть три или более совпадения слов. Операция поиска начального совпадения прекращается, когда обнаруживаются две пары последовательных совпадений строк.

Составление списка матчей

После завершения операции поиска начального совпадения следующий процесс состоит в создании списка совпадений для генерации точек соответствия двух изображений. Процесс выполняется путем поиска совпадающих пар рядов вдали от семенного ряда.

Мозаика изображений

Рисунок 5 : Мозаика двух изображений документа. Размытие очевидно в аффинной мозаике (b), но не в мозаике, построенной с использованием проективности плоскости к плоскости (a). Крупные планы типичных швов (a) и (b) показаны на (c) и (d) соответственно.^[1]

Учитывая список соответствующих точек двух изображений, следующим процессом является поиск преобразования перекрывающейся части изображений. Предполагая камеры-обскуры В модели преобразование между пикселями (u, v) изображения 1 и пикселями (u0, v0) изображения 2 демонстрируется посредством проекции плоскости на плоскость.^[7]

${ displaystyle left [{ begin {array} {c} su ' sv' s end {array}} right] = left [{ begin {array} {ccc} p_ {11} & p_ {12} & p_ {13} p_ {21} & p_ {22} & p_ {23} p_ {31} & p_ {32} & 1 end {array}} right] left [{ begin {array } {c} u v 1 end {array}} right] qquad Eq.1}$

Параметры проективности находятся из четырех пар совпадающих точек. Регрессия RANSAC^[8] Используется методика отклонения внешних совпадений и оценки проективности оставшихся хороших совпадений.

Проективность точно настраивается с использованием корреляции в углах перекрывающейся части для получения четырех соответствий с точностью до субпикселя. Следовательно, изображение 1 затем преобразуется в систему координат изображения 2 с помощью уравнения 1. Типичный результат процесса показан на рисунке 5.

Многие образы справляются

Наконец, вся композиция страницы создается путем сопоставления всех изображений с системой координат «привязанного» изображения, которое обычно является ближайшим к центру страницы. Преобразования в опорный кадр вычисляются путем конкатенации найденных ранее парных преобразований. Мозаика исходного документа показана на рисунке 6.

Однако может возникнуть проблема перекрытия непоследовательных изображений. Эту проблему можно решить, выполнив иерархическую подмозаику. Как показано на рисунке 7, регистрируются image1 и image2, а также image3 и image4, образуя две субмозаики. Эти две субмозаики позже сшиваются вместе в другом процессе мозаики.

Прикладные области

Техника мозаики документов может быть применена в различных областях, например:

Текстовая сегментация изображений документов^[5]
Распознавание документов^[4]
Взаимодействие с бумагой на цифровом столе^[9]
Видеомозаики для виртуальных сред^[10]
Методы регистрации изображений^[3]

Соответствующие исследовательские работы

Huang, T.S .; Нетравали, А. (1994). «Движение и структура из соответствий функций: обзор». Труды IEEE. 82 (2): 252–268. Дои:10.1109/5.265351.
Д.Г. Лоу. [1] Перцептивная организация и визуальное распознавание. Kluwer Academic Publishers, Бостон, 1985.
Irani, M .; Пелег, С. (1991). «Повышение разрешения путем регистрации изображения». CVGIP: графические модели и обработка изображений. 53 (3): 231–239. Дои:10.1016 / 1049-9652 (91) 90045-Л.
Shivakumara, P .; Кумар, Г. Хеманта; Гуру, Д. С .; Нагабхушан, П. (2006). «Подход на основе скользящего окна для мозаики изображения документа». Вычисления изображений и зрения. 24 (1): 94–100. Дои:10.1016 / j.imavis.2005.09.015.
[2] Мозаика изображения документа с помощью камеры. (нет данных). Изображение (Рочестер, штат Нью-Йорк), 1.
Kumar, G.H .; Shivakumara, P .; Гуру, Д. С .; Нагабхушан (2004). «Мозаика изображения документа: новый подход» (PDF). Текст. 29 (3): 329–341. CiteSeerX 10.1.1.107.4304. Дои:10.1007 / bf02703782.
Сато, Т., Икеда, С., Канбара, М., Икетани, А., Накадзима, Н., Йокоя, Н., и Ямада, К. (нет данных). Видеомозаика высокого разрешения для документов и фотографий по оценке движения камеры. Мозаика. Междисциплинарный литературный журнал.

Библиография

Энтони, Заппала; Эндрю Джи; Майкл Тейлор (1999). «Мозаика документов». Вычисления изображений и зрения. 17 (8): 589–595. Дои:10.1016 / S0262-8856 (98) 00178-4.

внешняя ссылка

Домашняя страница Advanced Vision

[MyRef2-1] а ^б ^c ^d Заппала, Энтони; Джи, Эндрю; Тейлор, Майкл (1999). «Мозаика документов». Вычисления изображений и зрения. 17 (8): 589–595. Дои:10.1016 / S0262-8856 (98) 00178-4.

[MyRef3-2] Mann, S .; Пикард Р. В. (1995). «Видеоорбиты проективной группы: новый взгляд на мозаику изображений». Технический отчет (секция перцептивных вычислений), MIT Media Laboratory (338). CiteSeerX 10.1.1.56.6000.

[MyRef4-3] а ^б Браун, Л. (1992). «Обзор методов совмещения изображений». Опросы ACM Computing. 24 (4): 325–376. CiteSeerX 10.1.1.35.2732. Дои:10.1145/146370.146374.

[MyRef5-4] а ^б Блумберг, Дэн С .; Копек, Гэри Э .; Дасари, Лакшми (1995). «Измерение перекоса и ориентации изображения документа» (PDF). В Винсенте, Люк М; Бэрд, Генри S (ред.). Распознавание документов II. Труды ШПИ. 2422. С. 302–315. Bibcode:1995SPIE.2422..302B. Дои:10.1117/12.205832.

[MyRef6-5] а ^б Тейлор, М. Дж .; Заппала, А .; Newman, W. M .; Танец, К. Р. (1999). «Документы через камеры». Вычисления изображений и зрения. 17 (11): 831–844. Дои:10.1016 / S0262-8856 (98) 00155-3.

[MyRef7-6] а ^б Preparata, F.P .; Шамос, М. И. (1985). Вычислительная геометрия: введение. Монографии по информатике. Springer – Verlag. ISBN 9780387961316.

[MyRef8-7] Mundy, J.L .; Зиссерман, А. (1992). «Приложение-Проективная геометрия для машинного зрения». Геометрическая инвариантность в компьютерном зрении. Кембридж, Массачусетс: MIT Press. CiteSeerX 10.1.1.17.1329.

[MyRef9-8] Мартин А. Фишлер; Роберт К. Боллес (1981). «Консенсус случайной выборки: парадигма для подгонки модели с приложениями для анализа изображений и автоматизированной картографии» (PDF). Коммуникации ACM. 24 (6): 381–395. Дои:10.1145/358669.358692.

[MyRef10-9] Веллнер, П. (1993). «Взаимодействие с бумагой на цифровом столе». Коммуникации ACM. 36 (7): 87–97. CiteSeerX 10.1.1.53.7526. Дои:10.1145/159544.159630.

[MyRef11-10] Szeliski, R. (1996). «Видеомозаики для виртуальных сред». Компьютерная графика и приложения IEEE. 16 (2): 22–306. Дои:10.1109/38.486677.

[1]

[2]

[3]

[4]

[5]

[6]

[7]

[8]

[9]

[10]