Изучение геометрических элементов - Geometric feature learning - Wikipedia

Изучение геометрических элементов это техника, сочетающая машинное обучение и компьютерное зрение для решения визуальных задач. Основная цель этого метода - найти набор репрезентативных характеристик геометрической формы для представления объекта путем сбора геометрических элементов из изображений и их изучения с использованием эффективных машинное обучение методы. Люди решают визуальные задачи и могут быстро реагировать на окружающую среду, извлекая перцептивную информацию из того, что они видят. Исследователи моделируют способность человека распознавать объекты для решения задач компьютерного зрения. Например, M. Mata et al. (2002) ^[1] прикладные методы изучения особенностей мобильный робот навигация задачи во избежание препятствий. Они использовали генетические алгоритмы для обучения особенностям и распознавание объектов (цифры). Методы обучения геометрическим элементам могут не только решать проблемы распознавания, но и предсказывать последующие действия путем анализа набора последовательных входных сенсорных изображений, обычно некоторых извлекающих элементов изображений. Посредством обучения выдается некоторая гипотеза следующего действия и, в соответствии с вероятностью каждой гипотезы, дается наиболее вероятное действие. Этот метод широко используется в области искусственный интеллект.

Вступление

Методы изучения геометрических элементов извлекают из изображений отличительные геометрические элементы. Геометрические элементы - это элементы объектов, построенных из набора геометрических элементов, таких как точки, линии, кривые или поверхности. Этими элементами могут быть угловые элементы, элементы краев, капли, гребни, текстура изображения выступающих точек и т. Д., Которые могут быть обнаружены с помощью обнаружение функции методы.

Геометрические особенности

Примитивные особенности

Углы: Углы - очень простая, но важная особенность объектов. В частности, сложные объекты обычно имеют разные угловые элементы друг с другом. Углы объекта можно извлечь с помощью техники, вызывающей Обнаружение углов. Чо и Данн ^[2] использовал другой способ определения угла по расстоянию и углу между двумя отрезками прямой. Это новый способ определения объектов как параметризованной композиции из нескольких компонентов.
Края: Края - это одномерные структурные элементы изображения. Они представляют собой границу различных областей изображения. Контур объекта можно легко определить, найдя край с помощью техники обнаружение края.
BLOB-объекты: BLOB-объекты представляют собой области изображений, которые можно обнаружить с помощью обнаружение капли метод.
Гребни: с практической точки зрения гребень можно рассматривать как одномерную кривую, которая представляет ось симметрии. Метод обнаружения гребней - см. обнаружение гребня
основные моменты - см. Детектор выраженности Кадира – Брэди
текстура изображения

Составные особенности^[3]

Геометрическая композиция

Геометрический компонент представляет собой комбинацию нескольких примитивных элементов, и он всегда состоит из более чем двух примитивных элементов, таких как края, углы или капли. Извлечение геометрического вектора признаков в точке х может быть вычислена в соответствии с опорной точкой, которая показана ниже:

{ displaystyle textstyle x_ {i} = x_ {i-1} + sigma _ {i-1} d_ {i} { begin {bmatrix} cos ( theta _ {i-1} + phi _ {i}) sin ( theta _ {i-1} + phi _ {i}) end {bmatrix}}}

{ displaystyle textstyle theta _ {i} = theta _ {i-1} + Delta theta _ {i}}

{ displaystyle textstyle sigma _ {я} = sigma _ {я-1} Delta sigma _ {я}}

x означает расположение расположения функций, ${ displaystyle textstyle theta}$ означает ориентацию, ${ displaystyle textstyle sigma}$ означает внутреннюю шкалу.

Логическая композиция

Составной логический объект состоит из двух подкомпонентов, которые могут быть примитивными или составными. Есть два типа логических признаков: конъюнктивный признак, значение которого является продуктом двух под-признаков, и дизъюнктивный признак, значение которого является максимальным из двух под-признаков.

Пространство функций

Пространство функций был впервые рассмотрен в области компьютерного зрения компанией Segen.^[4] Он использовал многоуровневый граф, чтобы представить геометрические отношения локальных объектов.

Алгоритмы обучения

Существует множество алгоритмов обучения, которые можно применить, чтобы научиться находить Отличительные черты объектов на изображении. Обучение может быть постепенным, что означает, что классы объектов могут быть добавлены в любое время.

Методы извлечения геометрических элементов

Алгоритм изучения функций

1. Приобретите новый тренировочный образ «Я».

2. По алгоритму распознавания оцените результат. Если результат верен, распознаются новые классы объектов.

алгоритм распознавания

Ключевым моментом алгоритма распознавания является нахождение наиболее отличительных черт среди всех признаков всех классов. Итак, используя приведенное ниже уравнение, чтобы максимизировать функцию ${ displaystyle textstyle f_ {max}}$

{ displaystyle textstyle I_ {max} = { underset {f} {max}} { underset {C} {max}} I (C, F_ {f})}

{ displaystyle textstyle I (C, F_ {f}) = - { underset {C} { sum}} { underset {F_ {f}} { sum}} BEL (F_ {f}, C ) log { frac {BEL (C, F_ {f})} {BEL (F_ {f}) BEL (C)}}}

Измерьте ценность объекта на изображениях, ${ displaystyle textstyle f_ {max}}$ и ${ displaystyle textstyle f_ {f_ {max}}}$ и локализуйте функцию:

{ displaystyle textstyle f_ {f _ {(p)}} (I) = { underset {x in I} {max}} f_ {f _ {(p)}} (x)}

Где ${ displaystyle textstyle f_ {f _ {(p)}} (x)}$ определяется как ${ displaystyle textstyle f_ {f _ {(p)}} (I) = max left {0, { frac {f (p) ^ {T}) f (x)} { left | f ( p) right | left | f (x) right |}} right }}$

оценка

После распознавания признаков необходимо оценить результаты, чтобы определить, можно ли распознать классы. Существует пять категорий оценки результатов распознавания: правильные, неправильные, неоднозначные, запутанные и невежественные. Если оценка верна, добавьте новый тренировочный образ и тренируйте его. Если распознавание не удалось, узлы признаков должны иметь максимальную различительную силу, которая определяется расстоянием Колмогорова-Смирно (KSD).

{ displaystyle textstyle KSD_ {a, b} (X) = { underset { alpha} {max}} left | cdf ( alpha | a) -cdf ( alpha | b) right |}

3.Алгоритм обучения функции После того, как функция распознана, ее следует применить к Байесовская сеть чтобы распознать изображение, используя алгоритм обучения функции для тестирования.

Основная цель алгоритма изучения признаков - найти новую функцию из образца изображения, чтобы проверить, распознаются ли классы или нет. Следует рассмотреть два случая: поиск новой функции истинного класса и неправильного класса из образца изображения соответственно. Если обнаруживается новая функция истинного класса, а неправильный класс не распознается, то класс распознается, и алгоритм должен завершиться. Если признак истинного класса не обнаружен, а признак ложного класса обнаружен в образце изображения, следует предотвратить распознавание ложного класса и эту особенность следует удалить из байесовской сети.
Использование байесовской сети для реализации процесса тестирования

Алгоритм обучения функций на основе модели PAC

Структура обучения

Модель «Вероятно приблизительно правильная» (PAC) была применена Д. Ротом (2002) для решения проблемы компьютерного зрения путем разработки теории обучения без распределения, основанной на этой модели.^[5] Эта теория в значительной степени опиралась на разработку подхода к обучению с эффективным использованием функций. Цель этого алгоритма - изучить объект, представленный некоторыми геометрическими элементами изображения. Вход - это вектор признаков а на выходе - 1, что означает успешное обнаружение объекта, в противном случае - 0. Основным моментом этого подхода к обучению является сбор репрезентативных элементов, которые могут представлять объект через функцию и тестирование путем распознавания объекта по изображению, чтобы найти представление с высокой вероятностью. Алгоритм обучения нацелен на прогнозирование того, ${ displaystyle textstyle f_ {T} (X)}$ принадлежит классу, где X - пространство экземпляров, состоящее из параметров, а затем проверяет, верен ли прогноз.

Рамки оценки

После изучения функций должны быть некоторые алгоритмы оценки для оценки алгоритмов обучения. Д. Рот применил два алгоритма обучения:

1.Система разреженной сети Winnows (SNoW)

SNoW-Поезд
- Начальный шаг: начните набор функций ${ displaystyle textstyle F_ {t} = phi}$ который связан с целью t для всех ${ displaystyle textstyle t in T}$ . T - это набор целей объекта, элементы которого ${ displaystyle textstyle t_ {1}}$ к ${ displaystyle textstyle t_ {k}}$
- Если каждый целевой объект в наборе T принадлежит к списку активных функций, свяжите объект с целью и установите начальный вес одновременно.
- Оцените цели: сравните цели ${ displaystyle textstyle { underset {i in e} { sum}} w_ {i} ^ {t}}$ с ${ displaystyle textstyle theta _ {t}}$ , куда ${ displaystyle textstyle w_ {i} ^ {t}}$ - вес на одной позиции, соединяющий элементы i с целью t. theta_ {t} - это порог для цели, а не t.
- Обновите вес в соответствии с результатом оценки. Есть два случая: предсказанный положительный на отрицательном примере ( ${ displaystyle textstyle { underset {i in e} { sum}} w_ {i} ^ {t}> theta _ {t}}$ и цели отсутствуют в списке активных функций) и прогнозируемый отрицательный на положительном примере ( ${ displaystyle textstyle { underset {i in e} { sum}} w_ {i} ^ {t} leq theta _ {t}}$ и цели находятся в списке активных функций).
SNoW-Оценка
- Оцените каждую цель, используя ту же функцию, что и выше.
- Прогноз: примите решение выбрать доминирующий активный целевой узел.

2. опорные векторные машины

Основная цель SVM - найти гиперплоскость разделить набор образцов ${ displaystyle textstyle (x_ {i}, y_ {i})}$ куда ${ displaystyle textstyle x_ {i}}$ - входной вектор, который представляет собой набор функций ${ displaystyle textstyle x in R ^ {N}}$ и ${ displaystyle textstyle y_ {i}}$ это ярлык ${ displaystyle textstyle x_ {i}}$ . Гиперплоскость имеет следующий вид: ${ displaystyle textstyle f (x) = sign left ( sum _ {i = 1} ^ {l} y_ {i} alpha _ {i} cdot k (x, x_ {i}) + b right) = left {{ begin {matrix} 1, положительное ; входы - 1, отрицательное ; входы end {matrix}} right.}$

${ Displaystyle TextStyle к (х, х_ {я}) = фи (х) cdot фи (х_ {я})}$ это функция ядра

Оба алгоритма разделяют данные обучения, находя линейную функцию.

Приложения

Изучение ориентиров для топологической навигации^[6]
Моделирование детектирования объектного процесса зрительного поведения человека^[7]
Изучение самопроизвольного действия ^[8]
Отслеживание транспортных средств^[9]