Компьютерное зрение - Computer vision - Wikipedia

Компьютерное зрение является междисциплинарная научная область это касается того, как компьютеры может получить понимание высокого уровня от цифровые изображения или же ролики. С точки зрения инженерное дело, он стремится понять и автоматизировать задачи, которые зрительная система человека сможет сделать.[1][2][3]

В задачи компьютерного зрения входят методы приобретение, обработка, анализируя и понимание цифровых изображений, и извлечение многомерный данные из реального мира для получения числовой или символьной информации, например в формах решений.[4][5][6][7] Понимание в этом контексте означает преобразование визуальных образов (вход сетчатки глаза) в описания мира, которые имеют смысл для мыслительных процессов и могут вызывать соответствующие действия. Это понимание изображения можно рассматривать как отделение символической информации от данных изображения с использованием моделей, построенных с помощью геометрии, физики, статистики и теории обучения.[8]

В научная дисциплина компьютерного зрения занимается теорией, лежащей в основе искусственных систем, извлекающих информацию из изображений. Данные изображения могут принимать различные формы, такие как видеопоследовательности, виды с нескольких камер, многомерные данные с 3D-сканера или медицинского сканирующего устройства. Технологическая дисциплина компьютерного зрения стремится применить свои теории и модели к созданию систем компьютерного зрения.

Поддомены компьютерного зрения включают: реконструкция сцены, обнаружение событий, видео слежение, распознавание объекта, Оценка позы в 3D, обучение, индексация, оценка движения, визуальное сервоуправление, 3D-моделирование сцены и восстановление изображения.[6]

Определение

Компьютерное зрение - это междисциплинарная область это касается того, как сделать компьютеры, чтобы получить понимание высокого уровня от цифровые изображения или же ролики. С точки зрения инженерное дело, он стремится автоматизировать задачи, которые зрительная система человека сможет сделать.[1][2][3] «Компьютерное зрение связано с автоматическим извлечением, анализом и пониманием полезной информации из одного изображения или последовательности изображений. Оно включает в себя разработку теоретической и алгоритмической основы для достижения автоматического визуального понимания».[9] Как научная дисциплина, компьютерное зрение связано с теорией искусственных систем, извлекающих информацию из изображений. Данные изображения могут принимать различные формы, такие как видеопоследовательности, виды с нескольких камер или многомерные данные с медицинский сканер.[10] Как технологическая дисциплина, компьютерное зрение стремится применить свои теории и модели для построения систем компьютерного зрения.

История

В конце 1960-х компьютерное зрение началось в университетах, которые были первопроходцами искусственный интеллект. Это должно было имитировать зрительная система человека, как ступенька к наделению роботов разумным поведением.[11] В 1966 году считалось, что этого можно добиться с помощью летнего проекта, подключив камеру к компьютеру и заставив ее «описывать увиденное».[12][13]

Что отличало компьютерное зрение от преобладающей области цифровая обработка изображений в то время было желание добыть трехмерный структура из изображений с целью достижения полного понимания сцены. Исследования 1970-х легли в основу многих компьютерного зрения. алгоритмы которые существуют сегодня, в том числе извлечение краев из изображений, разметка линий, неполиэдральные и многогранное моделирование, представление объектов как взаимосвязей более мелких структур, оптический поток, и оценка движения.[11]

В следующем десятилетии были проведены исследования, основанные на более строгом математическом анализе и количественных аспектах компьютерного зрения. К ним относится концепция масштабное пространство, вывод формы из различных сигналов, таких как затенение, текстура и фокус, и контурные модели, известные как змеи. Исследователи также поняли, что многие из этих математических концепций можно рассматривать в рамках той же системы оптимизации, что и регуляризация и Марковские случайные поля.[14]К 1990-м годам некоторые из предыдущих тем исследований стали более активными, чем другие. Исследования в проективный 3-D реконструкции привело к лучшему пониманию калибровка камеры. С появлением методов оптимизации для калибровки камеры стало ясно, что многие идеи уже были исследованы в регулировка связки теория из области фотограмметрия. Это привело к появлению методов разреженного 3-D реконструкция сцен из нескольких изображений. Был достигнут прогресс в решении проблемы плотного стерео соответствия и дальнейших методов многовидового стерео. В то же время, варианты разреза графа использовались для решения сегментация изображения. Это десятилетие также ознаменовалось первым использованием методов статистического обучения на практике для распознавания лиц на изображениях (см. Eigenface ). К концу 1990-х годов произошли значительные изменения с усилением взаимодействия между полями компьютерная графика и компьютерное зрение. Это включало рендеринг на основе изображений, морфинг изображения, просмотр интерполяции, сшивание панорамных изображений и рано рендеринг светового поля.[11]

Недавние работы ознаменовали возрождение особенность методы, используемые в сочетании с методами машинного обучения и сложными структурами оптимизации.[15][16] Развитие методов глубокого обучения вдохнуло жизнь в область компьютерного зрения. Точность алгоритмов глубокого обучения на нескольких тестовых наборах данных компьютерного зрения для задач, начиная от классификации, сегментации и оптического потока, превзошла предыдущие методы.[нужна цитата ]

Связанные поля

Искусственный интеллект

Области искусственный интеллект заниматься автономным планирование пути или обсуждение робототехнических систем перемещаться по окружающей среде.[17] Для навигации по ним требуется подробное понимание этих сред. Информация об окружающей среде может предоставляться системой компьютерного зрения, действующей как датчик технического зрения и предоставляющей высокоуровневую информацию об окружающей среде и роботе.

Искусственный интеллект и компьютерное зрение разделяют другие темы, такие как распознавание образов и методы обучения. Следовательно, компьютерное зрение иногда рассматривается как часть области искусственного интеллекта или области компьютерных наук в целом.

Информационная инженерия

Компьютерное зрение часто считается частью информационная инженерия.[18][19]

Физика твердого тела

Физика твердого тела - еще одна область, тесно связанная с компьютерным зрением. Большинство систем компьютерного зрения полагаются на датчики изображения, которые обнаруживают электромагнитное излучение, который обычно имеет форму видимый или же Инфракрасный свет. Датчики разработаны с использованием квантовая физика. Процесс взаимодействия света с поверхностями объясняется с помощью физики. Физика объясняет поведение оптика которые являются основной частью большинства систем визуализации. Сложный датчики изображения даже требовать квантовая механика дать полное представление о процессе формирования изображения.[11] Кроме того, различные проблемы измерения в физике могут быть решены с помощью компьютерного зрения, например, движение в жидкостях.

Нейробиология

Третье поле, которое играет важную роль, - это нейробиология, в частности, изучение системы биологического зрения. За последнее столетие было проведено обширное исследование глаз, нейронов и структур мозга, посвященное обработке зрительных стимулов как у людей, так и у различных животных. Это привело к грубому, но сложному описанию того, как «настоящие» системы технического зрения работают для решения определенных задач, связанных со зрением. Эти результаты привели к созданию подобласти компьютерного зрения, в которой искусственные системы предназначены для имитации обработки и поведения биологических систем на разных уровнях сложности. Кроме того, некоторые из основанных на обучении методов, разработанных в рамках компьютерного зрения (например нейронная сеть и глубокое обучение анализ и классификация изображений и признаков) имеют свою основу в биологии.

Некоторые направления исследований компьютерного зрения тесно связаны с изучением биологическое видение - действительно, точно так же многие направления исследований ИИ тесно связаны с исследованиями человеческого сознания и использованием хранимых знаний для интерпретации, интеграции и использования визуальной информации. Область биологического зрения изучает и моделирует физиологические процессы, лежащие в основе зрительного восприятия у людей и других животных. Компьютерное зрение, с другой стороны, изучает и описывает процессы, реализованные в программном и аппаратном обеспечении систем искусственного зрения. Междисциплинарный обмен между биологическим и компьютерным зрением оказался плодотворным для обеих областей.[20]

Обработка сигналов

Еще одна область, связанная с компьютерным зрением, - это обработка сигналов. Многие методы обработки сигналов с одной переменной, обычно временных сигналов, могут быть естественным образом расширены до обработки сигналов с двумя переменными или сигналов с несколькими переменными в компьютерном зрении. Однако из-за специфики изображений в рамках компьютерного зрения разработано множество методов, которые не имеют аналогов при обработке сигналов с одной переменной. Вместе с многомерностью сигнала это определяет подполе в обработке сигнала как части компьютерного зрения.

Другие поля

Помимо вышеупомянутых взглядов на компьютерное зрение, многие смежные темы исследований также могут быть изучены с чисто математической точки зрения. Например, многие методы компьютерного зрения основаны на статистика, оптимизация или же геометрия. Наконец, значительная часть области посвящена аспекту реализации компьютерного зрения; как существующие методы могут быть реализованы в различных комбинациях программного и аппаратного обеспечения или как эти методы могут быть модифицированы для увеличения скорости обработки без потери производительности. Компьютерное зрение также используется в электронной коммерции модной одежды, управлении запасами, патентном поиске, производстве мебели и индустрии красоты.[нужна цитата ]

Отличия

Области, наиболее тесно связанные с компьютерным зрением: обработка изображений, анализ изображений и машинное зрение. Эти методы и приложения во многом совпадают. Это означает, что основные методы, которые используются и разрабатываются в этих областях, похожи, что можно интерпретировать как одно поле с разными именами. С другой стороны, представляется необходимым, чтобы исследовательские группы, научные журналы, конференции и компании представляли или продвигали себя как принадлежащих конкретно к одной из этих областей, и, следовательно, были даны различные характеристики, которые отличают каждую из областей от других. представлены.

Компьютерная графика создает данные изображения из 3D-моделей, компьютерное зрение часто создает 3D-модели из данных изображения.[21] Также существует тенденция к объединению двух дисциплин, например, как исследовано в дополненная реальность.

Следующие характеристики кажутся релевантными, но не должны восприниматься как общепринятые:

  • Обработка изображений и анализ изображений стремятся сосредоточиться на 2D-изображениях, как преобразовать одно изображение в другое, например, посредством пиксельных операций, таких как повышение контрастности, локальных операций, таких как выделение краев или удаление шума, или геометрических преобразований, таких как поворот изображения. Эта характеристика подразумевает, что обработка / анализ изображения не требует предположений и не дает интерпретаций содержания изображения.
  • Компьютерное зрение включает трехмерный анализ двухмерных изображений. Это анализирует трехмерную сцену, спроецированную на одно или несколько изображений, например, как восстановить структуру или другую информацию о 3D-сцене из одного или нескольких изображений. Компьютерное зрение часто основывается на более или менее сложных предположениях о сцене, изображенной на изображении.
  • Машинное зрение это процесс применения ряда технологий и методов для обеспечения автоматического контроля на основе изображений, управления процессом и управления роботом[22] в промышленных приложениях.[20] Машинное зрение, как правило, сосредоточено на приложениях, в основном на производстве, например, роботы на основе технического зрения и системы для визуального контроля, измерения или отбора (например, сбор мусора[23]). Это означает, что технологии датчиков изображения и теория управления часто интегрируются с обработкой данных изображения для управления роботом, и что обработка в реальном времени подчеркивается посредством эффективных реализаций в аппаратном и программном обеспечении. Это также означает, что внешние условия, такие как освещение, могут быть и часто более контролируемы в машинном зрении, чем в общем компьютерном зрении, что позволяет использовать различные алгоритмы.
  • Также есть поле под названием визуализация который в первую очередь фокусируется на процессе создания изображений, но иногда также занимается обработкой и анализом изображений. Например, медицинская визуализация включает в себя значительную работу по анализу данных изображений в медицинских приложениях.
  • Ну наконец то, распознавание образов это область, в которой используются различные методы извлечения информации из сигналов в целом, в основном на основе статистических подходов и искусственные нейронные сети. Значительная часть этой области посвящена применению этих методов к данным изображений.

Фотограмметрия также пересекается с компьютерным зрением, например, стереофотограмметрия против. компьютерное стереозрение.

Приложения

Диапазон приложений варьируется от таких задач, как промышленные машинное зрение системы, которые, скажем, проверяют бутылки, мчащиеся по производственной линии, для исследования искусственного интеллекта и компьютеров или роботов, которые могут понять окружающий мир. Сферы компьютерного зрения и машинного зрения существенно пересекаются. Компьютерное зрение охватывает основную технологию автоматического анализа изображений, которая используется во многих областях. Машинное зрение обычно относится к процессу объединения автоматизированного анализа изображений с другими методами и технологиями для обеспечения автоматизированного контроля и управления роботами в промышленных приложениях. Во многих приложениях компьютерного зрения компьютеры предварительно запрограммированы на решение конкретной задачи, но методы, основанные на обучении, в настоящее время становятся все более распространенными. Примеры приложений компьютерного зрения включают системы для:

Изучение трехмерных фигур было сложной задачей для компьютерного зрения. Последние достижения в глубокое обучение позволил исследователям создавать модели, которые могут создавать и реконструировать 3D-формы из одного или нескольких видов карты глубины или силуэты плавно и эффективно [21]

Лекарство

DARPA концептуальное видео компании Visual Media Reasoning

Одной из наиболее известных областей применения является медицинское компьютерное зрение или обработка медицинских изображений, характеризующаяся извлечением информации из данных изображения в поставить диагноз пациенту. Примером этого является обнаружение опухоли, атеросклероз или другие злокачественные изменения; другой пример - измерения размеров органов, кровотока и т. д. Он также поддерживает медицинские исследования, предоставляя новую информацию: например, о структуре мозга или о качестве лечения. Применение компьютерного зрения в области медицины также включает улучшение изображений, интерпретируемых людьми, например ультразвуковых или рентгеновских изображений, для уменьшения влияния шума.

Машинное зрение

Вторая область применения компьютерного зрения - промышленность, которую иногда называют машинное зрение, где информация извлекается с целью поддержки производственного процесса. Одним из примеров является контроль качества, при котором детали или готовая продукция автоматически проверяются на предмет дефектов. Другой пример - измерение положения и ориентации деталей, которые должны быть захвачены манипулятором. Машинное зрение также широко используется в сельскохозяйственных процессах для удаления нежелательных пищевых продуктов из сыпучих материалов, этот процесс называется оптическая сортировка.[25]

Военный

Военные приложения, вероятно, являются одной из самых больших областей компьютерного зрения. Очевидными примерами являются обнаружение вражеских солдат или транспортных средств и наведение ракеты. Более совершенные системы наведения ракеты направляют ракету в область, а не в конкретную цель, и выбор цели производится, когда ракета достигает области, на основе данных изображения, полученного на месте. Современные военные концепции, такие как «осведомленность о поле боя», подразумевают, что различные датчики, включая датчики изображения, предоставляют богатый набор информации о месте боя, который может использоваться для поддержки стратегических решений. В этом случае автоматическая обработка данных используется для уменьшения сложности и объединения информации от нескольких датчиков для повышения надежности.

Автономные автомобили

Художественная концепция Любопытство, пример беспилотного наземного транспортного средства. Обратите внимание на стерео камера установлен сверху марсохода.

Одна из новейших областей применения - автономные транспортные средства, в том числе подводные аппараты, наземные транспортные средства (маленькие роботы с колесами, легковые или грузовые автомобили), летательные аппараты и беспилотные летательные аппараты (БПЛА ). Уровень автономии варьируется от полностью автономных (беспилотных) транспортных средств до транспортных средств, в которых системы компьютерного зрения поддерживают водителя или пилота в различных ситуациях. Полностью автономные транспортные средства обычно используют компьютерное зрение для навигации, например для того, чтобы узнать, где он находится, или для создания карты его окружения (SLAM ) и для обнаружения препятствий. Его также можно использовать для обнаружения определенных событий, связанных с конкретной задачей, например, БПЛА ищет лесных пожаров. Примерами вспомогательных систем являются системы предупреждения о препятствиях в автомобилях и системы для автономной посадки самолетов. Несколько производителей автомобилей продемонстрировали системы для автономное вождение автомобилей, но эта технология еще не достигла того уровня, на котором ее можно было бы выпустить на рынок. Существует множество примеров военных автономных транспортных средств, начиная от современных ракет и заканчивая БЛА для разведки или наведения ракет. Космические исследования уже ведутся с помощью автономных транспортных средств с использованием компьютерного зрения, например, НАСА с Любопытство и CNSA с Юту-2 вездеход.

Тактильная обратная связь

Резиновый искусственный кожный слой с гибкой структурой для оценки формы микроволнистых поверхностей
Выше изображена силиконовая форма с камерой внутри, содержащей множество различных точечных маркеров. Когда этот датчик прижимается к поверхности, силикон деформируется, и положение точечных маркеров смещается. Затем компьютер может получить эти данные и определить, как именно форма прижимается к поверхности. Это можно использовать для калибровки рук роботов, чтобы убедиться, что они могут эффективно захватывать объекты.

Такие материалы, как резина и силикон, используются для создания сенсоров, которые позволяют находить такие приложения, как обнаружение микроволн и калибровка рук роботов. Резину можно использовать для создания формы, которую можно разместить на пальце, внутри этой формы будет несколько датчиков деформации. Затем форму для пальца и датчики можно было разместить на небольшом листе резины, содержащем набор резиновых штифтов. Затем пользователь может надеть форму для пальца и обвести поверхность. Затем компьютер может считать данные с тензодатчиков и измерить, подталкивается ли один или несколько штифтов вверх. Если штифт проталкивается вверх, компьютер может распознать дефект на поверхности. Такая технология полезна для получения точных данных о дефектах на очень большой поверхности.[26] Другой вариант этого датчика формы пальца - датчики, которые содержат камеру, подвешенную в силиконе. Силикон образует купол вокруг камеры, а в силикон встроены точечные маркеры, расположенные на одинаковом расстоянии. Затем эти камеры можно разместить на таких устройствах, как руки роботов, чтобы компьютер мог получать высокоточные тактильные данные.[27]

Другие области применения включают:

Типовые задачи

Каждая из описанных выше прикладных областей задействует ряд задач компьютерного зрения; более или менее четко определенные задачи измерения или задачи обработки, которые могут быть решены с использованием множества методов. Ниже представлены некоторые примеры типичных задач компьютерного зрения.

В задачи компьютерного зрения входят методы приобретение, обработка, анализируя и понимание цифровых изображений, и извлечение многомерный данные из реального мира для получения числовой или символьной информации, например, в формах решений.[4][5][6][7] Понимание в этом контексте означает преобразование визуальных образов (вход сетчатки глаза) в описания мира, которые могут взаимодействовать с другими мыслительными процессами и вызывать соответствующие действия. Это понимание изображения можно рассматривать как отделение символической информации от данных изображения с использованием моделей, построенных с помощью геометрии, физики, статистики и теории обучения.[8]

Признание

Классическая задача компьютерного зрения, обработки изображений и машинное зрение заключается в определении того, содержат ли данные изображения какой-либо конкретный объект, функцию или действие. В литературе описаны различные разновидности задачи распознавания:[нужна цитата ]

  • Распознавание объекта (также называемый классификация объектов) - можно распознать один или несколько заранее заданных или изученных объектов или классов объектов, обычно вместе с их 2D-позициями на изображении или 3D-позами на сцене. Блиппар, Google Goggles и LikeThat предоставляют автономные программы, иллюстрирующие эту функциональность.
  • Идентификация - распознается индивидуальный экземпляр объекта. Примеры включают идентификацию лица или отпечатка пальца конкретного человека, идентификацию рукописные цифры, или идентификация конкретного автомобиля.
  • Обнаружение - данные изображения сканируются для определенного условия. Примеры включают обнаружение возможных аномальных клеток или тканей на медицинских изображениях или обнаружение транспортного средства в автоматической системе взимания платы за проезд. Обнаружение, основанное на относительно простых и быстрых вычислениях, иногда используется для поиска меньших областей интересных данных изображения, которые могут быть дополнительно проанализированы более требовательными к вычислениям методами для получения правильной интерпретации.

В настоящее время лучшие алгоритмы для таких задач основаны на сверточные нейронные сети. Иллюстрацией их возможностей является ImageNet - крупномасштабная задача по визуальному распознаванию; Это эталон классификации и обнаружения объектов, в котором используются миллионы изображений и 1000 классов объектов.[29] Производительность сверточных нейронных сетей в тестах ImageNet теперь близка к показателям людей.[29] Лучшие алгоритмы все еще борются с маленькими или тонкими объектами, такими как маленький муравей на стебле цветка или человек, держащий перо в руке. У них также есть проблемы с изображениями, которые были искажены фильтрами (все более распространенное явление в современных цифровых камерах). Напротив, такие изображения редко беспокоят людей. Однако у людей обычно возникают проблемы с другими проблемами. Например, они не умеют классифицировать объекты по мелкозернистым классам, таким как конкретная порода собак или вид птиц, тогда как сверточные нейронные сети справляются с этим с легкостью.[нужна цитата ].

Существует несколько специализированных задач, основанных на распознавании, таких как:

  • Поиск изображений на основе содержимого - поиск всех изображений в большом наборе изображений с определенным содержанием. Контент может быть указан по-разному, например, с точки зрения сходства относительно целевого изображения (дайте мне все изображения, похожие на изображение X), или с точки зрения критериев поиска высокого уровня, заданных как ввод текста (дайте мне все изображения, которые содержат много домов, взятых зимой, и в них нет машин).
Компьютерное зрение для счетчик людей назначения в общественных местах, торговых центрах, торговых центрах

Анализ движения

Несколько задач связаны с оценкой движения, когда последовательность изображений обрабатывается для получения оценки скорости либо в каждой точке изображения, либо в 3D-сцене, либо даже в камере, которая создает изображения. Примеры таких задач:

  • Эгомоция - определение трехмерного жесткого движения (вращения и перемещения) камеры из последовательности изображений, созданных камерой.
  • Отслеживание - отслеживание движений (обычно) меньшего набора точек интереса или объектов (например, транспортные средства, люди или другие организмы[28]) в последовательности изображений.
  • Отслеживание движения транспорта с использованием Python (библиотека cvlib)
    Оптический поток - определить для каждой точки изображения, как эта точка перемещается относительно плоскости изображения, т.е., его видимое движение. Это движение является результатом как того, как соответствующая трехмерная точка перемещается в сцене, так и того, как камера перемещается относительно сцены.

Реконструкция сцены

Учитывая одно или (обычно) несколько изображений сцены или видео, реконструкция сцены направлена ​​на вычисление 3D-модели сцены. В простейшем случае модель может быть набором трехмерных точек. Более сложные методы позволяют получить полную трехмерную модель поверхности. Появление трехмерных изображений, не требующих движения или сканирования, и связанных с ними алгоритмов обработки позволяет быстро продвигаться в этой области. Трехмерное зондирование на основе сетки можно использовать для получения трехмерных изображений под разными углами. Теперь доступны алгоритмы для объединения нескольких 3D-изображений в облака точек и 3D-модели.[21]

Восстановление изображения

Целью восстановления изображения является удаление с изображения шума (шума сенсора, размытости изображения и т. Д.). Самый простой из возможных подходов к удалению шума - это различные типы фильтров, такие как фильтры нижних частот или медианные фильтры. Более сложные методы предполагают модель того, как выглядят локальные структуры изображения, чтобы отличить их от шума. Путем сначала анализа данных изображения с точки зрения локальных структур изображения, таких как линии или края, а затем управления фильтрацией на основе локальной информации из этапа анализа, обычно достигается лучший уровень удаления шума по сравнению с более простыми подходами.

Примером в этой области является рисование.

Системные методы

Организация системы компьютерного зрения сильно зависит от приложения. Некоторые системы представляют собой автономные приложения, которые решают конкретную задачу измерения или обнаружения, в то время как другие составляют подсистему более крупной конструкции, которая, например, также содержит подсистемы для управления механическими приводами, планирования, информационных баз данных, управления персоналом. машинные интерфейсы и т. д.Конкретная реализация системы компьютерного зрения также зависит от того, задана ли ее функциональность заранее или какая-то ее часть может быть изучена или изменена во время работы. Многие функции уникальны для данного приложения. Однако есть типичные функции, которые можно найти во многих системах компьютерного зрения.

  • Получение изображения - Цифровое изображение создается одним или несколькими датчики изображения, которые, помимо различных типов светочувствительных камер, включают датчики диапазона, томографические устройства, радары, ультразвуковые камеры и т. д. В зависимости от типа датчика результирующие данные изображения представляют собой обычное 2D-изображение, 3D-объем или последовательность изображений. Значения пикселей обычно соответствуют интенсивности света в одной или нескольких спектральных полосах (серые изображения или цветные изображения), но также могут быть связаны с различными физическими показателями, такими как глубина, поглощение или коэффициент отражения звуковых или электромагнитных волн или ядерный магнитный резонанс.[25]
  • Предварительная обработка - Прежде чем метод компьютерного зрения можно будет применить к данным изображения для извлечения некоторой конкретной информации, обычно необходимо обработать данные, чтобы убедиться, что они удовлетворяют определенным предположениям, подразумеваемым методом. Примеры:
    • Повторная выборка, чтобы убедиться в правильности системы координат изображения.
    • Подавление шума, чтобы гарантировать, что шум датчика не вносит ложную информацию.
    • Повышение контрастности, чтобы гарантировать, что соответствующая информация может быть обнаружена.
    • Масштабировать пространство представление для улучшения структур изображения в масштабах, соответствующих местным условиям.
  • Извлечение признаков - Характеристики изображения разного уровня сложности извлекаются из данных изображения.[25] Типичными примерами таких функций являются:
Более сложные функции могут быть связаны с текстурой, формой или движением.
  • Обнаружение /сегментация - На определенном этапе обработки принимается решение о том, какие точки или области изображения являются релевантными для дальнейшей обработки.[25] Примеры:
    • Выбор определенного набора точек интереса.
    • Сегментация одной или нескольких областей изображения, содержащих определенный интересующий объект.
    • Сегментация изображения на вложенную архитектуру сцены, включающую передний план, группы объектов, отдельные объекты или выдающийся объект[30] части (также называемые иерархией пространственно-таксоновых сцен),[31] в то время как визуальная заметность часто реализуется как пространственный и временное внимание.
    • Сегментация или совместная сегментация одного или нескольких видео в серию покадровых масок переднего плана, сохраняя при этом его временную семантическую непрерывность.[32][33]
  • Обработка высокого уровня - На этом этапе ввод обычно представляет собой небольшой набор данных, например набор точек или область изображения, которая, как предполагается, содержит конкретный объект.[25] Остальная обработка касается, например:
    • Проверка того, что данные удовлетворяют допущениям на основе модели и для конкретного приложения.
    • Оценка параметров приложения, таких как поза или размер объекта.
    • Распознавание изображений - отнесение обнаруженного объекта к разным категориям.
    • Регистрация изображения - сравнение и объединение двух разных представлений одного и того же объекта.
  • Принимать решение Принятие окончательного решения, необходимого для подачи заявки,[25] Например:
    • Пройдены / не пройдены приложения автоматической проверки
    • Совпадение / несоответствие в приложениях распознавания.
    • Отметьте для дальнейшего рассмотрения людьми в медицинских, военных, охранных и признанных приложениях.

Системы понимания изображений

Системы понимания изображения (IUS) включают три уровня абстракции, а именно: низкий уровень включает примитивы изображения, такие как края, элементы текстуры или области; промежуточный уровень включает границы, поверхности и объемы; а высокий уровень включает объекты, сцены или события. Многие из этих требований - целиком тема для дальнейшего исследования.

Требования к представлению при разработке IUS для этих уровней: представление прототипов концепций, организация концептов, пространственные знания, временные знания, масштабирование и описание посредством сравнения и дифференциации.

В то время как вывод относится к процессу получения новых, явно не представленных фактов из известных в настоящее время фактов, контроль относится к процессу, который выбирает, какие из многих методов вывода, поиска и сопоставления следует применять на конкретном этапе обработки. Требования к выводу и контролю для ВМС: поиск и активация гипотез, сопоставление и проверка гипотез, формирование и использование ожиданий, изменение и фокус внимания, уверенность и сила веры, вывод и достижение цели.[34]

Аппаратное обеспечение

Новый iPad оснащен лидарным датчиком

Есть много видов систем компьютерного зрения; однако все они содержат эти основные элементы: источник питания, по крайней мере одно устройство получения изображения (камера, компакт-диск и т. д.), процессор, а также кабели управления и связи или какой-либо механизм беспроводной связи. Кроме того, практическая система технического зрения содержит программное обеспечение, а также дисплей для наблюдения за системой. Системы технического зрения для внутренних помещений, как и большинство промышленных, содержат систему освещения и могут быть размещены в контролируемой среде. Кроме того, законченная система включает множество аксессуаров, таких как опоры для камер, кабели и разъемы.

Большинство систем компьютерного зрения используют камеры видимого света, которые пассивно просматривают сцену с частотой кадров не более 60 кадров в секунду (обычно намного медленнее).

Некоторые системы компьютерного зрения используют оборудование для получения изображений с активным освещением или что-то иное, кроме видимого света или и то, и другое, например структурированные 3D-сканеры, термографические камеры, гиперспектральные формирователи изображений, радиолокационное изображение, лидар сканеры, магнитно-резонансные изображения, гидролокатор бокового обзора, гидролокатор с синтетической апертурой и т. д. Такое оборудование захватывает «изображения», которые затем часто обрабатываются с использованием тех же алгоритмов компьютерного зрения, которые используются для обработки изображений в видимом свете.

В то время как традиционные вещательные и потребительские видеосистемы работают со скоростью 30 кадров в секунду, прогресс в цифровая обработка сигналов и потребительское графическое оборудование сделал возможным получение, обработку и отображение изображений с высокой скоростью для систем реального времени с частотой от сотен до тысяч кадров в секунду. Для приложений в робототехнике критически важны быстрые видеосистемы в реальном времени, которые часто могут упростить обработку, необходимую для определенных алгоритмов. В сочетании с высокоскоростным проектором быстрое получение изображения позволяет выполнять 3D-измерения и отслеживание функций.[35]

Эгоцентрическое видение системы состоят из переносной камеры, которая автоматически делает снимки от первого лица.

По состоянию на 2016 год блоки обработки изображений появляются как новый класс процессоров, чтобы дополнить процессоры и графические процессоры (GPU) в этой роли.[36]

Смотрите также

Списки

Рекомендации

  1. ^ а б Дана Х. Баллард; Кристофер М. Браун (1982). Компьютерное зрение. Прентис Холл. ISBN  978-0-13-165316-0.
  2. ^ а б Хуанг, Т. (1996-11-19). Вандони, Карло, Э (ред.). Компьютерное зрение: эволюция и перспективы (PDF). 19-я вычислительная школа ЦЕРН. Женева: ЦЕРН. С. 21–25. Дои:10.5170 / CERN-1996-008.21. ISBN  978-9290830955.
  3. ^ а б Милана Сонька; Вацлав Главац; Роджер Бойл (2008). Обработка изображений, анализ и машинное зрение. Томсон. ISBN  978-0-495-08252-1.
  4. ^ а б Райнхард Клетте (2014). Краткое компьютерное зрение. Springer. ISBN  978-1-4471-6320-6.
  5. ^ а б Линда Г. Шапиро; Джордж К. Стокман (2001). Компьютерное зрение. Прентис Холл. ISBN  978-0-13-030796-5.
  6. ^ а б c Тим Моррис (2004). Компьютерное зрение и обработка изображений. Пэлгрейв Макмиллан. ISBN  978-0-333-99451-1.
  7. ^ а б Бернд Яне; Хорст Хаусеккер (2000). Компьютерное зрение и приложения, Руководство для студентов и практиков. Академическая пресса. ISBN  978-0-13-085198-7.
  8. ^ а б Дэвид А. Форсайт; Жан Понсе (2003). Компьютерное зрение, современный подход. Прентис Холл. ISBN  978-0-13-085198-7.
  9. ^ http://www.bmva.org/visionoverview В архиве 2017-02-16 в Wayback Machine Британская ассоциация машинного зрения и Общество распознавания образов. Получено 20 февраля 2017 г.
  10. ^ Мерфи, Майк. Медицинский сканер "трикодер" из "Звездного пути" приблизился к тому, чтобы стать реальностью ".
  11. ^ а б c d Ричард Селиски (30 сентября 2010 г.). Компьютерное зрение: алгоритмы и приложения. Springer Science & Business Media. С. 10–16. ISBN  978-1-84882-935-0.
  12. ^ Паперт, Сеймур (1966-07-01). «Проект« Летнее видение »». MIT AI Memos (1959 - 2004). HDL:1721.1/6125.
  13. ^ Маргарет Энн Боден (2006). Разум как машина: история когнитивной науки. Кларендон Пресс. п. 781. ISBN  978-0-19-954316-8.
  14. ^ Такео Канаде (6 декабря 2012 г.). Трехмерное машинное зрение. Springer Science & Business Media. ISBN  978-1-4613-1981-8.
  15. ^ Нику Себе; Ира Коэн; Ашутош Гарг; Томас С. Хуанг (3 июня 2005 г.). Машинное обучение в компьютерном зрении. Springer Science & Business Media. ISBN  978-1-4020-3274-5.
  16. ^ Уильям Фриман; Пьетро Перона; Бернхард Шолкопф (2008). «Гостевая редакция: машинное обучение для компьютерного зрения». Международный журнал компьютерного зрения. 77 (1): 1. Дои:10.1007 / s11263-008-0127-7. ISSN  1573-1405.
  17. ^ Мюррей, Дон и Каллен Дженнингс. "Картографирование и навигация на основе стереозрения для мобильных роботов. "Труды Международной конференции по робототехнике и автоматизации. Том 2. IEEE, 1997.
  18. ^ "Информационная инженерия | Инженерный отдел". www.eng.cam.ac.uk. Получено 2018-10-03.
  19. ^ "Информационная инженерия Главная / Главная страница". www.robots.ox.ac.uk. Получено 2018-10-03.
  20. ^ а б Стегер, Карстен; Маркус Ульрих; Кристиан Видеманн (2018). Алгоритмы и приложения машинного зрения (2-е изд.). Вайнхайм: Вайли-ВЧ. п. 1. ISBN  978-3-527-41365-2. Получено 2018-01-30.
  21. ^ а б c Солтани, А. А .; Huang, H .; Wu, J .; Кулкарни, Т. Д .; Тененбаум, Дж. Б. (2017). «Синтез 3D-форм посредством моделирования многовидовых карт глубины и силуэтов с помощью глубоких генеративных сетей». Материалы конференции IEEE по компьютерному зрению и распознаванию образов: 1511–1519. Дои:10.1109 / CVPR.2017.269.
  22. ^ Турек, Фред (июнь 2011 г.). «Основы машинного зрения, как заставить роботов видеть». Журнал NASA Tech Briefs. 35 (6). страницы 60–62
  23. ^ «Будущее автоматизированного случайного выбора корзины».
  24. ^ Wäldchen, Jana; Мэдер, Патрик (2017-01-07). «Идентификация видов растений с использованием методов компьютерного зрения: систематический обзор литературы». Архивы вычислительных методов в технике. 25 (2): 507–543. Дои:10.1007 / s11831-016-9206-z. ISSN  1134-3060. ЧВК  6003396. PMID  29962832.
  25. ^ а б c d е ж Э. Рой Дэвис (2005). Машинное зрение: теория, алгоритмы, практика. Морган Кауфманн. ISBN  978-0-12-206093-9.
  26. ^ Андо, Мицухито; Такей, Тошинобу; Мотияма, Хироми (2020-03-03). «Резиновый искусственный кожный слой с гибкой структурой для оценки формы микроволнистых поверхностей». ROBOMECH Журнал. 7 (1): 11. Дои:10.1186 / s40648-020-00159-0. ISSN  2197-4225.
  27. ^ Чхве, Сын Хен; Тахара, Кендзи (12 марта 2020 г.). «Ловкое манипулирование предметами многопалой роботизированной руки с визуально-тактильными сенсорами на кончиках пальцев». ROBOMECH Журнал. 7 (1): 14. Дои:10.1186 / s40648-020-00162-5. ISSN  2197-4225.
  28. ^ а б Бруйнинг, Марджолейн; Visser, Marco D .; Hallmann, Caspar A .; Йонгеянс, Элке; Голдинг, Ник (2018). "trackdem: автоматическое отслеживание частиц для получения подсчета населения и распределения размеров из видео в r". Методы в экологии и эволюции. 9 (4): 965–973. Дои:10.1111 / 2041-210X.12975. ISSN  2041–210X.
  29. ^ а б Русаковский, Ольга; Дэн, Цзя; Су, Хао; Краузе, Джонатан; Сатиш, Санджив; Ма, Шон; Хуанг, Чжихэн; Карпаты, Андрей; Хосла, Адитья; Бернштейн, Майкл; Берг, Александр К. (декабрь 2015 г.). «Крупномасштабная задача по визуальному распознаванию ImageNet». Международный журнал компьютерного зрения. 115 (3): 211–252. Дои:10.1007 / s11263-015-0816-у. ISSN  0920-5691.
  30. ^ А. Мэйти (2015). «Импровизированное обнаружение заметных объектов и манипуляции с ними». arXiv:1511.02999 [cs.CV ].
  31. ^ Баргоут, Лорен. "Визуальный таксометрический подход к сегментации изображений с использованием нечетко-пространственной вырезки таксонов дает контекстно-релевантные регионы. »Обработка информации и управление неопределенностью в системах, основанных на знаниях. Springer International Publishing, 2014.
  32. ^ Лю, Цзыи; Ван, Ле; Хуа, банда; Чжан, Цилинь; Ню, Чжэньсин; У, Инь; Чжэн, Наньнин (2018). «Совместное обнаружение и сегментация видеообъектов с помощью связанных динамических сетей Маркова» (PDF). IEEE Transactions по обработке изображений. 27 (12): 5840–5853. Bibcode:2018ITIP ... 27.5840L. Дои:10.1109 / tip.2018.2859622. ISSN  1057-7149. PMID  30059300. S2CID  51867241. Архивировано из оригинал (PDF) на 2018-09-07. Получено 2018-09-14.
  33. ^ Ван, Ле; Дуань, Сюйхуань; Чжан, Цилинь; Ню, Чжэньсин; Хуа, банда; Чжэн, Наньнин (22.05.2018). «Сегмент-трубка: пространственно-временная локализация действия в видео без обрезки с покадровой сегментацией» (PDF). Датчики. 18 (5): 1657. Дои:10,3390 / с18051657. ISSN  1424-8220. ЧВК  5982167. PMID  29789447.
  34. ^ Шапиро, Стюарт С. (1992). Энциклопедия искусственного интеллекта, том 1. Нью-Йорк: John WIley & Sons, Inc., стр. 643–646. ISBN  978-0-471-50306-4.
  35. ^ Кагами, Синго (2010). «Высокоскоростные системы технического зрения и проекторы для восприятия мира в реальном времени». Конференция компьютерного общества IEEE 2010 по компьютерному зрению и распознаванию образов - семинары. Конференция IEEE Computer Society по компьютерному зрению и распознаванию образов - семинары. 2010. С. 100–107. Дои:10.1109 / CVPRW.2010.5543776. ISBN  978-1-4244-7029-7. S2CID  14111100.
  36. ^ Сет Коланер (3 января 2016 г.). «Третий тип процессора для VR / AR: Myriad 2 VPU от Movidius». www.tomshardware.com.

дальнейшее чтение

внешняя ссылка