Обнаружение объекта - Object detection

Объекты, обнаруженные с помощью модуля Deep Neural Network (dnn) OpenCV с использованием модели YOLOv3, обученной на наборе данных COCO, способной обнаруживать объекты 80 общих классов.

Обнаружение объекта это компьютерная технология, связанная с компьютерное зрение и обработка изображений который занимается обнаружением экземпляров семантических объектов определенного класса (таких как люди, здания или автомобили) в цифровых изображениях и видео.^[1] Хорошо изученные области обнаружения объектов включают: обнаружение лица и обнаружение пешеходов. Обнаружение объектов находит применение во многих областях компьютерного зрения, в том числе поиск изображений и видеонаблюдение.

Использует

Он широко используется в компьютерное зрение такие задачи как аннотация изображения,^[2] признание активности,^[3] обнаружение лица, распознавание лица, совместная сегментация видеообъектов. Он также используется в отслеживание объектов, например, отслеживание мяча во время футбольного матча, отслеживание движения биты для крикета или отслеживание человека на видео.

Концепция

Каждый объект у класса есть свой особенный Особенности что помогает в классификации класса - например, все круги круглые. Обнаружение класса объекта использует эти специальные функции. Например, при поиске кругов ищутся объекты, находящиеся на определенном расстоянии от точки (т. Е. Центра). Точно так же при поиске квадратов объекты, которые перпендикуляр по углам и с одинаковой длиной сторон. Аналогичный подход используется для идентификация лица где можно найти глаза, нос и губы и Особенности например, можно найти цвет кожи и расстояние между глазами.

Методы

Сравнение скорости и точности различных детекторов ^[4] в наборе данных Microsoft COCO testdev http://mscoco.org (Все значения находятся в https://arxiv.org статьи авторов этих алгоритмов)

Методы обнаружения объектов обычно делятся на машинное обучение -основанные подходы или глубокое обучение -основанные подходы. Для подходов к машинному обучению необходимо сначала определить функции, используя один из методов ниже, а затем использовать такой метод, как Машина опорных векторов (SVM), чтобы провести классификацию. С другой стороны, методы глубокого обучения могут выполнять сквозное обнаружение объектов без специального определения функций и обычно основаны на сверточные нейронные сети (CNN).

Подходы к машинному обучению:
Подходы к глубокому обучению:
- Предложения по регионам (R-CNN,^[6] Быстрый R-CNN,^[7] Быстрее R-CNN^[8], каскад R-CNN.^[9])
- Детектор Single Shot MultiBox (SSD) ^[10]
- Ты смотришь только один раз (YOLO) ^[11]^[12]^[13]^[4]
- Нейронная сеть одноразового уточнения для обнаружения объектов (RefineDet) ^[14]
- Retina-Net ^[15]^[9]
- Деформируемые сверточные сети ^[16]^[17]

Смотрите также

внешняя ссылка

[1] Дасиопулу, Стаматия и др. "Обнаружение семантических видеообъектов с помощью знаний. »IEEE Transactions on Circuits and Systems for Video Technology 15.10 (2005): 1210–1224.

[GuanHe2012-2] Лин Гуань; Ифэн Хэ; Сунь-Юань Кунг (1 марта 2012 г.). Обработка мультимедийных изображений и видео. CRC Press. стр. 331–. ISBN 978-1-4398-3087-1.

[3] Ву, Цзяньсинь и др. "Масштабируемый подход к распознаванию активности на основе использования объекта. »2007 IEEE 11-я международная конференция по компьютерному зрению. IEEE, 2007.

[yolov4-4] а ^б Бочковский, Алексей (2020). «Yolov4: Оптимальная скорость и точность обнаружения объектов». arXiv:2004.10934 [cs.CV ].

[5] Далал, Навнит (2005). «Гистограммы ориентированных градиентов для обнаружения человека» (PDF). Компьютерное зрение и распознавание образов. 1.

[6] Росс, Гиршик (2014). «Богатые иерархии функций для точного обнаружения объектов и семантической сегментации» (PDF). Материалы конференции IEEE по компьютерному зрению и распознаванию образов. IEEE: 580–587. arXiv:1311.2524. Дои:10.1109 / CVPR.2014.81. ISBN 978-1-4799-5118-5. S2CID 215827080.

[7] Гиршик, Росс (2015). "Быстрый R-CNN" (PDF). Материалы Международной конференции IEEE по компьютерному зрению: 1440–1448. arXiv:1504.08083. Bibcode:2015arXiv150408083G.

[8] Шаоцин, Рен (2015). «Быстрее R-CNN». Достижения в системах обработки нейронной информации. arXiv:1506.01497.

[Pang_Chen_Shi_Feng_2019-9] а ^б Пан, Цзянмяо; Чен, Кай; Ши, Цзяньпин; Фэн, Хуацзюнь; Оуян, Ванли; Лин, Дахуа (2019-04-04). "Libra R-CNN: к сбалансированному обучению для обнаружения объектов". arXiv:1904.02701v1 [cs.CV ].

[10] Лю, Вэй (октябрь 2016 г.). «SSD: одноразовый мультиблок детектор». Компьютерное зрение - ECCV 2016. Европейская конференция по компьютерному зрению. Конспект лекций по информатике. 9905. С. 21–37. arXiv:1512.02325. Дои:10.1007/978-3-319-46448-0_2. ISBN 978-3-319-46447-3. S2CID 2141740.

[11] Редмон, Джозеф (2016). «Вы только посмотрите: единое обнаружение объектов в реальном времени». Материалы конференции IEEE по компьютерному зрению и распознаванию образов. arXiv:1506.02640. Bibcode:2015arXiv150602640R.

[12] Редмон, Джозеф (2017). «YOLO9000: лучше, быстрее, сильнее». arXiv:1612.08242 [cs.CV ].

[13] Редмон, Джозеф (2018). «Yolov3: постепенное улучшение». arXiv:1804.02767 [cs.CV ].

[14] Чжан, Шифэн (2018). "Нейронная сеть однократного уточнения для обнаружения объектов". Материалы конференции IEEE по компьютерному зрению и распознаванию образов: 4203–4212. arXiv:1711.06897. Bibcode:2017arXiv171106897Z.

[15] Линь, Цун-И (2020). «Потеря фокуса при обнаружении плотных объектов». IEEE Transactions по анализу шаблонов и машинному анализу. 42 (2): 318–327. arXiv:1708.02002. Bibcode:2017arXiv170802002L. Дои:10.1109 / TPAMI.2018.2858826. PMID 30040631. S2CID 47252984.

[16] Чжу, Сичжоу (2018). «Деформируемые ConvNets v2: более деформируемые, лучшие результаты». arXiv:1811.11168 [cs.CV ].

[17] Дай, Цзифэн (2017). «Деформируемые сверточные сети». arXiv:1703.06211 [cs.CV ].

[1]

[2]

[3]

[4]

[5]

[6]

[7]

[8]

[9]

[10]

[11]

[12]

[13]

[14]

[15]

[16]

[17]