Оценка позы шарнирного тела - Articulated body pose estimation

Оценка позы шарнирного тела в компьютерное зрение это изучение алгоритмы и системы, восстанавливающие поза шарнирно-сочлененного тела, состоящего из суставы и жесткий детали с использованием наблюдений на основе изображений. Это одна из самых давних проблем компьютерного зрения из-за сложности моделей, связывающих наблюдение с позой, а также из-за разнообразия ситуаций, в которых это может быть полезно.[1][2]

Описание

Восприятие людей в окружающей их среде - важная способность, которой должны обладать роботы. Если человек использует жесты, чтобы указать на конкретный объект, тогда взаимодействующая машина должна быть способна понять ситуацию в контексте реального мира. Таким образом, оценка позы - важная и сложная проблема компьютерного зрения, и за последние два десятилетия для ее решения использовалось множество алгоритмов. Многие решения включают обучение сложных моделей с большими наборами данных.

Оценка позы - сложная проблема и активный объект исследований, потому что человеческое тело имеет 244 степени свободы с 230 суставами. Хотя не все движения между суставами очевидны, человеческое тело состоит из 10 больших частей с 20 степенями свободы. Алгоритмы должны учитывать большую вариативность, вызванную различиями во внешнем виде из-за одежды, формы тела, размера и прически. Кроме того, результаты могут быть неоднозначными из-за частичной окклюзии от самоартикуляции, такой как рука человека, закрывающая лицо, или окклюзии от внешних объектов. Наконец, большинство алгоритмов оценивают позу по монокулярным (двумерным) изображениям, снятым с обычной камеры. Другие проблемы включают различное освещение и конфигурацию камеры. Трудности усугубляются, если есть дополнительные требования к производительности. На этих изображениях отсутствует трехмерная информация о реальной позе тела, что приводит к дальнейшим неясностям. В этой области есть недавние работы, в которых изображения с камер RGBD предоставляют информацию о цвете и глубине.[3]

Необходимо разработать точные, привязь - системы оценки позы шарнирного тела без видения для восстановления позы тел, таких как человеческое тело, рука или другие существа. У такой системы есть несколько предполагаемых приложений, включая следующие:

Типичная система оценки позы шарнирного тела включает в себя подход, основанный на модели, в котором оценка позы достигается путем максимизации / минимизации сходства / несходства между наблюдением (входными данными) и эталонной моделью. Были исследованы различные типы датчиков для использования при проведении наблюдений, в том числе следующие:

Эти датчики создают промежуточные представления, которые напрямую используются в модели. Представления включают следующее:

  • Внешний вид изображения,
  • Реконструкция вокселя (элемента объема),
  • 3D облака точек и сумма гауссовых ядер[5]
  • 3D поверхностные сетки.

Модели деталей

Основную идею модели на основе деталей можно отнести к человеческому скелету. Любой объект, обладающий свойством артикуляции, может быть разбит на более мелкие части, каждая из которых может принимать разные ориентации, что приводит к разным сочленениям одного и того же объекта. Различные масштабы и ориентации основного объекта могут быть связаны с масштабами и ориентациями соответствующих частей. Чтобы сформулировать модель таким образом, чтобы ее можно было представить в математических терминах, части соединяются друг с другом с помощью пружин. Таким образом, модель также известна как пружинная модель. Степень близости каждой части объясняется сжатием и расширением пружин. Есть геометрические ограничения на ориентацию пружин. Например, конечности ног не могут двигаться на 360 градусов. Следовательно, части не могут иметь такую ​​крайнюю ориентацию. Это уменьшает возможные перестановки.[6]

Модель пружины образует граф G (V, E), где V (узлы) соответствуют частям, а E (ребра) представляет собой пружины, соединяющие две соседние части. К каждому месту на изображении можно добраться по и координаты расположения пикселя. Позволять указывать на расположение. Тогда затраты, связанные с соединением пружины между и балл может быть дан . Следовательно, общие затраты, связанные с размещением компоненты на местах дан кем-то

Вышеприведенное уравнение просто представляет модель пружины, используемую для описания позы тела. Чтобы оценить позу по изображениям, необходимо минимизировать функцию стоимости или энергии. Эта энергетическая функция состоит из двух членов. Первый связан с тем, как каждый компонент соответствует данным изображения, а второй связан с тем, насколько совпадают ориентированные (деформированные) части, таким образом, учитывая артикуляцию вместе с обнаружение объекта.[7]

Частные модели, также известные как графические структуры, являются одной из основных моделей, на которых другие эффективные модели строятся путем небольших модификаций. Одним из таких примеров является модель гибкой смеси, которая сокращает базу данных из сотен или тысяч деформированных деталей за счет использования понятия локальной жесткости.[8]

Шарнирно-сочлененная модель с кватернионом

Кинематический каркас построен в виде древовидной цепочки, как показано на рисунке.[9] Каждый сегмент твердого тела имеет свою локальную систему координат, которая может быть преобразована в мировую систему координат с помощью матрицы преобразования 4 × 4. ,

куда обозначает локальное преобразование из сегмента тела своему родителю . Каждый сустав в теле имеет 3 степени свободы (DoF) вращения. Учитывая матрицу преобразования , совместное положение в Т-позе может быть перенесено в соответствующее ему положение в мировой координации. Во многих работах вращение сустава 3D выражается как нормализованный кватернион. из-за его непрерывности, что может облегчить градиентную оптимизацию при оценке параметров.

Приложения

Помощь в проживании

Роботы для личной гигиены могут быть развернуты в будущем вспомогательное проживание дома. Для этих роботов необходимо высокоточное обнаружение человека и оценка позы для выполнения различных задач, таких как обнаружение падения. Кроме того, это приложение имеет ряд ограничений производительности.[нужна цитата ]

Анимация персонажей

Традиционно анимация персонажей выполнялась вручную. Однако позы можно синхронизировать непосредственно с реальным актером с помощью специализированных систем оценки позы. Старые системы полагались на маркеры или специальные костюмы. Последние достижения в оценке позы и захвата движения включили безмаркерные приложения, иногда в режиме реального времени.[10]

Интеллектуальная система помощи водителю

Ежегодно на автомобильные аварии приходится около двух процентов смертей во всем мире. Таким образом, интеллектуальная система слежения за водителем позы может быть полезна для аварийных сигналов.[сомнительный ]. В том же духе, обнаружение пешеходов алгоритмы успешно используются в автономных автомобилях, что позволяет автомобилю принимать более разумные решения.[нужна цитата ]

Видеоигры

В коммерческих целях оценка позы использовалась в контексте видеоигр, популяризированных с Microsoft Kinect сенсор (камера глубины). Эти системы отслеживают пользователя, чтобы отобразить его аватар в игре, в дополнение к выполнению таких задач, как распознавание жеста чтобы пользователь мог взаимодействовать с игрой. Таким образом, это приложение имеет строгие требования к работе в режиме реального времени.[11]

Медицинские приложения

Оценка позы использовалась для обнаружения проблем осанки, таких как: сколиоз путем анализа отклонений осанки пациента,[12] физиотерапия, а также изучение когнитивного развития мозга детей раннего возраста путем мониторинга двигательной функции.[13]

Другие приложения

Другие приложения включают видеонаблюдение, отслеживание животных и понимание поведения, язык знаков обнаружение, расширенный взаимодействие человека с компьютером, и безмаркерный захват движения.

Связанные технологии

Коммерчески успешное, но специализированное шарнирное тело на основе компьютерного зрения оценка позы техника оптическая захвата движения. Этот подход включает в себя размещение маркеров на человеке в стратегических местах, чтобы зафиксировать 6 степеней свободы каждой части тела.

Исследовательские группы

Ряд групп и компаний изучают оценку поз, в том числе группы Брауновский университет, Университет Карнеги Меллон, MPI Saarbruecken, Стэндфордский Университет, то Калифорнийский университет в Сан-Диего, то Университет Торонто, то École Centrale Paris, ETH Цюрих, Национальный университет наук и технологий (НУСТ),[14] и Калифорнийский университет в Ирвине.

Компании

В настоящее время несколько компаний работают над оценкой позы шарнирного тела.

  • Bodylabs: Bodylabs - это базирующийся на Манхэттене поставщик программного обеспечения искусственного интеллекта, учитывающего потребности человека.

Рекомендации

  1. ^ Moeslund, Thomas B .; Гранум, Эрик (2001-03-01). "Обзор захвата движения человека на основе компьютерного зрения". Компьютерное зрение и понимание изображений. 81 (3): 231–268. Дои:10.1006 / cviu.2000.0897. ISSN  1077-3142.
  2. ^ «Обзор достижений в области захвата движения человека на основе компьютерного зрения (2006 г.)». Архивировано из оригинал на 2008-03-02. Получено 2007-09-15.
  3. ^ Дрэшель, Дэвид и Свен Бенке. "Оценка позы тела в 3D с использованием адаптивной модели человека для сочлененного ВЧД. "Интеллектуальная робототехника и приложения. Springer Berlin Heidelberg, 2011. 157167.
  4. ^ Han, J .; Гащак, А .; Maciol, R .; Barnes, S.E .; Брекон, Т. (Сентябрь 2013). «Классификация позы человека в контексте отслеживания изображений в ближнем ИК-диапазоне» (PDF). В Замбони, Роберто; Кайзар, Франсуа; Szep, Attila A; Берджесс, Дуглас; Оуэн, Гари (ред.). Proc. SPIE Оптика и фотоника для борьбы с терроризмом, борьбы с преступностью и защиты. Оптика и фотоника для борьбы с терроризмом, борьбы с преступностью и обороны IX; и Оптические материалы и биоматериалы в технологиях систем безопасности и обороны X. 8901. ШПИОН. стр. 89010E. CiteSeerX  10.1.1.391.380. Дои:10.1117/12.2028375. Получено 5 ноября 2013.
  5. ^ М. Дин и Г. Фань, «Обобщенная сумма гауссиан для отслеживания позы человека в реальном времени с помощью одного датчика глубины» 2015 Зимняя конференция IEEE по приложениям компьютерного зрения (WACV), январь 2015 г.
  6. ^ Фишлер, Мартин А. и Роберт А. Эльшлагер. "Представление и сопоставление изобразительных структур. »IEEE Transactions на компьютерах 1 (1973): 6792.
  7. ^ Фельценшвальб, Педро Ф. и Даниэль П. Хуттенлохер. "Изобразительные структуры для распознавания объектов. »Международный журнал компьютерного зрения 61.1 (2005): 5579.
  8. ^ Ян, Йи и Дева Раманан. "Оценка артикулированной позы с помощью гибких смесей частей. »Компьютерное зрение и распознавание образов (CVPR), Конференция IEEE 2011 г., IEEE, 2011 г.
  9. ^ М. Дин и Г. Фань, «Сочлененная и обобщенная корреляция ядра Гаусса для оценки позы человека» IEEE Transactions по обработке изображений, Vol. 25, No. 2, февраль 2016 г.
  10. ^ Дент, Стивен. «Что вам нужно знать о 3D-захвате движения». Engadget. AOL Inc. Получено 31 мая 2017.
  11. ^ Коли, Пушмит; Шоттон, Джейми. «Основные разработки в области оценки позы человека для Kinect» (PDF). Microsoft. Получено 31 мая 2017.
  12. ^ Ароейра, Розилен Мария К., Эстевам Б. де Лас Касас, Антониу Эустакиу М. Пертенс, Марсело Греко и Жоао Мануэль Р.С. Таварес. «Неинвазивные методы компьютерного зрения в оценке осанки при идиопатическом сколиозе у подростков». Журнал Bodywork and Movement Therapies 20, no. 4 (октябрь 2016 г.): 832–43. https://doi.org/10.1016/j.jbmt.2016.02.004.
  13. ^ Хан, Мухаммад Хасан, Жюльен Хелспер, Мухаммад Шахид Фарид и Марчин Гжегожек. «Система на основе компьютерного зрения для мониторинга Войта-терапии». Международный журнал медицинской информатики 113 (май 2018 г.): 85–95. https://doi.org/10.1016/j.ijmedinf.2018.02.010.
  14. ^ «Исследовательский центр НИТУ-SMME RISE».

внешняя ссылка