Аудиовизуальное распознавание речи - Audio-visual speech recognition

Аудиовизуальное распознавание речи (AVSR) - это метод, использующий обработка изображений возможности в чтение по губам помочь распознавание речи системы распознавания недетерминированных телефоны или отдавая предпочтение решениям, близким к вероятности.

Каждая система чтение по губам и распознавание речи работает по отдельности, затем их результаты смешиваются на этапе слияние функций. Как следует из названия, он состоит из двух частей. первая - звуковая часть, вторая - визуальная. В звуковой части мы используем такие функции, как логарифмическая спектрограмма, mfcc и т. Д. Из необработанных аудиосэмплов, и строим модель, чтобы получить из нее вектор характеристик. Для визуальной части мы обычно используем какой-либо вариант сверточной нейронной сети для сжатия изображения до вектора признаков, после чего мы объединяем эти два вектора (аудио и визуальный) и пытаемся предсказать целевой объект.

внешняя ссылка