Преобразование фазы мощности с управляемым откликом (SRP-PHAT) это популярный алгоритм для локализация акустического источника,[1] хорошо известен своей надежной работой в неблагоприятных акустических средах.[2] Алгоритм можно интерпретировать как формирование луча -основанный подход, который ищет позицию кандидата, которая максимизирует выход управляемой формирователь луча с задержкой и суммой.
Алгоритм
Управляемая мощность отклика
Рассмотрим систему микрофоны, где каждый микрофон обозначен субиндексом . Выходной сигнал с дискретного времени с микрофона равен . (Невзвешенная) мощность управляемого отклика (SRP) в пространственной точке можно выразить как
куда обозначает набор целых чисел и было бы запаздыванием из-за распространения от источника, расположенного в к -й микрофон.
(Взвешенный) SRP можно переписать как
куда обозначает комплексное сопряжение, представляет преобразование Фурье с дискретным временем из и является весовой функцией в частотной области (обсуждается позже). Период, термин это дискретная разница во времени прибытия (TDOA) сигнала, излучаемого в позиции к микрофонам и , данный
куда частота дискретизации системы, это скорость распространения звука, позиция -й микрофон, это 2-норма и обозначает оператор округления.
Обобщенная кросс-корреляция
Вышеупомянутая целевая функция SRP может быть выражена как сумма обобщенных кросс-корреляций (GCC) для разных пар микрофонов с запаздыванием по времени, соответствующим их TDOA.
где GCC для пары микрофонов определяется как
Фазовое преобразование (PHAT) - это эффективное взвешивание GCC для оценки временной задержки в реверберирующих средах, которое заставляет GCC учитывать только фазовую информацию задействованных сигналов:
Оценка местоположения источника
Алгоритм SRP-PHAT состоит из процедуры поиска по сетке, которая оценивает целевую функцию в сетке возможных местоположений источников для оценки пространственного расположения источника звука, , как точка сетки, обеспечивающая максимальное SRP:
Модифицированный SRP-PHAT
Были предложены модификации классического алгоритма SRP-PHAT для уменьшения вычислительных затрат на этапе поиска по сетке алгоритма и повышения устойчивости метода. В классическом SRP-PHAT для каждой пары микрофонов и для каждой точки сетки выбирается уникальное целочисленное значение TDOA как акустическая задержка, соответствующая этой точке сетки. Эта процедура не гарантирует, что все TDOA связаны с точками на сетке, а также что пространственная сетка непротиворечива, поскольку некоторые точки могут не соответствовать пересечению гиперболоидов. Эта проблема становится более проблематичной с грубыми сетками, поскольку при уменьшении количества точек часть информации TDOA теряется, поскольку большинство задержек больше не связаны с какой-либо точкой сетки.
Модифицированный SRP-PHAT[3] собирает и использует информацию TDOA, относящуюся к объему, окружающему каждую пространственную точку поисковой сетки, с учетом модифицированной целевой функции:
куда и - нижний и верхний пределы накопления задержек GCC, которые зависят от пространственного расположения .
Пределы накопления
Пределы накопления можно точно рассчитать заранее, исследуя границы, разделяющие области, соответствующие точкам сетки. В качестве альтернативы их можно выбрать, учитывая пространственные градиент TDOA , где каждый компонент градиента:
Для прямоугольной сетки, где соседние точки разделены расстоянием , нижний и верхний пределы накопления определяются как:
куда а углы направления градиента определяются выражением
Смотрите также
Рекомендации