Растяжение аудио по времени и масштабирование высоты звука - Audio time stretching and pitch scaling

Растяжение времени это процесс изменения скорости или продолжительности звуковой сигнал не затрагивая его подача. Масштабирование высоты тона Противоположно: процесс изменения высоты звука без влияния на скорость. Сдвиг высоты тона масштабирование высоты тона реализовано в блок эффектов и предназначен для живого исполнения. Управление по каналу тангажа - это более простой процесс, который одновременно влияет на высоту звука и скорость, замедляя или ускоряя запись.

Эти процессы часто используются для согласования высоты тона и темпа двух предварительно записанных клипов для микширования, когда клипы не могут быть воспроизведены или пересэмплированы. Растяжение времени часто используется для корректировки радиореклама[1] и звук телевизионная реклама[2] чтобы точно уместиться в имеющиеся 30 или 60 секунд. Его можно использовать для согласования более длинного материала с определенным временным интервалом, например, для 1-часовой трансляции.

Повторная выборка

Самый простой способ изменить продолжительность или высоту тона цифровой звук клип проходит преобразование частоты дискретизации. Это математическая операция, которая эффективно восстанавливает непрерывный сигнал из его выборок, а затем снова производит выборку этого сигнала с другой скоростью. Когда новые образцы воспроизводятся с исходной частотой дискретизации, аудиоклип звучит быстрее или медленнее. К сожалению, частоты в сэмпле всегда масштабируются с той же скоростью, что и скорость, транспонируя воспринимаемую высоту звука вверх или вниз в процессе. Другими словами, замедление записи снижает высоту звука, а увеличение скорости - повышает высоту звука. Это аналогично ускорению или замедлению аналог запись, как граммофонная пластинка или лента, создавая эффект бурундука. Используя этот метод, нельзя разделить два эффекта. Драм-трек, не содержащий звуковых инструментов, может быть преобразован в темп с умеренной частотой дискретизации без отрицательных эффектов, а дорожка с тональной настройкой - нет.

Частотный диапазон

Фазовый вокодер

Один из способов увеличить длину сигнала, не влияя на высоту звука, - это построить фазовый вокодер после Фланагана, Голдена и Портноффа.

Основные шаги:

  1. вычислить мгновенное отношение частоты / амплитуды сигнала с помощью STFT, какой дискретное преобразование Фурье короткого, накладывающегося друг на друга блока с плавными окнами;
  2. применить некоторую обработку к модулям и фазам преобразования Фурье (например, передискретизация блоков БПФ); и
  3. выполнить обратный STFT, взяв обратное преобразование Фурье для каждого фрагмента и добавив результирующие фрагменты сигнала, также называемые перекрытием и сложением (OLA).[3]

Фазовый вокодер обрабатывает синусоида компоненты хорошо, но ранние реализации вносили значительные смазывания в преходящий ("биение") формы волны при всех нецелочисленных степенях сжатия / расширения, что делает результаты фазовыми и размытыми. Недавние улучшения позволяют получить более качественные результаты при всех степенях сжатия / расширения, но остаточный эффект смазывания все еще сохраняется.

Технику фазового вокодера можно также использовать для выполнения сдвига высоты тона, хоруса, манипуляции тембром, гармонизации и других необычных модификаций, все из которых могут быть изменены в зависимости от времени.

Система синусоидального анализа / синтеза (на основе Маколей и Кватири 1988, п. 161)[4]

Синусоидальное спектральное моделирование

Другой метод растяжения времени основан на спектральная модель сигнала. В этом методе пики идентифицируются в кадрах с помощью STFT сигнала, а синусоидальные «дорожки» создаются соединением пиков в соседних кадрах. Затем треки повторно синтезируются в новом масштабе времени. Этот метод может дать хорошие результаты как для полифонического, так и для ударного материала, особенно когда сигнал разделен на поддиапазоны. Однако этот метод более требователен к вычислениям, чем другие методы.[нужна цитата ]

Моделирование монофонического звука как наблюдение по спирали функции с цилиндрической областью

Область времени

СОЛА

Рабинер и Шафер в 1978 году предложили альтернативное решение, которое работает в область времени: попытка найти период (или эквивалентно основная частота ) данного участка волны с помощью некоторого алгоритм определения высоты тона (обычно пик сигнала автокорреляция, а иногда кепстрал обработка), и плавное затухание один период в другой.

Это называется гармоническое масштабирование во временной области[5] или синхронизированный метод сложения с перекрытием (SOLA) и работает несколько быстрее, чем фазовый вокодер на более медленных машинах, но не работает, когда автокорреляция неверно оценивает период сигнала со сложными гармониками (такими как оркестровый шт).

Adobe Audition (бывшая Cool Edit Pro), похоже, решает эту проблему, ища период, ближайший к центральному периоду, который указывает пользователь, который должен быть целым числом, кратным темпу, и между 30 Гц и самая низкая частота басов.

Это намного более ограничено по объему, чем обработка на основе фазового вокодера, но может быть значительно менее интенсивно загружено процессором для приложений реального времени. Обеспечивает наиболее последовательные результаты[нужна цитата ] для однотональных звуков, таких как голос или записи музыкальных монофонических инструментов.

Высококачественные коммерческие пакеты обработки звука либо объединяют эти два метода (например, разделяя сигнал на синусоидальные и переходные формы волны), либо используют другие методы, основанные на вейвлет преобразование или обработка искусственной нейронной сети[нужна цитата ], производя самую качественную растяжку времени.

Фреймовый подход

Основанный на кадрах подход многих процедур TSM

Чтобы сохранить высоту звука звукового сигнала при растяжении или сжатии его длительности, многие процедуры модификации шкалы времени (TSM) следуют подходу на основе кадров.[6]Учитывая исходный звуковой сигнал с дискретным временем, первым шагом этой стратегии является разделение сигнала на короткие рамки анализа фиксированной длины. кадры анализа разделены фиксированным числом образцов, называемым анализ хопсайз .Для достижения фактического изменения шкалы времени кадры анализа затем временно перемещаются, чтобы иметь синтез хмеля Это перемещение кадра приводит к изменению длительности сигнала на коэффициент растяжения изОднако простое наложение немодифицированных кадров анализа обычно приводит к нежелательным артефактам, таким как скачки фазы или флуктуации амплитуды. Чтобы предотвратить такие артефакты, кадры анализа адаптируются для формирования кадры синтеза, перед реконструкцией выходного сигнала с измененной шкалой времени.

Стратегия получения кадров синтеза из кадров анализа является ключевым отличием между различными процедурами TSM.

Скоростной слух и скоростная речь

Для конкретного случая речи растяжение времени может быть выполнено с помощью ПСОЛА.

Хотя можно было ожидать, что ускорение ухудшит понимание, Херб Фридман говорит: «Эксперименты показали, что мозг работает наиболее эффективно, если скорость передачи информации через уши - посредством речи - равна« средней »скорости чтения, которая составляет около 200–300 слов в минуту. (слов в минуту), но средняя скорость речи находится в районе 100–150 слов в минуту ».[7]

Ускорение звука рассматривается как эквивалент скорочтение.[8][9]

Масштабирование высоты тона

Изменение высоты тона (Масштабирование частоты) предоставляется на Eventide Гармонизатор
Сдвиг частоты предоставленный Боде Сдвигатель частоты не держит соотношение частот и гармония.

Эти методы также можно использовать для транспонировать аудиосэмпл при постоянной скорости или продолжительности. Это может быть выполнено растягиванием по времени и затем повторной дискретизацией до исходной длины. В качестве альтернативы, частота синусоид в синусоидальная модель могут быть изменены напрямую, а сигнал восстановлен в соответствующем масштабе времени.

Транспонирование можно назвать частота масштабирование или изменение высоты тона, в зависимости от перспективы.

Например, можно поднять высоту звука каждой ноты на одну квинт, сохраняя тот же темп. Это транспонирование можно рассматривать как «смещение высоты тона», «сдвиг» каждой ноты вверх на 7 клавиш на клавиатуре пианино или добавление фиксированная сумма на Шкала Мел, или добавление фиксированной суммы в линейном пространство поля. Можно рассматривать такое же транспонирование, как «масштабирование частоты», «масштабирование» (умножение) частоты каждой ноты на 3/2.

Музыкальное транспонирование сохраняет пропорции гармонический частоты, которые определяют звук тембр, в отличие от частотный сдвиг в исполнении амплитудная модуляция, который добавляет фиксированный частотный сдвиг к частоте каждой ноты. (Теоретически можно выполнить буквальное масштабирование высоты тона в котором масштабируется расположение музыкального пространства основного тона [более высокая нота будет смещена с большим интервалом в линейном пространстве основного тона, чем более низкая нота], но это очень необычно и не музыкально.[нужна цитата ])

Обработка во временной области работает здесь намного лучше, поскольку размытие менее заметно, но масштабирование вокальных сэмплов искажает форманты в своего рода Элвин и бурундуки -подобный эффект, который может быть желательным или нежелательным. Процесс, который сохраняет форманты и характер голоса, включает анализ сигнала с помощью канальный вокодер или LPC вокодер плюс любой из нескольких алгоритмы определения высоты тона а затем ресинтезировать его на другой основной частоте.

Подробное описание старых аналоговых методов записи для сдвига высоты тона можно найти в Элвин и бурундуки вход.

Смотрите также

другие

использованная литература

  1. ^ https://web.archive.org/web/20080527184101/http://www.tvtechnology.com/features/audio_notes/f_audionotes.shtml
  2. ^ http://www.atarimagazines.com/creative/v9n7/122_Variable_speech.php
  3. ^ Джонт Б. Аллен (июнь 1977 г.). «Кратковременный спектральный анализ, синтез и модификация с помощью дискретного преобразования Фурье». Транзакции IEEE по акустике, речи и обработке сигналов. АССП-25 (3): 235–238.
  4. ^ McAulay, R.J .; Кватири, Т.Ф. (1988), «Обработка речи на основе синусоидальной модели» (PDF), Журнал лаборатории Линкольна, 1 (2): 153–167, архивировано с оригинал (PDF) на 2012-05-21, получено 2014-09-07
  5. ^ Дэвид Малах (апрель 1979 г.). «Алгоритмы временной области для уменьшения гармонической полосы пропускания и временного масштабирования речевых сигналов». Транзакции IEEE по акустике, речи и обработке сигналов. АССП-27 (2): 121–133.
  6. ^ Джонатан Дридгер и Мейнард Мюллер (2016). "Обзор модификации музыкальных сигналов по шкале времени". Прикладные науки. 6 (2): 57. Дои:10.3390 / app6020057.
  7. ^ Переменная речь, Creative Computing Vol. 9, No. 7 / июль 1983 г. / стр. 122
  8. ^ http://www.nevsblog.com/2006/06/23/listen-to-podcasts-in-half-the-time/
  9. ^ https://web.archive.org/web/20060902102443/http://cid.lib.byu.edu/?p=128

внешние ссылки