Формат кодирования аудио - Audio coding format - Wikipedia

Сравнение эффективности кодирования популярных аудиоформатов

An формат кодирования звука^[1] (или иногда формат сжатия звука) это формат представления контента для хранения или передачи цифровой звук (например, в цифровое телевидение, цифровое радио и в аудио и видео файлах). Примеры форматов аудиокодирования включают: MP3, AAC, Vorbis, FLAC, и Opus. Конкретная программная или аппаратная реализация, способная сжатие звука и декомпрессия в / из определенного формата кодирования звука называется аудиокодек; пример аудиокодека ХРОМОЙ, который является одним из нескольких кодеков, реализующих кодирование и декодирование звука в MP3 формат кодирования звука в программном обеспечении.

Некоторые форматы кодирования аудио задокументированы подробным техническая спецификация документ, известный как спецификация кодирования звука. Некоторые такие спецификации написаны и утверждены организации по стандартизации в качестве технические стандарты, и поэтому известны как стандарт кодирования звука. Термин «стандартный» также иногда используется для де-факто стандарты а также формальные стандарты.

Аудиоконтент, закодированный в определенном формате аудиокодирования, обычно инкапсулируется в формат контейнера. Таким образом, у пользователя обычно нет сырого AAC файл, но вместо него .m4a аудио файл, который является MPEG-4, часть 14 контейнер, содержащий аудио в кодировке AAC. Контейнер также содержит метаданные такие как заголовок и другие теги, и, возможно, индекс для быстрого поиска.^[2] Заметным исключением является MP3 файлы, которые являются необработанными аудиофайлами без формата контейнера. Стандарты де-факто для добавления тегов метаданных, таких как название и исполнитель, в файлы MP3, например ID3, находятся хаки которые работают, добавляя теги к MP3, а затем полагаясь на MP3-плеер, чтобы распознать фрагмент как искаженное звуковое кодирование и, следовательно, пропустить его. В видеофайлах со звуком закодированный аудиоконтент объединяется с видео (в формат кодирования видео ) внутри формат мультимедийного контейнера.

Формат аудиокодирования не диктует все алгоритмы используется кодек реализация формата. По словам исследователя, важной частью того, как работает сжатие звука с потерями, является удаление данных способами, которые люди не могут услышать. психоакустическая модель; разработчик кодировщика имеет некоторую свободу выбора данных для удаления (в соответствии с их психоакустической моделью).

Форматы кодирования аудио без потерь, с потерями и без сжатия

А без потерь Формат аудиокодирования сокращает общий объем данных, необходимых для представления звука, но может быть декодирован в исходную несжатую форму. А с потерями формат кодирования звука дополнительно снижает битовое разрешение звука поверх сжатия, что приводит к гораздо меньшему объему данных за счет безвозвратной потери информации.

Потребительский звук чаще всего сжимается с использованием аудиокодеков с потерями, поскольку меньший размер гораздо удобнее для распространения. Наиболее широко используемые форматы кодирования аудио: MP3 и Расширенное кодирование звука (AAC), оба формата с потерями на основе модифицированное дискретное косинусное преобразование (MDCT) и перцептивное кодирование алгоритмы.

Форматы кодирования звука без потерь, такие как FLAC и Яблоко без потерь иногда доступны, хотя и за счет более крупных файлов.

Несжатый звук форматы, такие как импульсно-кодовая модуляция (PCM или .wav) также иногда используются. PCM был стандартным форматом для Компакт-диск Цифровое аудио (CDDA), до того, как сжатие с потерями стало стандартом после появления MP3.

История

Solidyne 922: первое в мире коммерческое побитовое сжатие аудио звуковая карта для ПК, 1990

В 1950 г. Bell Labs подал патент на дифференциальная импульсно-кодовая модуляция (DPCM).^[3] Адаптивный DPCM (ADPCM) был представлен П. Каммиски, Никил С. Джаянт и Джеймс Л. Фланаган в Bell Labs в 1973 г.^[4]^[5]

Перцептивное кодирование был впервые использован для кодирование речи сжатие, с кодирование с линейным прогнозированием (LPC).^[6] Первоначальные концепции LPC восходят к работе Фумитада Итакура (Нагойский университет ) и Сюдзо Сайто (Nippon Telegraph and Telephone ) в 1966 году.^[7] В 1970-е годы Бишну С. Атал и Манфред Р. Шредер в Bell Labs разработал форму LPC под названием адаптивное кодирование с предсказанием (APC), алгоритм кодирования восприятия, который использовал маскирующие свойства человеческого уха, за которым в начале 1980-х гг. линейное предсказание с кодовым возбуждением (CELP), который достиг значительной степени сжатия для своего времени.^[6] Перцепционное кодирование используется современными форматами сжатия звука, такими как MP3^[6] и AAC.

Дискретное косинусное преобразование (DCT), разработанная Насир Ахмед, Т. Натараджан и К. Р. Рао в 1974 г.,^[8] послужил основой для модифицированное дискретное косинусное преобразование (MDCT) используется современными форматами сжатия звука, такими как MP3^[9] и AAC. MDCT был предложен Дж. П. Принсеном, А. В. Джонсоном и А. Б. Брэдли в 1987 г.^[10] после более ранней работы Принсена и Брэдли в 1986 году.^[11] MDCT используется современными форматами сжатия звука, такими как Dolby Digital,^[12]^[13] MP3,^[9] и Расширенное кодирование звука (AAC).^[14]

Список форматов с потерями

Общий

Базовый алгоритм сжатия	Стандарт кодирования звука	Сокращение	Вступление	Рыночная доля (2019)^[15]	Ссылка
Модифицированное дискретное косинусное преобразование (MDCT)	Dolby Digital (AC-3)	AC3	1991	58%	^[12]^[16]
	Акустическое кодирование с адаптивным преобразованием	ATRAC	1992	Неизвестно	^[12]
	MPEG Layer III	MP3	1993	49%	^[9]^[17]
	Расширенное кодирование звука (MPEG-2 / MPEG-4 )	AAC	1997	88%	^[14]^[12]
	Windows Media Audio	WMA	1999	Неизвестно	^[12]
	Ogg Vorbis	Ogg	2000	7%	^[18]^[12]
	Преобразование с ограничением энергии с перекрытием	CELT	2011	Нет данных	^[19]
	Opus	Opus	2012	8%	^[20]
	LDAC	LDAC	2015	Неизвестно	^[21]^[22]
Адаптивная дифференциальная импульсно-кодовая модуляция (ADPCM)	aptX / aptX-HD	aptX	1989	Неизвестно	^[23]
	Системы цифрового театра	DTS	1990	14%	^[24]^[25]
	Мастер качества аутентифицирован	MQA	2014	Неизвестно
Подполосное кодирование (SBC)	MPEG-1 Audio Layer II	MP2	1993	Неизвестно
Подполосное кодирование (SBC)	Musepack	ПДК	1997	Неизвестно

Речь

Кодирование с линейным прогнозированием (LPC)
- Адаптивное предиктивное кодирование (БТР)
- Линейное предсказание с кодовым возбуждением (CELP)
- Линейное предсказание с алгебраическим кодом (ACELP)
- Расслабленное линейное предсказание с кодовым возбуждением (RCELP)
- CELP с малой задержкой (LD-CELP)
- Адаптивная многоскоростная передача (используется в GSM и 3GPP )
- Кодек2 (отмечен отсутствием патентных ограничений)
- Speex (отмечен отсутствием патентных ограничений)
Модифицированное дискретное косинусное преобразование (MDCT)
- AAC-LD
- Преобразование с ограничением энергии с перекрытием (CELT)
- Opus (в основном для приложений реального времени)

Список форматов без потерь

Яблоко без потерь (ALAC - аудиокодек Apple без потерь)
Акустическое кодирование с адаптивным преобразованием (ATRAC)
Кодирование звука без потерь (также известный как MPEG-4 ALS)
Прямая потоковая передача (Летнее время)
Dolby TrueHD
DTS-HD Master Audio
Бесплатный аудиокодек без потерь (FLAC)
Дискретное косинусное преобразование без потерь (LDCT)
Упаковка без потерь Meridian (MLP)
Monkey's Audio (Обезьяна Обезьяны)
MPEG-4 SLS (также известный как HD-AAC)
OptimFROG
Оригинальное качество звука (OSQ)
Реальный игрок (RealAudio без потерь)
Сокращать (SHN)
TTA (Истинное аудио без потерь)
WavPack (WavPack без потерь)
WMA без потерь (Windows Media без потерь)

Смотрите также

Рекомендации

^ Термин «аудиокодирование» можно увидеть, например, в название Расширенное кодирование звука, и аналогичен термину кодирование видео
^ «Видео - где в контейнерных форматах хранится информация о синхронизации?».
^ Патент США 2605361, К. Чапин Катлер, "Дифференциальное квантование сигналов связи", выпущенный 1952-07-29.
^ П. Каммиски, Никил С. Джаянт и Дж. Л. Фланаган, "Адаптивное квантование в дифференциальном кодировании речи с ИКМ", Bell Syst. Tech. Дж., т. 52, стр. 1105–1118, сентябрь 1973 г.
^ Cummiskey, P .; Джаянт, Никил С .; Фланаган, Дж. Л. (1973). «Адаптивное квантование при дифференциальном кодировании речи с ИКМ». Технический журнал Bell System. 52 (7): 1105–1118. Дои:10.1002 / j.1538-7305.1973.tb02007.x. ISSN 0005-8580.
^ ^а ^б ^c Шредер, Манфред Р. (2014). "Bell Laboratories". Акустика, информация и связь: Мемориальный том в честь Манфреда Р. Шредера. Springer. п. 388. ISBN 9783319056609.
^ Грей, Роберт М. (2010). "История цифровой речи в режиме реального времени в пакетных сетях: Часть II линейного прогнозного кодирования и Интернет-протокола" (PDF). Найденный. Тенденции сигнального процесса. 3 (4): 203–303. Дои:10.1561/2000000036. ISSN 1932-8346.
^ Насир Ахмед; Т. Натараджан; Камисетти Рамамохан Рао (январь 1974 г.). «Дискретное косинусное преобразование» (PDF). Транзакции IEEE на компьютерах. С-23 (1): 90–93. Дои:10.1109 / T-C.1974.223784.
^ ^а ^б ^c Гукерт, Джон (весна 2012 г.). «Использование БПФ и MDCT в сжатии аудио MP3» (PDF). Университет Юты. Получено 14 июля 2019.
^ Дж. П. Принсен, А. В. Джонсон и А. Б. Брэдли: Кодирование поддиапазона / преобразования с использованием схем набора фильтров на основе отмены наложения спектров во временной области, IEEE Proc. Intl. Конференция по акустике, речи и обработке сигналов (ICASSP), 2161–2164, 1987.
^ Джон П. Принсен, Алан Б. Брэдли: Дизайн банка фильтров анализа / синтеза на основе отмены наложения спектров во временной области, IEEE Trans. Акуст. Обработка речевого сигнала, АССП-34 (5), 1153–1161, 1986.
^ ^а ^б ^c ^d ^е ^ж Ло, Фа-Лонг (2008). Стандарты мобильного мультимедийного вещания: технологии и практика. Springer Science & Business Media. п. 590. ISBN 9780387782638.
^ Британак, В. (2011). «О свойствах, взаимосвязях и упрощенной реализации банков фильтров в стандартах аудиокодирования Dolby Digital (Plus) AC-3». Транзакции IEEE по обработке звука, речи и языка. 19 (5): 1231–1241. Дои:10.1109 / TASL.2010.2087755.
^ ^а ^б Бранденбург, Карлхайнц (1999). «Объяснение MP3 и AAC» (PDF). В архиве (PDF) из оригинала от 13.02.2017.
^ «Отчет разработчика видео 2019» (PDF). Битмовин. 2019. Получено 5 ноября 2019.
^ Британак, В. (2011). «О свойствах, взаимосвязях и упрощенной реализации банков фильтров в стандартах аудиокодирования Dolby Digital (Plus) AC-3». Транзакции IEEE по обработке звука, речи и языка. 19 (5): 1231–1241. Дои:10.1109 / TASL.2010.2087755.
^ Станкович, Радомир С .; Астола, Яакко Т. (2012). «Воспоминания о ранних работах в DCT: интервью с К.Р. Рао» (PDF). Отпечатки с первых дней информационных наук. 60. Получено 13 октября 2019.
^ Фонд Xiph.Org (02.06.2009). «Спецификация Vorbis I - 1.1.2 Классификация». Фонд Xiph.Org. Получено 2009-09-22.
^ Презентация кодека CELT Тимоти Б. Террибери (65 минут видео, см. также слайды презентации в PDF)
^ Валин, Жан-Марк; Максвелл, Грегори; Террибери, Тимоти Б .; Вос, Коэн (октябрь 2013 г.). Высококачественное кодирование музыки с малой задержкой в кодеке Opus. 135-я Конвенция AES. Аудио инженерное общество. arXiv:1602.04845.
^ Дарко, Джон Х. (2017-03-29). «Неудобная правда о Bluetooth-аудио». ДАР__КО. Архивировано из оригинал на 2018-01-14. Получено 2018-01-13.
^ Ford, Jez (24 августа 2015 г.). "Что такое Sony LDAC и как он это делает?". AVHub. Получено 2018-01-13.
^ Форд, Джез (22 ноября 2016 г.). "aptX HD - без потерь или с потерями?". AVHub. Получено 2018-01-13.
^ "Аудиоформаты систем цифрового театра". Библиотека Конгресса. 27 декабря 2011 г.. Получено 10 ноября 2019.
^ Спаниас, Андреас; Художник, Тед; Атти, Венкатраман (2006). Обработка и кодирование аудиосигналов. Джон Уайли и сыновья. п. 338. ISBN 9780470041963.

[1] Термин «аудиокодирование» можно увидеть, например, в название Расширенное кодирование звука, и аналогичен термину кодирование видео

[2] «Видео - где в контейнерных форматах хранится информация о синхронизации?».

[DPCM-3] Патент США 2605361, К. Чапин Катлер, "Дифференциальное квантование сигналов связи", выпущенный 1952-07-29.

[4] П. Каммиски, Никил С. Джаянт и Дж. Л. Фланаган, "Адаптивное квантование в дифференциальном кодировании речи с ИКМ", Bell Syst. Tech. Дж., т. 52, стр. 1105–1118, сентябрь 1973 г.

[5] Cummiskey, P .; Джаянт, Никил С .; Фланаган, Дж. Л. (1973). «Адаптивное квантование при дифференциальном кодировании речи с ИКМ». Технический журнал Bell System. 52 (7): 1105–1118. Дои:10.1002 / j.1538-7305.1973.tb02007.x. ISSN 0005-8580.

[Schroeder2014-6] а ^б ^c Шредер, Манфред Р. (2014). "Bell Laboratories". Акустика, информация и связь: Мемориальный том в честь Манфреда Р. Шредера. Springer. п. 388. ISBN 9783319056609.

[7] Грей, Роберт М. (2010). "История цифровой речи в режиме реального времени в пакетных сетях: Часть II линейного прогнозного кодирования и Интернет-протокола" (PDF). Найденный. Тенденции сигнального процесса. 3 (4): 203–303. Дои:10.1561/2000000036. ISSN 1932-8346.

[DCT-8] Насир Ахмед; Т. Натараджан; Камисетти Рамамохан Рао (январь 1974 г.). «Дискретное косинусное преобразование» (PDF). Транзакции IEEE на компьютерах. С-23 (1): 90–93. Дои:10.1109 / T-C.1974.223784.

[Guckert-9] а ^б ^c Гукерт, Джон (весна 2012 г.). «Использование БПФ и MDCT в сжатии аудио MP3» (PDF). Университет Юты. Получено 14 июля 2019.

[10] Дж. П. Принсен, А. В. Джонсон и А. Б. Брэдли: Кодирование поддиапазона / преобразования с использованием схем набора фильтров на основе отмены наложения спектров во временной области, IEEE Proc. Intl. Конференция по акустике, речи и обработке сигналов (ICASSP), 2161–2164, 1987.

[11] Джон П. Принсен, Алан Б. Брэдли: Дизайн банка фильтров анализа / синтеза на основе отмены наложения спектров во временной области, IEEE Trans. Акуст. Обработка речевого сигнала, АССП-34 (5), 1153–1161, 1986.

[Luo-12] а ^б ^c ^d ^е ^ж Ло, Фа-Лонг (2008). Стандарты мобильного мультимедийного вещания: технологии и практика. Springer Science & Business Media. п. 590. ISBN 9780387782638.

[13] Британак, В. (2011). «О свойствах, взаимосвязях и упрощенной реализации банков фильтров в стандартах аудиокодирования Dolby Digital (Plus) AC-3». Транзакции IEEE по обработке звука, речи и языка. 19 (5): 1231–1241. Дои:10.1109 / TASL.2010.2087755.

[brandenburg-14] а ^б Бранденбург, Карлхайнц (1999). «Объяснение MP3 и AAC» (PDF). В архиве (PDF) из оригинала от 13.02.2017.

[Bitmovin-15] «Отчет разработчика видео 2019» (PDF). Битмовин. 2019. Получено 5 ноября 2019.

[Britanak2011-16] Британак, В. (2011). «О свойствах, взаимосвязях и упрощенной реализации банков фильтров в стандартах аудиокодирования Dolby Digital (Plus) AC-3». Транзакции IEEE по обработке звука, речи и языка. 19 (5): 1231–1241. Дои:10.1109 / TASL.2010.2087755.

[Stankovic-17] Станкович, Радомир С .; Астола, Яакко Т. (2012). «Воспоминания о ранних работах в DCT: интервью с К.Р. Рао» (PDF). Отпечатки с первых дней информационных наук. 60. Получено 13 октября 2019.

[vorbis-mdct-18] Фонд Xiph.Org (02.06.2009). «Спецификация Vorbis I - 1.1.2 Классификация». Фонд Xiph.Org. Получено 2009-09-22.

[presentation-19] Презентация кодека CELT Тимоти Б. Террибери (65 минут видео, см. также слайды презентации в PDF)

[20] Валин, Жан-Марк; Максвелл, Грегори; Террибери, Тимоти Б .; Вос, Коэн (октябрь 2013 г.). Высококачественное кодирование музыки с малой задержкой в кодеке Opus. 135-я Конвенция AES. Аудио инженерное общество. arXiv:1602.04845.

[Darko_2017-21] Дарко, Джон Х. (2017-03-29). «Неудобная правда о Bluetooth-аудио». ДАР__КО. Архивировано из оригинал на 2018-01-14. Получено 2018-01-13.

[AVHub_2015-22] Ford, Jez (24 августа 2015 г.). "Что такое Sony LDAC и как он это делает?". AVHub. Получено 2018-01-13.

[AVHub_2016-23] Форд, Джез (22 ноября 2016 г.). "aptX HD - без потерь или с потерями?". AVHub. Получено 2018-01-13.

[24] "Аудиоформаты систем цифрового театра". Библиотека Конгресса. 27 декабря 2011 г.. Получено 10 ноября 2019.

[25] Спаниас, Андреас; Художник, Тед; Атти, Венкатраман (2006). Обработка и кодирование аудиосигналов. Джон Уайли и сыновья. п. 338. ISBN 9780470041963.

[1]

[2]

[3]

[4]

[5]

[6]

[7]

[8]

[9]

[10]

[11]

[12]

[13]

[14]

[15]

[16]

[17]

[18]

[19]

[20]

[21]

[22]

[23]

[24]

[25]