Субъективное качество видео - Subjective video quality
Субъективное качество видео является качество видео как испытано людьми. Он касается того, как видео воспринимается зрителем (также называемым «наблюдателем» или «субъектом»), и обозначает его мнение о конкретном видео последовательность. Это связано с областью Качество опыта. Измерение субъективного качества видео необходимо, потому что объективные алгоритмы оценки качества, такие как PSNR было показано, что они плохо коррелируют с субъективными оценками. Субъективные оценки также могут использоваться в качестве основы для разработки новых алгоритмов.
Субъективные тесты качества видео находятся психофизические эксперименты в котором ряд зрителей оценивают данный набор стимулов. Эти тесты довольно дороги с точки зрения времени (подготовка и выполнение) и человеческих ресурсов и поэтому должны быть тщательно разработаны.
В субъективных тестах качества видео обычно SRC ("Источники", т.е. исходные видеопоследовательности) обрабатываются с различными условиями (СПЧ для «Гипотетических эталонных схем») для создания ПВС («Обработанные видеопоследовательности»).[1]
Измерение
Основная идея измерения субъективного качества видео аналогична средняя оценка мнения (MOS) оценка для аудио. Чтобы оценить субъективное качество видео системы обработки видео, обычно предпринимаются следующие шаги:
- Выберите оригинальные, неискаженные видеопоследовательности для тестирования
- Выберите настройки системы, которые следует оценить
- Примените настройки к SRC, что приведет к тестовым последовательностям
- Выберите метод тестирования, описывающий, как последовательности представляются зрителям и как собираются их мнения.
- Пригласите группу зрителей
- Проведите тестирование в определенной среде (например, в лабораторных условиях) и представьте каждый PVS в определенном порядке каждому зрителю.
- Рассчитайте рейтинговые результаты для отдельных PVS, SRC и HRC, например то MOS
Многие параметры условий просмотра могут влиять на результаты, такие как освещение комнаты, тип дисплея, яркость, контраст, разрешение, расстояние просмотра, а также возраст и уровень образования зрителей. Поэтому рекомендуется сообщать эту информацию вместе с полученными рейтингами.
Выбор источника
Как правило, система должна быть протестирована с репрезентативным количеством различного содержимого и характеристик содержимого. Например, можно выбрать отрывки из контента разных жанров, например боевиков, новостных шоу и мультфильмов. Длина исходного видео зависит от цели теста, но обычно используются последовательности не менее 10 секунд.
Количество движения и пространственная детализация также должны охватывать широкий диапазон. Это гарантирует, что тест содержит последовательности разной сложности.
Источники должны быть безупречного качества. Не должно быть видимых артефакты кодирования или другие свойства, которые могут снизить качество исходной последовательности.
Настройки
Конструкция HRC зависит от исследуемой системы. Как правило, на этом этапе вводится несколько независимых переменных, и они меняются на нескольких уровнях. Например, чтобы проверить качество видео кодек, независимыми переменными могут быть программное обеспечение для кодирования видео, целевой битрейт и целевое разрешение обрабатываемой последовательности.
Рекомендуется выбирать настройки, которые приводят к оценкам, охватывающим весь диапазон качества. Другими словами, предполагая Абсолютный рейтинг категории По шкале, тест должен показывать последовательности, которые зрители оценили бы от плохих до отличных.
Зрителей
Количество зрителей
Зрителей также называют «наблюдателями» или «субъектами». Определенное минимальное количество зрителей должно быть приглашено на исследование, поскольку большее количество испытуемых повышает надежность результатов эксперимента, например, за счет уменьшения стандартного отклонения усредненных оценок. Кроме того, существует риск исключения испытуемых за ненадежное поведение во время оценки.
Минимальное количество субъектов, необходимое для субъективного исследования качества видео, строго не определено. Согласно ITU-T, возможно любое число от 4 до 40, где 4 является абсолютным минимумом по статистическим причинам, а приглашение более 40 субъектов не имеет дополнительной ценности. В целом в эксперименте должно участвовать не менее 15 наблюдателей. Они не должны напрямую участвовать в оценке качества изображения как часть своей работы и не должны быть опытными оценщиками.[2] В других документах также утверждается, что для получения значимых усредненных оценок необходимо как минимум 10 предметов.[3]
Однако большинство рекомендаций по количеству субъектов было разработано для измерения качества видео, с которым сталкивается пользователь домашнего телевидения или ПК, где диапазон и разнообразие искажений имеют тенденцию быть ограниченными (например, только кодированием артефактов). Учитывая большой диапазон и разнообразие искажений, которые могут возникать в видео, снятых с помощью мобильных устройств и / или передаваемых по беспроводным сетям, обычно может потребоваться большее количество людей.
Бруннстрем и Барковски представили расчеты для оценки минимального количества необходимых предметов на основе существующих субъективных тестов.[4] Они утверждают, что для обеспечения статистически значимых различий при сравнении оценок может потребоваться большее количество предметов, чем обычно рекомендуется.
Выбор зрителя
Зрители должны быть неспециалистами в том смысле, что они не должны быть профессионалами в области кодирования видео или смежных областях. Это требование вводится, чтобы избежать потенциальной предвзятости.[2]
Обычно зрителей проверяют на нормальное зрение или скорректированное до нормального зрения с помощью Графики Снеллена. Дальтонизм часто тестируется с Тарелки исихара.[2]
В настоящее время обсуждается QoE сообщества относительно того, имеет ли культурный, социальный или экономический опыт зрителя существенное влияние на получаемые субъективные результаты качества видео. Систематическое исследование с участием шести лабораторий в четырех странах не выявило статистически значимого влияния языка и культуры / страны происхождения испытуемых на рейтинги качества видео.[5]
Тестовая среда
Субъективные тесты качества можно проводить в любой среде. Однако из-за возможных факторов влияния из разнородных контекстов обычно рекомендуется проводить тесты в нейтральной среде, например в специальной лабораторной комнате. Такое помещение может быть звуконепроницаемым, со стенами, окрашенными в нейтральный серый цвет, и с использованием правильно откалиброванных источников света. Эти условия уточняются в нескольких рекомендациях.[6][7] Было показано, что контролируемая среда приводит к меньшей изменчивости полученных оценок.[5]
Краудсорсинг
Краудсорсинг недавно использовался для субъективной оценки качества видео и, в более общем плане, в контексте Качество опыта.[8] Здесь зрители выставляют оценки на собственном компьютере дома, а не принимают участие в субъективном тестировании качества в лабораторных помещениях. Хотя этот метод позволяет получить больше результатов, чем при традиционных субъективных тестах, при меньших затратах, достоверность и надежность полученных ответов необходимо тщательно проверять.[9]
Крупнейшая в мире краудсорсинговая база данных по качеству изображений стала общедоступной как ЖИТЬ в базе данных испытаний качества диких изображений. Он содержит более 350 000 оценок человеческого качества от более чем 8 000 человек. Человеческие суждения были сделаны на основе более чем 1100 фотографий, сделанных с помощью мобильной камеры, с разной степенью достоверных искажений, а не искусственно внесенных искажений, как это было сделано почти во всех предыдущих базах данных.
Анализ результатов
Мнения зрителей обычно усредняются в средний балл мнений (MOS). Для этого обозначения категориальных шкал могут быть переведены в числа. Например, ответы «плохо» на «отлично» можно сопоставить со значениями от 1 до 5, а затем усреднить. Значения MOS всегда следует сообщать вместе с их статистическими данными. доверительные интервалы так что можно оценить общее согласие между наблюдателями.
Тематический просмотр
Часто перед оценкой результатов принимаются дополнительные меры. Тематический отбор - это процесс, при котором зрители, чьи оценки считаются недействительными или ненадежными, исключаются из дальнейшего анализа. Недействительные оценки трудно обнаружить, поскольку испытуемые могли выставлять оценки, не просматривая видео, или жульничать во время теста. Общая надежность объекта может быть определена с помощью различных процедур, некоторые из которых описаны в рекомендациях ITU-R и ITU-T.[2][7] Например, корреляция между индивидуальными оценками человека и общей MOS, оцененной для всех последовательностей, является хорошим показателем их надежности по сравнению с остальными участниками теста.
Продвинутые модели
Оценивая стимулы, люди подвержены предубеждениям. Это может привести к различным и неточным оценкам и, как следствие, к значениям MOS, которые не отражают «истинное качество» стимула. В последние годы были предложены продвинутые модели, нацеленные на формальное описание рейтингового процесса и последующее восстановление зашумленности субъективных оценок. Согласно Яновски и др., Субъекты могут иметь предвзятость мнения, которая обычно приводит к изменению их оценок, а также неточность выставления оценок, которая зависит от объекта и стимула, подлежащего оценке.[10] Ли и др. предложили различать несоответствие предмета и неоднозначность содержания.[11]
Стандартизированные методы тестирования
Есть много способов выбрать правильную последовательность, системные настройки и методики тестирования. Некоторые из них стандартизированы. Они подробно описаны в нескольких рекомендациях ITU-R и ITU-T, среди которых ITU-R BT.500[7] и ITU-T P.910.[2] Хотя некоторые аспекты частично совпадают, рекомендация BT.500 берет свое начало в вещании, тогда как P.910 фокусируется на мультимедийном контенте.
Стандартизированный метод тестирования обычно описывает следующие аспекты:
- как долго длится сеанс эксперимента
- где проводится эксперимент
- сколько раз и в каком порядке нужно просматривать каждый PVS
- выставляются ли оценки один раз за стимул (например, после презентации) или постоянно
- являются ли оценки абсолютными, т.е. относящимися только к одному стимулу, или относительными (сравнение двух или более стимулов)
- по какой шкале берутся рейтинги
Другая рекомендация, ITU-T P.913,[6] дает исследователям больше свободы для проведения субъективных тестов качества в условиях, отличных от типичной испытательной лаборатории, при этом от них требуется сообщать все детали, необходимые для воспроизводимости таких тестов.
Примеры
Ниже объясняются некоторые примеры стандартных процедур тестирования.
Одиночный стимул
- ACR (Абсолютный рейтинг категории):[2] каждая последовательность оценивается индивидуально по Шкала ACR. Метки на шкале: «плохо», «плохо», «удовлетворительно», «хорошо» и «отлично», и они переводятся в значения 1, 2, 3, 4 и 5 при вычислении MOS.
- ACR-HR (Абсолютный рейтинг категории со скрытой ссылкой): вариант ACR, в котором исходная неповрежденная исходная последовательность отображается в дополнение к нарушенным последовательностям, без информирования субъектов о ее присутствии (следовательно, «скрытая»). Рейтинги рассчитываются как разница в баллах между эталонной версией и версией с дефектами. Дифференциальная оценка определяется как оценка PVS минус оценка, присвоенная скрытой ссылке, плюс количество баллов на шкале. Например, если PVS оценен как «плохо», а соответствующая скрытая ссылка - как «хорошо», тогда оценка будет . Когда эти оценки усредняются, результатом является не MOS, а дифференциальная MOS («DMOS»).
- SSCQE (Непрерывный рейтинг качества одного стимула):[7] более длинная последовательность непрерывно оценивается во времени с помощью ползунка (вариант фейдер ), по которым испытуемые оценивают текущее качество. Образцы берутся через равные промежутки времени, в результате чего получается кривая качества с течением времени, а не единая оценка качества.
Двойной или множественный стимул
- DSCQS (Непрерывная шкала качества двойного стимула):[7] зритель видит неискаженный эталон и нарушенную последовательность в случайном порядке. Им разрешается повторно просматривать последовательности, а затем оценивать качество обоих по непрерывной шкале, помеченной категориями ACR.
- DSIS (Шкала двойного раздражения)[7] и DCR (Рейтинг категории деградации):[2] оба относятся к одному и тому же методу. Зритель видит исходное видео без искажений, затем то же видео с искажениями, и после этого его просят проголосовать за второе видео, используя так называемый шкала обесценения (от «нарушения незаметны» до «нарушения очень раздражают»).
- ПК (Сравнение пар):[2] вместо сравнения неизмененной и поврежденной последовательности сравниваются различные типы нарушений (HRC). Следует оценить все возможные комбинации HRC.
Выбор методологии
Какой метод выбрать, во многом зависит от цели теста и возможных ограничений по времени и другим ресурсам. Некоторые методы могут иметь меньше контекстных эффектов (т.е. когда порядок стимулов влияет на результаты), что является нежелательной ошибкой теста.[12] В ITU-T P.910 отмечается, что для проверки точности передачи следует использовать такие методы, как DCR, особенно в системах высокого качества. ACR и ACR-HR лучше подходят для квалификационных испытаний и - из-за получения абсолютных результатов - для сравнения систем. Метод ПК обладает высокой дискриминационной способностью, но требует более длительных сеансов тестирования.
Базы данных
Результаты субъективных качественных тестов, включая использованные стимулы, называются базы данных. Ряд баз данных о субъективном качестве изображений и видео, основанных на таких исследованиях, был опубликован исследовательскими институтами. Эти базы данных, некоторые из которых стали де-факто стандартами, используются во всем мире телевизионными, кинематографическими и видеоинженерами по всему миру для разработки и тестирования моделей объективного качества, поскольку разработанные модели могут быть обучены на основе полученных субъективных данных.
Примеры этих баз данных включают популярную коллекцию общедоступных баз данных субъективного качества изображения, доступных на Лаборатория изображения и видеоинженерии (LIVE) интернет сайт. Базы данных LIVE были первыми высококачественными крупными базами данных субъективного качества изображения, которые были доступны общественности бесплатно и без утаивания какой-либо части данных. Последние работы включают базы данных Institut de Recherche en Communications et Cybernétique de Nantes (IRCCyN). Список европейских баз данных, относящихся к области качества опыта, можно найти в Базы данных QUALINET.
Рекомендации
- ^ Учебное пособие ITU-T: Объективная оценка восприятия качества видео: Полное эталонное телевидение, 2004.
- ^ а б c d е ж грамм час Рек. МСЭ-Т. P.910: Методы субъективной оценки качества видео для мультимедийных приложений, 2008.
- ^ Винклер, Стефан. «О свойствах субъективных оценок в экспериментах с качеством видео». Proc. Качество мультимедийного опыта, 2009.
- ^ Бруннстрем, Челл; Барковский, Маркус (2018-09-25). «Статистическое качество анализа опыта: планирование размера выборки и тестирование статистической значимости». Журнал электронного изображения. 27 (5): 053013. Bibcode:2018JEI .... 27e3013B. Дои:10.1117 / 1.jei.27.5.053013. ISSN 1017-9909. S2CID 53058660.
- ^ а б Пинсон, М. Х .; Яновский, Л .; Pepion, R .; Huynh-Thu, Q .; Schmidmer, C .; Corriveau, P .; Юнкин, А .; Callet, P. Le; Барковский, М. (октябрь 2012 г.). «Влияние субъектов и окружающей среды на аудиовизуальные субъективные тесты: международное исследование» (PDF). Журнал IEEE по избранным темам в обработке сигналов. 6 (6): 640–651. Bibcode:2012ISTSP ... 6..640P. Дои:10.1109 / jstsp.2012.2215306. ISSN 1932-4553. S2CID 10667847.
- ^ а б ITU-T P.913: Методы субъективной оценки качества видео, качества звука и аудиовизуального качества интернет-видео и качества распространения телевидения в любой среде, 2014.
- ^ а б c d е ж ITU-R BT.500: Методология субъективной оценки качества телевизионных изображений, 2012.
- ^ Хоссфельд, Тобиас (15 января 2014 г.). «Лучшие практики крауд-тестирования QoE: оценка QoE с помощью краудсорсинга». Транзакции IEEE в мультимедиа. 16 (2): 541–558. Дои:10.1109 / TMM.2013.2291663. S2CID 16862362.
- ^ Хоссфельд, Тобиас; Хирт, Матиас; Реди, Джудит; Мацца, Филиппо; Коршунов, Павел; Надери, Бабак; Зойферт, Майкл; Гардло, Бруно; Эггер, Себастьян (октябрь 2014 г.). «Лучшие практики и рекомендации для краудсорсинга QoE - уроки, извлеченные из целевой группы Qualinet» Краудсорсинг"". хал-01078761. Цитировать журнал требует
| журнал =
(помощь) - ^ Яновский, Лучян; Пинсон, Маргарет (2015). "Точность субъектов в качественном эксперименте: теоретическая модель субъекта". Транзакции IEEE в мультимедиа. 17 (12): 2210–2224. Дои:10.1109 / tmm.2015.2484963. ISSN 1520-9210. S2CID 22343847.
- ^ Ли, Чжи; Бампис, Христос Г. (2017). «Восстановление субъективных показателей качества по измерениям с шумом». Конференция по сжатию данных 2017 г. (DCC). IEEE: 52–61. arXiv:1611.01715. Дои:10.1109 / dcc.2017.26. ISBN 9781509067213. S2CID 14251604.
- ^ Пинсон, Маргарет и Вольф, Стивен. «Сравнение субъективных методик тестирования качества видео». Конференция SPIE по видеосвязи и обработке изображений, Лугано, Швейцария, июль 2003 г.