Визуальный тест Тьюринга - Visual Turing Test

Избранные примеры вопросов, сгенерированные генератором запросов для визуального теста Тьюринга

Компьютерное зрение исследования проводятся на основе стандартных методов оценки. Текущие системы проверены на их точность для таких задач, как обнаружение объекта, сегментация и локализация. Такие методы, как сверточные нейронные сети похоже, неплохо справляется с этими задачами, но существующие системы все еще не приблизились к решению основной проблемы понимания изображений так, как это делают люди. Так мотивированные способностью людей понимать изображение и даже рассказывать о нем историю, Geman и другие. представили Визуальный тест Тьюринга для систем компьютерного зрения.

Как описано в^[1] это «управляемое оператором устройство, которое производит стохастический последовательность бинарных вопросов из заданного тестового изображения ».^[1] Механизм запросов выдает последовательность вопросов, на которые есть непредсказуемые ответы с учетом истории вопросов. Тест касается только зрения и не требует никаких обработка естественного языка. Задача человека-оператора - дать правильный ответ на вопрос или отклонить его как неоднозначный. Генератор запросов создает вопросы, которые следуют «естественной сюжетной линии», подобной тому, что делают люди, когда смотрят на картинку.

История

Исследования в области компьютерного зрения начались в 1960-х годах, когда Сеймур Паперт сначала попытался решить проблему. Эта неудачная попытка была названа Проект Summer Vision. Причина, по которой это не удалось, заключалась в том, что компьютерное зрение сложнее, чем думают люди. Сложность соответствует зрительной системе человека. Примерно 50% человеческого мозга посвящено обработке зрения, что ясно указывает на то, что это сложная проблема.

Позже были попытки решить проблемы с помощью моделей, вдохновленных человеческим мозгом. Персептроны к Фрэнк Розенблатт, который является формой нейронные сети, был одним из первых таких подходов. Эти простые нейронные сети не оправдали их ожиданий и имели определенные ограничения, из-за которых они не рассматривались в будущих исследованиях.

Позже, с появлением оборудования и некоторой вычислительной мощности, исследования переместились в обработка изображений который включает операции на уровне пикселей, например поиск краев, шумоподавляющие изображения или применяя фильтры, чтобы назвать несколько. В этой области был достигнут большой прогресс, но проблема зрения, которая заключалась в том, чтобы заставить машины понимать изображения, все еще не решалась. За это время появились и нейронные сети, поскольку было показано, что ограничения перцептронов могут быть преодолены с помощью Многослойные перцептроны. Также в начале 1990-х сверточные нейронные сети были рождены, которые показали отличные результаты в распознавании цифр, но не смогли хорошо масштабироваться для решения более сложных задач.

В конце 1990-х - начале 2000-х годов зародилось современное компьютерное зрение. Одна из причин, по которой это произошло, заключалась в доступности ключа, извлечение признаков и алгоритмы представления. Возможности наряду с уже имеющимися машинное обучение алгоритмы использовались для обнаружения, локализации и сегментации объектов в изображениях.

В то время как все эти улучшения были сделаны, сообщество почувствовало необходимость в стандартизированных наборах данных и оценочных показателях, чтобы можно было сравнивать результаты. Это привело к появлению таких проблем, как проблема Pascal VOC и ImageNet испытание. Наличие стандартных показателей оценки и открытые проблемы дали направление исследованиям. Были введены лучшие алгоритмы для конкретных задач, таких как обнаружение и классификация объектов.

Визуальный тест Тьюринга призван дать новое направление исследованиям компьютерного зрения, что приведет к внедрению систем, которые будут на один шаг ближе к пониманию изображений так, как это делают люди.

Текущая практика оценки

Большое количество наборов данных было аннотировано и обобщено для оценки производительности разностных классов алгоритмов для оценки различных задач зрения (например, обнаружения / распознавания объектов) в некоторой области изображений (например, изображения сцен).

Один из самых известных наборов данных в области компьютерного зрения - это ImageNet который используется для оценки проблемы классификации изображений на уровне объекта. ImageNet - один из крупнейших доступных наборов аннотированных данных, содержащий более миллиона изображений. Другой важной задачей видения является обнаружение и локализация объекта, что относится к обнаружению экземпляра объекта на изображении и предоставлению координат ограничивающего прямоугольника вокруг экземпляра объекта или сегментированию объекта. Самый популярный набор данных для этой задачи - это набор данных Pascal. Точно так же есть другие наборы данных для конкретных задач, таких как H3D^[2] набор данных для определения позы человека, базовый набор данных для оценки качества обнаруженных атрибутов объекта, таких как цвет, ориентация и активность.

Наличие этих стандартных наборов данных помогло сообществу специалистов по компьютерным технологиям разработать чрезвычайно эффективные алгоритмы для всех этих задач. Следующим логическим шагом является создание более крупной задачи, включающей эти более мелкие подзадачи. Выполнение такой задачи привело бы к созданию систем, которые будут понимать изображения, поскольку понимание изображений по своей сути предполагает обнаружение объектов, их локализацию и сегментирование.

Подробности

Визуальный тест Тьюринга (VTT) в отличие от Тест Тьюринга имеет систему обработки запросов, которая опрашивает систему компьютерного зрения в присутствии координатора-человека.

Это система, которая генерирует случайную последовательность двоичных вопросов, специфичных для тестового изображения, так что ответ на любой вопрос k непредсказуемо, учитывая верные ответы на предыдущие k - 1 вопрос (также известный как история вопросов).

Тест проводится в присутствии человека-оператора, который служит двум основным целям: удаление двусмысленный вопросы и дать правильные ответы на недвусмысленные вопросы. Учитывая изображение, можно задать бесконечное количество возможных двоичных вопросов, и многие из них обязательно будут неоднозначными. Эти вопросы, если они сгенерированы механизмом запросов, удаляются модератором-человеком, и вместо этого механизм запросов генерирует другой вопрос, так что ответ на него непредсказуем с учетом истории вопросов.

Цель визуального теста Тьюринга - оценить понимание изображения компьютерной системой, и важной частью понимания изображения является сюжетная линия изображения. Когда люди смотрят на изображение, они не думают, что в ‘Икс’Пикселей слева и‘у’Пикселей сверху, но вместо этого они смотрят на это как на историю, например они могут подумать, что на дороге припаркована машина, что человек выходит из машины и направляется к зданию. Самыми важными элементами сюжетной линии являются объекты, поэтому для извлечения любой сюжетной линии из изображения первая и самая важная задача - создать экземпляры объектов в нем, и именно этим занимается механизм запросов.

Механизм запросов

Механизм запросов является ядром визуального теста Тьюринга и состоит из двух основных частей: словаря и вопросов.

Словарный запас

Словарь - это набор слов, которые представляют элементы изображения. Этот словарный запас, когда он используется с соответствующей грамматикой, приводит к ряду вопросов. Грамматика определяется в следующем разделе таким образом, что это приводит к пространству двоичных вопросов.

Словарь ${ Displaystyle { mathcal {V}}}$ состоят из трех компонентов:

Типы объектов ${ displaystyle { mathcal {T}}}$
Типозависимые атрибуты объектов ${ Displaystyle { mathcal {A}} (т)}$
Типозависимые отношения между двумя объектами ${ Displaystyle { mathcal {R}} (т, т ')}$

Для изображений городских уличных сцен типы объектов включают люди, средство передвижения и здания. Атрибуты относятся к свойствам этих объектов, например женщина, ребенок, в шляпе или что-то несущий, для людей и движется, припаркован, остановился, одна шина видна или две шины видны для автомобилей. Отношения между каждой парой классов объектов могут быть «упорядоченными» или «неупорядоченными». Неупорядоченные отношения могут включать говорящий, ходьба вместе и упорядоченные отношения включают выше, ближе к камере, окклюзия, окклюзия и Т. Д.

Примеры регионов, используемых в качестве контекста в визуальном тесте Тьюринга. Слева показаны области размером 1/8 размера изображения, а справа показаны области с размером 1/4 изображения.

Кроме того, весь этот словарь используется в контексте прямоугольных областей изображения w in W, которые позволяют локализовать объекты на изображении. Возможно чрезвычайно большое количество таких областей, и это усложняет проблему, поэтому для этого теста используются только области определенного масштаба, которые включают 1/16 размера изображения, 1/4 размера изображения, 1/2 размера изображения или больше.

Вопросов

Пространство вопросов состоит из вопросов четырех типов:

Вопросы о существовании: цель вопросов о существовании - найти на изображении новые объекты, которые ранее не были однозначно идентифицированы.
Они имеют вид:

Q_{существовать} = 'Существует ли экземпляр объекта типа t с атрибутами A, частично видимыми в области w, который ранее не создавался?'

Вопросы об уникальности: вопрос об уникальности пытается однозначно идентифицировать объект для его создания.

Q_{уникальный} = 'Существует ли уникальный экземпляр объекта типа t с атрибутами A, частично видимыми в области w, который ранее не создавался?'

Вопросы уникальности вместе с вопросами существования образуют вопросы создания экземпляра. Как упоминалось ранее, создание экземпляров объектов приводит к другим интересным вопросам и, в конечном итоге, к сюжетной линии. Вопросы об уникальности следуют за вопросами о существовании, и положительный ответ на них приводит к созданию экземпляра объекта.

Вопросы об атрибутах: вопрос об атрибутах пытается узнать больше об объекте после того, как он был создан. Такие вопросы могут запрашивать об одном атрибуте, соединении двух атрибутов или разъединении двух атрибутов.

Q_att(о_т) = {'Возражает ли_т есть атрибут а? ' , 'Возражает против_т иметь атрибут₁ или приписать₂?' , 'Возражает против_т иметь атрибут₁ и приписать₂?'}

Вопросы о взаимосвязях: после создания нескольких объектов вопрос о взаимосвязи исследует взаимосвязь между парами объектов.

Q_rel(о_т, о_{т '}) = 'Есть ли объект o_т иметь отношения r с объектом o_{т '}?'

Детали реализации

Как упоминалось ранее, ядром визуального теста Тьюринга является генератор запросов, который генерирует последовательность двоичных вопросов, так что ответ на любой вопрос k непредсказуемо, учитывая правильные ответы на предыдущие k - 1 вопрос. Это рекурсивный процесс, поскольку с учетом истории вопросов и правильных ответов на них генератор запросов либо останавливается, потому что больше нет непредсказуемых вопросов, либо случайным образом выбирает непредсказуемый вопрос и добавляет его в историю.

Заданное ранее пространство вопросов неявно накладывает ограничение на поток вопросов. Чтобы сделать его более ясным, это означает, что вопросы атрибутов и отношений не могут предшествовать вопросам создания экземпляров. Только после того, как объекты созданы, их можно будет запросить об их атрибутах и отношениях с другими ранее созданными объектами. Таким образом, учитывая историю, мы можем ограничить возможные вопросы, которые могут следовать за ней, и этот набор вопросов называется вопросами-кандидатами. ${ displaystyle Q _ { text {can}}}$ .

Задача состоит в том, чтобы выбрать непредсказуемый вопрос из этих возможных вопросов, чтобы он соответствовал потоку вопросов, который мы опишем в следующем разделе. Для этого найдите среди вопросов кандидатов непредсказуемость каждого вопроса.

Позволять ${ displaystyle H}$ - двоичная случайная величина, где ${ Displaystyle H (I) = 1}$ , если история ${ displaystyle H}$ действительно для изображения ${ displaystyle I}$ и ${ displaystyle 0}$ иначе. Позволять ${ displaystyle q in Q}$ может быть предложенным вопросом, и ${ displaystyle X_ {q}}$ быть ответом на вопрос ${ displaystyle q}$ .

Затем найдите условную вероятность получения ответа Икс_q на вопрос q учитывая историю ЧАС.

{ Displaystyle P_ {H} (X_ {q} = x) = { frac {P {I: H (I) = 1, X_ {q} (I) = x }} {P {I: H (I) = 1 }}}}

С учетом этой вероятности мера непредсказуемости определяется следующим образом:

{ Displaystyle rho _ {H} (q) = | P_ {H} (X_ {Q} = 1) -0,5 |}

Чем ближе ${ displaystyle rho _ {H} (q)}$ равно 0, тем более непредсказуемым является вопрос. ${ displaystyle rho _ {H} (q)}$ для каждого вопроса рассчитывается. Вопросы, по которым ${ displaystyle rho _ {H} (q) < epsilon}$ , представляют собой набор почти непредсказуемых вопросов, из которых случайным образом выбирается следующий вопрос.

Поток вопросов

Как обсуждалось в предыдущем разделе, существует неявное упорядочение в пространстве вопросов, согласно которому вопросы атрибутов идут после вопросов создания экземпляров, а вопросы взаимосвязи идут после вопросов атрибутов, после того как были созданы экземпляры нескольких объектов.

Следовательно, механизм запросов следует структуре цикла, где он сначала создает экземпляр объекта с вопросами о существовании и уникальности, затем запрашивает его атрибуты, а затем задаются вопросы о взаимосвязи для этого объекта со всеми ранее созданными объектами.

Поиск с упреждением

Понятно, что интересные вопросы об атрибутах и отношениях возникают после вопросов создания экземпляров, и поэтому генератор запросов стремится создать экземпляры как можно большего числа объектов.

Вопросы создания экземпляров состоят как из вопросов существования, так и вопросов уникальности, но именно вопросы уникальности фактически создают экземпляр объекта, если на них получают положительный ответ. Поэтому, если генератор запросов должен случайным образом выбрать вопрос для создания экземпляра, он предпочитает выбирать непредсказуемый вопрос уникальности, если он присутствует. Если такого вопроса нет, генератор запросов выбирает вопрос о существовании таким образом, чтобы он с высокой вероятностью в будущем привел к вопросу об уникальности. Таким образом, в этом случае генератор запросов выполняет предварительный поиск.

Сюжетная линия

Неотъемлемая часть конечной цели создания систем, которые могут понимать изображения так, как это делают люди, - это сюжетная линия. Люди пытаются выяснить сюжетную линию в изображении, которое они видят. Генератор запросов достигает этого за счет непрерывности последовательностей вопросов.

Это означает, что после создания экземпляра объекта он пытается изучить его более подробно. Помимо поиска его атрибутов и отношения к другим объектам, важным шагом является локализация. Таким образом, на следующем этапе генератор запросов пытается локализовать объект в той области, в которой он был впервые идентифицирован, поэтому он ограничивает набор вопросов создания экземпляров регионами в исходной области.

Предпочтение простоты

Предпочтение простоты гласит, что генератор запросов должен выбирать более простые вопросы вместо более сложных. Более простые вопросы - это те, в которых меньше атрибутов. Таким образом, вопросы упорядочиваются по количеству атрибутов, а генератор запросов предпочитает более простые.

Оценка предсказуемости

Чтобы выбрать следующий вопрос в последовательности, VTT должен оценить предсказуемость каждого предложенного вопроса. Это делается с помощью аннотированного обучающего набора изображений. Каждое изображение помечено ограничивающей рамкой вокруг объектов и помечено атрибутами, а пары объектов помечены отношениями.
Рассмотрим каждый тип вопроса отдельно:

Вопросы по созданию экземпляров: Оценка условной вероятности для вопросов создания экземпляра может быть представлена как:
${ displaystyle quad { widehat {P}} (X_ {q} = 1) = { frac { # {I in T, H (I) = 1, X_ {q} (I) = 1 }} { # {I in T, H (I) = 1 }}}}$ ${ displaystyle quad { widehat {P}} (X_ {q} = 1) = { frac { # {I in T, H (I) = 1, X_ {q} (I) = 1 }} { # {I in T, H (I) = 1 }}}}$
Вопрос рассматривается только в том случае, если знаменатель составляет не менее 80 изображений. Состояние ${ Displaystyle H (I) = 1}$ $H (I) = 1$ является очень строгим и может быть неверным для большого количества изображений, поскольку каждый вопрос в истории исключает примерно половину кандидатов (в данном случае изображения). В результате история удаляется, а вопросы, которые не могут изменить условную вероятность, удаляются. Наличие более короткой истории позволяет нам рассматривать большее количество изображений для оценки вероятности.
Удаление истории происходит в два этапа:
- На первом этапе все вопросы атрибутов и отношений удаляются при условии, что наличие и создание экземпляров объектов зависит только от других объектов, а не от их атрибутов или отношений. Кроме того, все вопросы о существовании, относящиеся к регионам, не пересекающимся с регионом, упомянутым в предложенном вопросе, опускаются с предположением, что вероятность присутствия объекта в месте ${ displaystyle w}$ не меняется при наличии или отсутствии объектов в других местах, кроме ${ displaystyle w}$ . И, наконец, все вопросы об уникальности с отрицательным ответом, относящиеся к регионам, отделенным от региона, упомянутого в предложенном вопросе, отбрасываются с предположением, что вопросы об уникальности с положительным ответом, если они отброшены, могут изменить ответ будущих вопросов создания экземпляра. История вопросов, полученных после этого первого этапа обрезки, может быть описана как ${ displaystyle H_ {q} '}$ .
- На втором этапе выполняется обрезка изображения за изображением. Позволять ${ displaystyle q_ {i}}$ быть вопросом уникальности в ${ displaystyle H}$ который не был обрезан и хранится в ${ displaystyle H_ {q} '}$ . Если этот вопрос относится к области, которая не пересекается с областью, на которую ссылается предложенный вопрос, то ожидаемым ответом на этот вопрос будет ${ displaystyle 1}$ , из-за ограничений на первом этапе. Но если фактический ответ на этот вопрос для обучающего образа будет ${ displaystyle 0}$ , то этот обучающий образ не учитывается при оценке вероятности, и вопрос ${ displaystyle q_ {i}}$ тоже выпадает. Окончательная история вопросов после этого ${ Displaystyle { тильда {H}} (д, я)}$ , а вероятность определяется как:
  ${ displaystyle quad { widehat {P}} (X_ {q} = 1) = { frac { # {I in T, { tilde {H}} (q, I) = 1, X_ {q} (I) = 1 }} { # {I in T, { tilde {H}} (q, I) = 1 }}}}$
Вопросы по атрибутам: Оценка вероятности для вопросов атрибутов зависит от количества помеченных объектов, а не изображений, в отличие от вопросов создания экземпляров.
Рассмотрим вопрос об атрибутах в форме: ‘Не возражает_т есть атрибут a? ’, куда ${ displaystyle o_ {t}}$ это объект типа ${ displaystyle t}$ и ${ displaystyle a in A_ {t}}$ . Позволять ${ displaystyle A}$ быть набором атрибутов, уже известных как принадлежащие ${ displaystyle o_ {t}}$ из-за истории. Позволять ${ Displaystyle { mathcal {O}} _ { mathbb {T}}}$ быть набором всех аннотированных объектов (основная истина) в обучающем наборе, и для каждого ${ Displaystyle о ин { mathcal {O}} _ { mathbb {T}}}$ , позволять ${ Displaystyle { mathcal {T}} _ { mathbb {T}} (о)}$ быть типом объекта и ${ Displaystyle { mathcal {A}} _ { mathbb {T}} (о)}$ быть набором атрибутов, принадлежащих ${ displaystyle o}$ . Тогда оценка определяется по формуле:
${ displaystyle quad P (X_ {q} = 1) = { frac { # {o in { mathcal {O}} _ { mathbb {T}}: { mathcal {T}} _ { mathbb {T}} (o) = t, A cup {a } substeq { mathcal {A}} _ { mathbb {T}} (o) }} { # {o in { mathcal {O}} _ { mathbb {T}}: { mathcal {T}} _ { mathbb {T}} (o) = t, A substeq { mathcal {A}} _ { mathbb {T}} (о) }}}}$
Это в основном отношение количества раз, когда объект ${ displaystyle o}$ типа ${ displaystyle t}$ с атрибутами ${ Displaystyle А чашка {а }}$ встречается в обучающих данных, сколько раз объект ${ displaystyle o}$ типа ${ displaystyle t}$ с атрибутами ${ displaystyle A}$ происходит в обучающих данных. Большое количество атрибутов в ${ displaystyle A}$ приводит к проблеме разреженности, подобной вопросам создания экземпляров. Чтобы справиться с этим, мы разбиваем атрибуты на подмножества, которые примерно независимы, при условии принадлежности к объекту. ${ displaystyle o_ {t}}$ . Например, за ${ displaystyle t = {}}$ человек, атрибуты вроде переходить улицу и стоя на месте не являются независимыми, но оба в значительной степени независимы от пол человека, является ли человек ребенок или же взрослый, и являются ли они несущий что-то или же нет. Эти условные зависимости уменьшают размер набора ${ displaystyle A}$ , и тем самым преодолеть проблему разреженности.
Вопросы об отношениях: Подход к вопросам отношений такой же, как и к вопросам атрибутов, где вместо количества объектов рассматривается количество пар объектов, а для предположения независимости - отношения, которые не зависят от атрибутов связанных объектов и отношений. которые не зависят друг от друга.

Пример

Подробные примеры последовательностей можно найти здесь.^[3]

Набор данных

Изображения, рассматриваемые для Geman и другие.^[1] работы - это набор данных "Городские уличные сцены",^[1] в котором есть сцены улиц из разных городов мира. Вот почему типы объектов ограничены людьми и транспортными средствами для этого эксперимента.

Изображения сцен городской улицы из тренировочных данных. Данные для обучения представляют собой набор таких изображений со сценами из разных городов мира.

Еще один набор данных, представленный Институт информатики Макса Планка известен как DAQUAR^[4]^[5] набор данных, который содержит реальные изображения сцен в помещении. Но они^[4] предложить другую версию визуального теста Тьюринга, который использует целостный подход и ожидает, что участвующая система будет демонстрировать человеческий здравый смысл.

Примеры аннотаций тренировочного изображения, предоставленные рабочими

Вывод

Это совсем недавняя работа, опубликованная 9 марта 2015 года в журнале. Труды из Национальная Академия Наук исследователями из Брауновский университет и Университет Джона Хопкинса. Он оценивает, как системы компьютерного зрения понимают изображения по сравнению с людьми. В настоящее время тест написан, и дознаватель представляет собой машину, потому что устная оценка человека-дознавателя дает людям неоправданное преимущество в виде субъективности, а также требует ответов в реальном времени.

Ожидается, что визуальный тест Тьюринга даст новое направление исследованиям компьютерного зрения. Такие компании как Google и Facebook инвестируют миллионы долларов в исследования компьютерного зрения и пытаются создать системы, очень похожие на зрительную систему человека. Недавно Facebook объявила о своей новой платформе M, которая рассматривает изображение и предоставляет его описание, чтобы помочь слабовидящим.^[6] Такие системы могут хорошо работать на VTT.