Визуальное слово - Visual Word
Эта статья ведущий раздел не адекватно подвести итог ключевые моменты его содержания. Пожалуйста, подумайте о расширении интереса до предоставить доступный обзор обо всех важных аспектах статьи. (Май 2012 г.) |
Визуальные слова, как используется в поиск изображений системы,[1] относятся к небольшим частям изображения, которые несут какую-либо информацию, относящуюся к функциям (например, цвет, форма или текстура), или изменения, происходящие в пиксели такие как фильтрация, низкоуровневые дескрипторы функций (ПРОСЕЯТЬ, СЕРФ, ...так далее.).
История
Подходы поиск текста система (или поиск информации ИК-система [1]), которые разрабатывались более 40 лет, основаны на ключевые слова или Срок. Преимущество этих подходов в первую очередь связано с тем, что они эффективны и быстры. Текстовые поисковые системы могут быстро находить документы из сотен или миллионов (используя векторная космическая модель [2]). В то же время системы поиска текста пользуются огромным успехом, стандартные системы поиска изображений (например, простой поиск по цвету, форме и т. Д.) Имеют большое количество ограничений. Следовательно, исследователи пытаются использовать методы поиска текста, чтобы применить их к поиск изображений. Это может быть новое видение понимания изображений как текстовые документы, который является визуальным подходом слов.[3]
Аналогия текст-изображение
Предположим, что пиксели изображения, которые являются наименьшими частями в цифровые изображения (не делятся на более мелкие), подобны буквам алфавитного языка. Тогда набор пикселей в изображении (участки или массивы пикселей) - это слово. Затем каждое слово может быть повторно обработано в морфологической системе для извлечения термина, относящегося к этому слову. Тогда несколько слов могут иметь одно и то же значение, каждое из которых будет относиться к одному и тому же термину (как в любом языке). Несколько слов имеют одно и то же значение и относятся к одному и тому же термину (имеют одинаковую информацию). С этой точки зрения исследователи могут воспользоваться методами поиска текста, чтобы применить их к системе поиска изображений.
Визуальные определения
Если мы применим этот принцип к изображениям, мы должны найти, какие слова и термины будут в наших изображениях. Идея состоит в том, чтобы попытаться понять изображения как набор «визуальных слов».
Определение 1: Визуальное слово: [4] это небольшой фрагмент изображения (массив пикселей), который может нести любую интересную информацию в любом пространстве функций (изменение цвета, изменение текстуры и т. д.).
В общем, визуальные слова (VW) существуют в их пространстве признаков непрерывных значений, подразумевающих огромное количество слов и, следовательно, огромный язык. Поскольку системы поиска изображений должны использовать методы поиска текста, которые зависят от естественных языков, а у этих есть ограничение на количество терминов и слов, есть важные потребности в сокращении количества визуальных слов.
Для решения этой проблемы существует ряд решений, одно из них - разделить пространство признаков на диапазоны, каждый из которых имеет общие характеристики (которые можно рассматривать как одно и то же слово), тем не менее, это решение несет в себе множество проблем, таких как стратегия разделения, размер диапазона в пространстве признаков и т. д. Другое решение, предложенное исследователями, заключается в использовании механизма кластеризации для классификации и объединения слов, несущих общую информацию в конечном числе терминов.
Определение 2: Визуальный термин: это результат кластеризации в пространстве признаков (центры кластеров), более чем один фрагмент может дать ближайшую информацию в пространстве признаков, поэтому мы можем рассматривать его в одном и том же термине.
Поскольку термин в тексте (бесконечный глагол, существительные, статьи и т. Д.) Относится ко многим общим словам, имеющим одинаковые характеристики, визуальный термин (как результат его кластеризации) будет относиться ко всем общим словам, имеющим одинаковую информацию. в пространстве функций.
И если все изображения относятся к одному и тому же набору визуальных терминов, тогда все изображения могут говорить на одном языке (или визуальный язык ).
Определение 3: Визуальный язык: это набор визуальных слов и визуальных терминов (мы можем рассматривать только визуальные термины, это «Визуальный словарь», который будет справочным, и от него будет зависеть поисковая система для поиска изображений).
И все изображения будут представлены на этом визуальном языке в виде набора визуальных слов (VW) или как это можно назвать мешок визуальных слов
Определение 4: Набор визуальных слов: [4] это набор визуальных слов, которые вместе могут дать информацию о значении изображения вообще (или его частей).
Основываясь на этом виде представления изображений, мы можем затем использовать методы поиска текста для разработки системы поиска изображений. Однако, поскольку все системы поиска текста зависят от терминов, изображения запросов пользователя должны быть преобразованы в набор визуальных терминов в системе. Затем он сравнит эти визуальные термины со всеми визуальными терминами в базе данных.
Смотрите также
- Поиск изображений и видео на основе содержимого
- Распознавание лица
- Поиск текстовой информации
- Модель мешка слов в компьютерном зрении
Рекомендации
- ^ а б BAEZA-YATES, R.A .; РИБЕЙРО-НЕТО, Б.А. (1999), Современный информационный поиск, ACM Press Addison-Wesley
- ^ САЛТОН, Г. (1971), Система поиска SMART
- ^ ДЖЮРИ, Ф .; ТРИГГС, Б. (2005), Создание эффективных кодовых книг для визуального распознавания
- ^ а б Ян, июнь; Цзян, Юй-Ган; Ю-Ганг, Гауптманн; Нго, Чонг-Ва (2007), Оценка визуальных представлений слов при классификации сцены, Аугсбург, Бавария, Германия: ACM
внешняя ссылка
- Дань визуальным словам и тому, как они произвели революцию в компьютерном зрении
- Лекция Университета Карнеги-Меллона о мешке визуальных слов
- Модель мешка визуальных слов: распознавание категорий объектов
- Распознавание местоположения на основе Visual Word в 3D-моделях с использованием DistanceAugmented Weighting