Система поиска видео - Video search engine

А поисковая система видео это веб- поисковый движок который ползет Интернет для видео содержание. Некоторые поисковые системы видео анализируют контент, размещенный на внешнем сервере, в то время как другие позволяют загружать контент и размещать его на своих серверах. Некоторые движки также позволяют пользователям выполнять поиск по типу видеоформата и по длине клипа. Результаты поиска видео обычно сопровождаются миниатюра просмотр видео.

Поисковые системы по видео - это компьютерные программы, предназначенные для поиска видео, хранящихся на цифровых устройствах, либо через Интернет-серверы, либо в устройствах хранения на том же компьютере. Эти поиски можно выполнять с помощью аудиовизуальных индексация, который может извлекать информацию из аудиовизуального материала и записывать ее в виде метаданных, которые будут отслеживаться поисковыми системами.

Полезность

Основное использование этих поисковых систем - увеличение объема создания аудиовизуального контента и необходимость надлежащего управления им. Оцифровка аудиовизуальных архивов и создание Интернета привели к хранению большого количества видеофайлов в больших базах данных, восстановление которых может быть очень затруднено из-за огромных объемов данных и наличия семантического разрыва.

Критерий поиска

Критерий поиска, используемый каждой поисковой системой, зависит от ее характера и цели поиска.

Метаданные

Метаданные - это информация о фактах. Это может быть информация об авторе видео, дате создания, продолжительности и всей информации, которую можно извлечь и включить в те же файлы. Интернет часто используется на языке под названием XML для кодирования метаданных, который очень хорошо работает через Интернет и читается людьми. Таким образом, с помощью этой информации, содержащейся в этих файлах, проще всего найти интересующие нас данные.

В видеороликах есть два типа метаданных, которые мы можем интегрировать в сам видеокод и внешние метаданные со страницы, на которой находится видео. В обоих случаях мы оптимизируем их, чтобы сделать их идеальными при индексации.

Внутренние метаданные

Все видеоформаты содержат собственные метаданные. Возможны название, описание, качество кодирования или транскрипция контента. Для просмотра этих данных существуют такие программы, как FLV MetaData Injector, Sorenson Squeeze или Castfire. У каждого есть свои утилиты и особые характеристики.

Преобразование из одного формата в другой может привести к потере большей части этих данных, поэтому проверьте правильность информации о новом формате. Поэтому рекомендуется иметь видео в нескольких форматах, чтобы все поисковые роботы могли его найти и проиндексировать.

Внешние метаданные

В большинстве случаев должны применяться те же механизмы, что и при позиционировании изображения или текстового контента.

Название и описание

Они являются наиболее важными факторами при размещении видео, поскольку содержат большую часть необходимой информации. Заголовки должны быть четко описательными и удалять все бесполезные слова или фразы.

Имя файла

Оно должно быть описательным, включая ключевые слова, описывающие видео, без необходимости видеть их название или описание. В идеале разделяйте слова тире «-».

Теги

На странице, где находится видео, должен быть список ключевых слов, связанных с микроформатом rel-tag. Эти слова будут использоваться поисковыми системами в качестве основы для систематизации информации.

Транскрипция и субтитры

Хотя это и не является полностью стандартным, существует два формата, в которых информация хранится в заданном временном компоненте: один для субтитров, а другой - для транскриптов, которые также можно использовать для субтитров. Форматы - SRT или SUB для субтитров и TTXT для стенограмм.

Распознавание речи

Распознавание речи состоит из расшифровки речи звуковой дорожки видеоролика, создания текстового файла. Таким образом и с помощью экстрактора фраз можно легко найти интересующий видеоконтент. Некоторые поисковые системы, помимо использования распознавания речи для поиска видео, также используют его для поиска определенной точки мультимедийного файла, в которой находится определенное слово или фраза, и переходят непосредственно к этой точке. Гауди (Google Audio Indexing), проект, разработанный Google Labs, использует технологию распознавания голоса для определения точного момента произнесения одного или нескольких слов в звуке, позволяя пользователю перейти непосредственно к точному моменту произнесения этих слов. Если поисковый запрос совпадает с некоторыми видео с YouTube, позиции обозначаются желтыми маркерами, и необходимо навести курсор мыши, чтобы прочитать расшифрованный текст.

Распознавание текста

Распознавание текста может быть очень полезным для распознавания персонажей видео через «хироны». Как и в случае с распознавателями речи, существуют поисковые системы, которые позволяют (посредством распознавания символов) воспроизводить видео с определенной точки.

TalkMiner, пример поиска определенных фрагментов из видео с помощью распознавания текста, анализирует каждое видео один раз в секунду в поисках идентифицирующих признаков слайда, таких как его форма и статический характер, захватывает изображение слайда и использует Оптическое распознавание символов (OCR) для обнаружения слов на слайдах. Затем эти слова индексируются в поисковый движок TalkMiner, который в настоящее время предлагает пользователям более 20 000 видео из таких учреждений, как Стэнфордский университет, Калифорнийский университет в Беркли и TED.

Анализ кадров

Сквозь визуальные дескрипторы мы можем анализировать кадры видео и извлекать информацию, которая может быть оценена как метаданные. Описания создаются автоматически и могут описывать различные аспекты кадров, такие как цвет, текстура, форма, движение и ситуация.

Критерий ранжирования

Полезность поисковой системы зависит от актуальность возвращенного набора результатов. Хотя могут быть миллионы видеороликов, содержащих определенное слово или фразу, некоторые видеоролики могут быть более актуальными, популярными или иметь больший авторитет, чем другие. Такой порядок имеет прямое отношение к поисковой оптимизации.

Большинство поисковых систем используют разные методы для классификации результатов и предоставления лучшего видео в первых результатах. Однако большинство программ позволяет сортировать результаты по нескольким критериям.

Сортировать по релевантности

Этот критерий более неоднозначен и менее объективен, но иногда он наиболее близок к тому, что мы хотим; полностью зависит от поисковика и алгоритма, выбранного владельцем. Вот почему это всегда обсуждалось, а теперь, когда результаты поиска так прочно укоренились в нашем обществе, они обсуждались еще больше. Этот тип управления часто зависит от количества появлений искомого слова, количества его просмотров, количества страниц, ссылающихся на этот контент, и оценок пользователей, которые его видели.[1]

Сортировать по дате загрузки

Это критерий, полностью основанный на графике. Результаты можно отсортировать по старшинству в хранилище.

Сортировать по количеству просмотров

Это может дать нам представление о популярности каждого видео.

Сортировать по длине

Это длина видео, которая может дать представление о том, какое это видео.

Сортировать по рейтингу пользователей

В репозиториях распространена практика, позволяющая пользователям оценивать видео, чтобы качественный и релевантный контент занимал высокое место в списке результатов, становящихся заметными. Эта практика тесно связана с виртуальными сообществами.

Интерфейсы

Мы можем выделить два основных типа интерфейсов: некоторые из них представляют собой веб-страницы, размещенные на серверах, к которым осуществляется доступ через Интернет и поиск по сети, а другие - компьютерные программы, выполняющие поиск в частной сети.

Интернет

В интерфейсах Интернета мы можем найти репозитории, в которых размещены видеофайлы, которые включают поисковую систему, которая выполняет поиск только в собственных базах данных, и программы поиска видео без репозитория, которые ищут источники внешнего программного обеспечения.

Репозитории с поисковиком видео

Предоставляет размещение в видеофайлах, хранящихся на его серверах, и обычно имеет встроенную поисковую систему, которая выполняет поиск по видео, загруженным ее пользователями. Одними из первых веб-репозиториев или, по крайней мере, самыми известными являются порталы Vimeo, Dailymotion и YouTube.

Их поиск часто основан на чтении тегов метаданных, заголовков и описаний, которые пользователи присваивают своим видео. Критерий распределения и порядка результатов этих поисков обычно выбирается между датой загрузки файла, количеством просмотров или тем, что они называют релевантностью. Тем не менее, критерий сортировки в настоящее время является основным оружием этих сайтов, потому что позиционирование видео важно с точки зрения продвижения.

Репозитории поисковиков видео

Это веб-сайты, специализирующиеся на поиске видео в сети или определенных заранее выбранных репозиториях. Они работают с помощью веб-пауков, которые проверяют сеть в автоматическом режиме для создания копий посещенных веб-сайтов, которые затем индексируются поисковыми системами, чтобы обеспечить более быстрый поиск.

Частная сеть

Схема работы

Иногда поисковая система выполняет поиск только в аудиовизуальных файлах, хранящихся на компьютере или, как это происходит в телевизорах, на частном сервере, к которому пользователи получают доступ через локальную сеть. Эти средства поиска обычно представляют собой программное обеспечение или многофункциональные Интернет-приложения с очень специфическими параметрами поиска для максимальной скорости и эффективности при представлении результатов. Обычно они используются для больших баз данных и поэтому ориентированы на удовлетворение потребностей телевизионных компаний. Примером этого типа программного обеспечения может быть Digition Suite, который, помимо того, что является эталоном для такого рода интерфейсов, очень близок нам в отношении системы хранения и поиска файлов из Корпорасьон Каталана де Митханс Аудиовизуальные средства.[2]

Этот конкретный пакет и, возможно, его самая сильная сторона, заключается в том, что он объединяет весь процесс создания, индексации, хранения, поиска, редактирования и восстановления. После того, как у нас есть оцифрованный аудиовизуальный контент, он индексируется с помощью различных методов разного уровня в зависимости от важности контента и хранится. Пользователь, когда он хочет получить конкретный файл, должен заполнить поля поиска, такие как название программы, дата выпуска, действующие персонажи или имя производителя, и робот начинает поиск. Как только появятся результаты и они будут упорядочены в соответствии с предпочтениями, пользователь может воспроизводить видео низкого качества, чтобы работать как можно быстрее. Когда он находит нужный контент, он загружается с хорошим разрешением, редактируется и воспроизводится.[3]

Дизайн и алгоритмы

Поиск видео медленно развивался благодаря нескольким основным форматам поиска, которые существуют сегодня и все используют ключевые слова. Ключевые слова для каждого поиска можно найти в названии медиа, любом тексте, прикрепленном к медиа, и веб-страницах, на которые есть ссылки, которые также определены авторами и пользователями размещенных на видео ресурсов.

Некоторые поиски видео выполняются с использованием поиска, осуществляемого человеком, другие создают технологические системы, которые работают автоматически, чтобы обнаруживать, что находится в видео, и соответствовать потребностям искателей. Многие усилия по улучшению поиска видео, включая поиск с помощью человека, а также алгоритм написания, который распознает, что находится внутри видео, означали полную переработку усилий по поиску.

Общепризнано, что преобразование речи в текст возможно, хотя недавно Томас Уайлд, новый генеральный директор Everyzing, признал, что Everyzing работает 70% времени, когда есть музыка, окружающий шум или говорят более одного человека. Если доступен стиль выпуска новостей (один человек говорит четко, без постороннего шума), это может возрасти до 93%. (С Саммита веб-видео, Сан-Хосе, Калифорния, 27 июня 2007 г.).

Около 40 фонемы существуют на каждом языке, около 400 на всех разговорных языках. Вместо того, чтобы применять алгоритм текстового поиска после завершения преобразования речи в текст, некоторые системы используют алгоритм фонетического поиска для поиска результатов в пределах произнесенного слова. Другие работают, буквально слушая весь подкаст и создавая транскрипцию текста, используя сложный процесс преобразования речи в текст. После создания текстового файла в нем можно искать любое количество поисковых слов и фраз.

Общеизвестно, что визуальный поиск в видео не работает должным образом и что ни одна компания не использует его публично. Исследователи из Калифорнийского университета в Сан-Диего и Университета Карнеги-Меллона работали над проблемой визуального поиска более 15 лет и признались на конференции «Будущее поиска» в Калифорнийском университете в Беркли весной 2007 года, что до того момента, как эта задача станет жизнеспособной даже в простых поиск.

Поисковые системы видео

Агностический поиск

Поиск, на который не влияет хостинг видео, где результаты не зависят от того, где находится видео:

  • Blinkx был запущен в 2004 году и использует распознавание речи и визуальный анализ для обработки видео с пауками, а не полагается только на метаданные. blinkx утверждает, что у него самый большой архив видео в сети, и его коллекция составляет около 26 000 000 часов контента.
  • CastTV - это система поиска видео по всему Интернету, которая была основана в 2006 году и финансируется Дрейпер Фишер Юрветсон, Рон Конвей, и Марк Андриссен.
  • Munax выпустила свою первую версию поисковой системы по всему контенту в 2005 году, которая поддерживает поиск видео как по стране, так и по всему миру.
  • Picsearch Лицензия на поиск видео предоставляется для поисковых порталов с 2006 года. Picsearch - поставщик поисковых технологий, обеспечивающий поиск изображений, видео и аудио для более чем 100 основных поисковых систем по всему миру.

Неагностический поиск

Результаты поиска изменены или подозрительны из-за того, что большие размещенные видео получают приоритет в результатах поиска:

  • AOL Видео предлагает систему поиска видео, с помощью которой можно найти видео, размещенное в популярных видеоресурсах в Интернете. В декабре 2005 г. AOL приобрела Truveo Поиск видео.
  • Поиск видео Bing - это поисковая система, основанная на Bing а также используется Yahoo! Поиск видео.
  • Google Видео это система поиска видео от Google.
  • Tencent Видео предлагает поиск видео из Tencent.

Смотрите также

Рекомендации

внешняя ссылка

Процесс поисковых систем Как это работает (по-английски)