Вертикальный поиск - Vertical search

А вертикальный поиск двигатель отличается от общего поисковая система, поскольку он ориентирован на определенный сегмент онлайн-контента. Их также называют специализированными или тематическими поисковыми системами. Вертикальная область контента может быть основана на актуальности, типе медиа или жанре контента. Общие вертикали включают покупки, автомобильную промышленность, юридическую информацию, медицинскую информацию, научную литературу, поиск работы и путешествия. Примеры вертикальных поисковых систем включают Библиотека Конгресса, Mocavo, Нуроа, Трулия и Yelp.

В отличие от обычных поисковых систем, которые пытаются индекс большие порции Всемирная паутина используя поисковый робот, вертикальные поисковые системы обычно используют сфокусированный сканер который пытается проиндексировать только соответствующие веб-страницы по заранее определенной теме или набору тем. Некоторые сайты вертикального поиска сосредоточены на отдельных вертикалях, в то время как другие сайты включают несколько вертикальных поисков в рамках одной поисковой системы.

Преимущества

Вертикальный поиск предлагает несколько потенциальных преимуществ по сравнению с обычными поисковыми системами:

  • Большая точность из-за ограниченного объема,
  • Используйте знания предметной области, включая таксономии и онтологии,
  • Поддержка конкретных уникальных пользовательских задач.

Вертикальный поиск можно рассматривать как аналог поиск на предприятии где сфера деятельности - предприятие, такое как компания, правительство или другая организация. В 2013 году сайты сравнения потребительских цен со встроенными вертикальными поисковыми системами, такими как FindTheBest привлекли большие объемы венчурного финансирования, что указывает на тенденцию роста этих приложений технологии вертикального поиска.[1][2]

Поиск по домену

Вертикали, ориентированные на конкретную предметную область, сосредоточены на конкретной теме. Джон Баттель описывает это в своей книге Поиск (2005):

Решения для поиска по конкретным предметным областям сосредоточены на одной области знаний, создавая индивидуальные условия поиска, которые из-за ограниченного корпуса предметной области и четких взаимосвязей между концепциями обеспечивают чрезвычайно релевантные результаты для поисковиков.[3]

В настройках домена можно объединить tf-idf подход, реализованный через обратный индекс с семантический подходы семантических заголовков и семантические скелеты. Вместо наиболее часто используемых ключевых слов из части текста извлекается набор сущностей, которые сопоставляются с потенциальным вопросом. Это обеспечивает гораздо большую гибкость благодаря возможностям рассуждений в реальном времени при сопоставлении вопросов и ответов в форме семантических заголовков.[4]

Любая обычная поисковая система будет индексировать все страницы и выполнять поиск по принципу «в ширину» для сбора документов. Паутина в поисковых системах, ориентированных на конкретную предметную область, более эффективно выполняет поиск в небольшом подмножестве документов, сосредотачиваясь на определенном наборе. Было обнаружено, что спайдинг с использованием системы обучения с подкреплением в три раза более эффективен, чем поиск в ширину.[5]

Программа Memex DARPA

В начале 2014 г. Агентство перспективных оборонных исследовательских проектов (г.DARPA ) опубликовали на своем веб-сайте заявление, в котором излагаются предварительные подробности «программы Memex», которая направлена ​​на разработку новых поисковых технологий, преодолевающих некоторые ограничения текстового поиска.[6] DARPA хочет, чтобы технология Memex, разработанная в этом исследовании, была доступна для поисковых систем, которые могут искать информацию на Глубокая паутина - та часть Интернета, которая в основном недоступна коммерческим поисковым системам, таким как Google или же Yahoo. На веб-сайте DARPA говорится, что «цель состоит в том, чтобы изобрести более совершенные методы взаимодействия с информацией и обмена ею, чтобы пользователи могли быстро и тщательно организовывать и искать подмножества информации, соответствующие их индивидуальным интересам».[7] Как сообщалось в 2015 г. Проводной статья, технология поиска, разрабатываемая в программе Memex, призвана пролить свет на темная паутина и выявлять закономерности и взаимосвязи в онлайн-данных, чтобы помочь правоохранительным органам и другим лицам отслеживать незаконную деятельность ".[8] DARPA намеревается, что программа заменит централизованные процедуры, используемые коммерческими поисковыми системами, заявив, что «создание новой предметно-ориентированной парадигмы индексации и поиска предоставит механизмы для улучшенного обнаружения контента, извлечения информации, поиска информации, сотрудничества с пользователями и расширения текущих возможностей поиска в глубокой сети, темной сети и нетрадиционном (например, мультимедийном) контенте ".[9] В своем описании программы DARPA объясняет название программы как дань уважения оригинальному изобретению Memex Буша, которое послужило источником вдохновения.[6]

В апреле 2015 года было объявлено, что исходный код некоторых частей Memex будет открыт.[10] Модули были доступны для скачивания.[9]


Рекомендации

  1. ^ Рао, Лина. «Платформа для сравнения цен на основе данных FindTheBest привлекла $ 11 млн от New World, Kleiner Perkins и других». TechCrunch. Получено 27 мая 2013.
  2. ^ ХО, ВИКТОРИЯ. "Азиатский сайт сравнения цен сэкономит 22 раунда" Средний шестизначный """. Получено 27 мая 2013.
  3. ^ Баттель, Джон (2005). Поиск: как Google и его конкуренты переписали правила ведения бизнеса и изменили нашу культуру. Нью-Йорк: Портфолио.
  4. ^ Галицкий, Борис (2006). «Создание репозитория фоновых знаний с использованием семантических скелетов». Весенний симпозиум AAAI: формализация и компиляция базовых знаний и их применения для представления знаний и ответов на вопросы. AAAI.
  5. ^ Маккаллум, Эндрю (1999). «Подход машинного обучения к созданию поисковых систем для конкретных предметных областей». IJCAI. 99: 662–667. CiteSeerX  10.1.1.88.3818.
  6. ^ а б «Memex стремится создать новую парадигму для доменного поиска» (Пресс-релиз). DARPA. 9 февраля 2014 г. Архивировано с оригинал 11 февраля 2015 г.. Получено 11 февраля, 2015.
  7. ^ "Memex (поиск по домену)". www.darpa.mil. Получено 2016-09-21.
  8. ^ Ким Зеттер (2 февраля 2015 г.). «Darpa разрабатывает поисковую систему для даркнета». Проводной.
  9. ^ а б "Memex (поиск по домену)". DARPA. Архивировано из оригинал 10 июня 2015 г.. Получено 20 апреля, 2015.
  10. ^ Forbes (17 апреля 2015 г.). "Осторожно, Google, DARPA только что открыла исходный код всей этой Swish" Dark Web "Search Tech". Получено 20 апреля, 2015.