Двигатель метапоиска - Metasearch engine

Архитектура метапоисковой машины

А метапоисковая машина (или же поисковый агрегатор ) является онлайн Поиск информации инструмент, использующий данные поисковая система для получения собственных результатов.[1][2] Системы метапоиска принимают данные от пользователя и немедленно запрашивают результаты у поисковых систем. Достаточный данные собирается, ранжируется и представляется пользователям.

Такие проблемы, как рассылка спама уменьшает тщательность и точность результатов.[3] Процесс слияния направлен на улучшение разработки механизма метапоиска.[4]

Примеры метапоисковых систем включают: Skyscanner и Kayak.com, которые объединяют результаты поиска онлайн-туристических агентств и веб-сайтов провайдеров и Возбудить, который объединяет результаты поисковых систем Интернета.

История

Первым, кто реализовал идею метапоиска, был Даниэль Дрейлингер из Государственный университет Колорадо . Он разработал SearchSavvy, который позволяет пользователям искать до 20 различных поисковых систем и каталогов одновременно. Хотя поисковая машина была быстрой, она ограничивалась простым поиском и поэтому не была надежной. Вашингтонский университет студент Эрик Сельберг выпустил более «обновленную» версию под названием MetaCrawler. Эта поисковая система улучшила точность SearchSavvy, добавив свой собственный синтаксис поиска за кулисами и сопоставив синтаксис с синтаксисом поисковых систем, которые она исследовала. Metacrawler сократил количество запрашиваемых поисковых систем до 6, но, хотя он давал более точные результаты, он все еще не считался таким же точным, как поиск запроса в отдельной системе.[5]

20 мая 1996 г. HotBot, затем принадлежит Проводной, была поисковой системой с результатами поиска из Инктоми и базы данных Direct Hit. Он был известен своими быстрыми результатами и поисковой системой с возможностью поиска в результатах поиска. После покупки Lycos в 1998 г. развитие поисковой системы замедлилось, и ее рыночная доля резко упала. Пройдя через несколько изменений, HotBot был переработан в упрощенный интерфейс поиска, а его функции были включены в редизайн веб-сайта Lycos.[6]

Механизм метапоиска под названием Anvish был разработан Бо Шу и Субхаш Как в 1999 году; результаты поиска были отсортированы с использованием мгновенно обученные нейронные сети.[7] Позже это было включено в другую метапоисковую систему под названием Solosearch.[8]

В августе 2000 года в Индии появилась первая мета-поисковая машина, когда был запущен HumHaiIndia.com.[9] Его разработал тогдашний 16-летний Сумит Ламба.[10] Позднее сайт был переименован в Tazaa.com.[11]

Ixquick - это поисковая система, известная своим заявлением о политике конфиденциальности. Разработанный и запущенный в 1998 году Дэвидом Бодником, он принадлежит Surfboard Holding BV. В июне 2006 года Ixquick начал удалять личные данные своих пользователей, следуя той же процедуре с Scroogle. Политика конфиденциальности Ixquick не включает запись IP-адресов пользователей, идентификационные файлы cookie, сбор личных данных и передачу личных данных третьим лицам.[12] Он также использует уникальную систему ранжирования, в которой результат оценивается по звездам. Чем больше звезд в результате, тем больше поисковых систем соглашаются с результатом.

В апреле 2005 г. Собачья куча, затем принадлежит и управляется InfoSpace, Inc., сотрудничали с исследователями из Питтсбургский университет и Государственный университет Пенсильвании для измерения перекрытия и различий в ранжировании ведущих поисковых систем, чтобы оценить преимущества использования метапоисковой машины для поиска в сети. Результаты показали, что из 10316 случайных пользовательских запросов из Google, Yahoo!, и Спросите Дживса, только 3,2% результатов поиска на первой странице были одинаковыми в этих поисковых системах по заданному запросу. Другое исследование, проведенное позднее в том же году, с использованием 12570 случайных пользовательских запросов из Google, Yahoo!, Поиск MSN, и Спросите Дживса обнаружили, что только 1,1% результатов поиска на первой странице были одинаковыми в этих поисковых системах по заданному запросу.[13]

Преимущества

Отправляя несколько запросов в несколько других поисковых систем, это увеличивает данные о покрытии темы и позволяет найти дополнительную информацию. Они используют индексы, созданные другими поисковыми системами, уникальными способами агрегируя и часто обрабатывая результаты. Система метапоиска имеет преимущество перед одной поисковой системой, потому что может быть извлечен с одинаковым количеством усилий.[2] Это также сокращает работу пользователей от необходимости индивидуально вводить запросы с разных систем для поиска ресурсов.[2]

Метапоиск также является полезным подходом, если цель поиска пользователя - получить обзор темы или получить быстрые ответы. Вместо того, чтобы проходить через несколько поисковых систем, таких как Yahoo! или Google и сравнивая результаты, метапоисковые системы могут быстро компилировать и объединять результаты. Они могут сделать это либо путем перечисления результатов от каждого запрашиваемого механизма без дополнительной постобработки (Dogpile), либо путем анализа результатов и их ранжирования по своим собственным правилам (IxQuick, Metacrawler и Vivismo).

Механизм метапоиска также может скрыть IP-адрес пользователя, выполняющего поиск, от запрашиваемых поисковых систем, тем самым обеспечивая конфиденциальность поиска. В связи с этим в 2018 году французское правительство постановило, что все государственные обыски должны проводиться с использованием Qwant, который считается механизмом метапоиска.[14]

Недостатки

Механизмы метапоиска не могут разбор формы запроса или возможность полностью перевести запрос синтаксис. Количество гиперссылки генерируемые механизмами метапоиска ограничены и поэтому не предоставляют пользователю полные результаты запроса.[15]

Большинство метапоисковых систем не предоставляют более десяти связанных файлов из одной поисковой системы и, как правило, не взаимодействуют с более крупными поисковыми системами для получения результатов. Оплата за клик ссылки имеют приоритет и обычно отображаются первыми.[16]

Метапоиск также создает иллюзию того, что запрашиваемая тема охватывает больше, особенно если пользователь ищет популярную или банальную информацию. Обычно запрашиваемые движки получают несколько одинаковых результатов. Кроме того, пользователям труднее выполнять поиск с использованием расширенного синтаксиса поиска, чтобы отправить запрос, поэтому результаты могут быть не такими точными, как при использовании пользователем интерфейса расширенного поиска в определенной системе. В результате многие метапоисковые системы используют простой поиск.[17]

Операция

Система метапоиска принимает один поисковый запрос от Пользователь. Затем этот поисковый запрос передается в другую поисковую систему база данных. Механизм метапоиска не создает базу данных веб-страница но порождает Система федеративных баз данных из интеграция данных из нескольких источников.[18][19][20]

Поскольку каждая поисковая система уникальна и имеет разные алгоритмы поэтому для генерации ранжированных данных также будут созданы дубликаты. Для удаления дубликатов механизм метапоиска обрабатывает эти данные и применяет свой собственный алгоритм. Отредактированный список создается в качестве вывода для пользователя.[нужна цитата ] Когда метапоисковая машина связывается с другими поисковыми системами, эти поисковые системы реагируют тремя способами:

  • Они будут сотрудничать и предоставлять полный доступ к интерфейс для механизма метапоиска, включая частный доступ к базе данных индекса, и будет информировать механизм метапоиска обо всех изменениях, внесенных в базу данных индекса;
  • Поисковые системы могут вести себя некооперативно, при этом они не будут отказывать или предоставлять доступ к интерфейсам;
  • Поисковая система может быть полностью враждебной и отказывать метапоисковой системе в полном доступе к их базе данных, а в серьезных обстоятельствах, ища законный методы.[21]

Архитектура рейтинга

Веб-страницы, получившие высокий рейтинг во многих поисковых системах, вероятно, будут соответствующий в предоставлении полезной информации.[21] Однако все поисковые системы имеют разные рейтинги для каждого веб-сайта, и в большинстве случаев эти оценки не совпадают. Это связано с тем, что поисковые системы отдают приоритет различным критериям и методам оценки, поэтому веб-сайт может иметь высокий рейтинг в одной поисковой системе и низкий рейтинг в другой. Это проблема, потому что движки метапоиска в значительной степени полагаются на согласованность этих данных для создания надежных учетных записей.[21]

Слияние

Модель слияния данных

Механизм метапоиска использует процесс Fusion для фильтрации данных для более эффективных результатов. Два основных используемых метода слияния: слияние коллекций и слияние данных.

  • Слияние коллекций: также известное как распределенный поиск, работает специально с поисковыми системами, которые индексируют несвязанные данные. Чтобы определить, насколько ценны эти источники, Collection Fusion просматривает контент, а затем ранжирует данные по вероятности предоставления релевантной информации по запросу. Из того, что генерируется, Collection Fusion может выбирать лучшие ресурсы из ранга. Эти выбранные ресурсы затем объединяются в список.[21]
  • Data Fusion: работает с информацией, полученной из поисковых систем, которые индексируют общие наборы данных. Процесс очень похож. Начальные ранги данных объединяются в единый список, после чего анализируются первоначальные ранги каждого из этих документов. Данные с высокими баллами указывают на высокий уровень релевантности конкретному запросу и поэтому выбираются. Чтобы составить список, оценки должны быть нормализованы с использованием таких алгоритмов, как CombSum. Это связано с тем, что поисковые системы применяют разные алгоритмы политики, в результате чего получаемая оценка оказывается несопоставимой.[22][23]

Спамдексинг

Спамдексинг это умышленное манипулирование индексами поисковых систем. Он использует ряд методов для управления релевантностью или известностью ресурсов, проиндексированных таким образом, который не соответствует целям системы индексирования. Распознавание спама может быть очень неприятным для пользователей и проблематичным для поисковых систем, поскольку возвращаемое содержимое результатов поиска имеет низкую точность.[нужна цитата ] В конечном итоге это приведет к тому, что поисковая система станет ненадежной и ненадежной для пользователя. Для борьбы со спамодексингом алгоритмы поисковых роботов усложняются и меняются почти каждый день для устранения проблемы.[24]

Это серьезная проблема для метапоисковых систем, потому что она вмешивается в Поисковый робот критерии индексации, от которых в значительной степени зависят списки ранжирования формата. Спамдексинг манипулирует естественным рейтинг системы поисковой системы, и помещает веб-сайты в рейтинге выше, чем они могли бы быть размещены естественным образом.[25] Для этого используются три основных метода:

Контентный спам

Контентный спам - это методы, которые изменяют логическое представление поисковой системы о содержимом страницы. Методы включают:

  • Наполнение ключевыми словами - рассчитанные места размещения ключевых слов на странице для увеличения количества ключевых слов, разнообразия и плотности страницы.
  • Скрытый / невидимый текст - несвязанный текст, замаскированный путем придания ему того же цвета, что и фон, с использованием крошечного размера шрифта или скрытия его в коде HTML.
  • Наполнение метатегами - повторение ключевых слов в метатегах и / или использование ключевых слов, не связанных с содержанием сайта.
  • Дверные страницы - некачественные веб-страницы с небольшим содержанием, но соответствующими ключевыми словами или фразами.
  • Сайты-парсеры - программы, позволяющие веб-сайтам копировать контент с других веб-сайтов и создавать контент для веб-сайта.
  • Вращение статей - переписывание существующих статей вместо копирования контента с других сайтов.
  • Машинный перевод - использует машинный перевод для перезаписи контента на нескольких разных языках, что приводит к неразборчивому тексту.

Ссылочный спам

Спам со ссылками - это ссылки между страницами, представленные по причинам, не связанным с достоинствами. Методы включают:

  • Программное обеспечение для построения ссылок - автоматизация поисковая оптимизация (SEO) процесс
  • Link Farms - страницы, которые ссылаются друг на друга (также известные как общества взаимного восхищения)
  • Скрытые ссылки - размещение гиперссылок там, где посетители не видят или не видят их.
  • Атака Сибиллы - подделка нескольких идентификаторов со злым умыслом
  • Блоги со спамом - Блоги, созданные исключительно для коммерческого продвижения и передачи полномочий по ссылкам на целевые сайты.
  • Перехват страницы - создание копии популярного веб-сайта с аналогичным содержанием, но перенаправление пользователей на нерелевантные или даже вредоносные веб-сайты.
  • Покупка доменов с истекшим сроком действия - покупка доменов с истекшим сроком действия и замена страниц ссылками на несвязанные веб-сайты.
  • Заполнение файлов cookie - размещение партнерских файлов cookie отслеживания на компьютере посетителя веб-сайта без его ведома.
  • Форумный спам - веб-сайты, которые пользователи могут редактировать для вставки ссылок на спам-сайты.

Маскировка

Это метод SEO, при котором различные материалы и информация отправляются веб-сканеру и веб-браузер.[26] Он обычно используется в качестве метода определения спама, поскольку может обманом заставить поисковые системы либо посетить сайт, который существенно отличается от описания поисковой системы, либо дать определенному сайту более высокий рейтинг.

Смотрите также

Рекомендации

  1. ^ Бергер, Сэнди (2005). "Великий путеводитель по Интернету Сэнди Бергер". Que Publishing.ISBN  0-7897-3442-7
  2. ^ а б c «Архитектура механизма метапоиска, поддерживающего информационные потребности пользователей». 1999.
  3. ^ Лоуренс, Стивен Р .; Ли Джайлз, К. (10 октября 1997 г.). «Патент US6999959 - Мета-поисковая система» - через Google Книги.
  4. ^ Вурхиз, Эллен М.; Гупта, Нарендра; Джонсон-Лэрд, Бен (апрель 2000 г.). «Проблема слияния коллекций».
  5. ^ «Мета-поиск - История поисковых систем».
  6. ^ «Рейтинг в поисковых системах на HotBot: краткая история поисковой системы HotBot».
  7. ^ Шу, Бо; Как, Субхаш (1999). «Интеллектуальная метапоисковая машина на основе нейронной сети»: 1–11. CiteSeerX  10.1.1.84.6837. Цитировать журнал требует | журнал = (помощь)
  8. ^ Как, Субхаш (Ноябрь 1999 г.). «Улучшенный поиск в Интернете и прогнозирование с помощью мгновенно обученных нейронных сетей» (PDF). Интеллектуальные системы IEEE.
  9. ^ "Новенький в городе".
  10. ^ "Rediff Search: Подростки имеют.com возраста!".
  11. ^ "Tazaa.com - О Tazaa.com".
  12. ^ «О НАС - Наша история».
  13. ^ Спинк, Аманда; Янсен, Бернард Дж .; Катурия, Виниш; Кошман, Шерри (2006). «Частичное совпадение основных поисковых систем» (PDF). Изумруд.
  14. ^ ГУЖАР, КЛОТИЛЬДА (20 ноября 2018 г.). "Франция бросает Google, чтобы вернуть себе онлайн-независимость". Проводной.
  15. ^ «Кафедра информатики». Фрибургский университет.
  16. ^ «Интеллектуальная эксплуатация Интернета» (PDF). 2002.
  17. ^ ХЕННЕГАР, АНН. «Системы метапоиска расширяют ваш кругозор».
  18. ^ МЭНГ, ВЭЙИ (5 мая 2008 г.). "Метапоисковые машины" (PDF).
  19. ^ Сельберг, Эрик; Etzioni, Орен (1997). «Архитектура MetaCrawler для агрегирования ресурсов в Интернете». Эксперт IEEE. С. 11–14.
  20. ^ Manoj, M; Джейкоб, Элизабет (июль 2013 г.). «Дизайн и разработка программируемой метапоисковой системы» (PDF). Фонд компьютерных наук. С. 6–11.
  21. ^ а б c d Manoj, M .; Джейкоб, Элизабет (октябрь 2008 г.). «Поиск информации в Интернете с помощью метапоисковых систем: обзор» (PDF). Совет научных и промышленных исследований.
  22. ^ Ву, Шэнли; Крестани, Фабио; Би, Яксин (2006). Оценка методов нормализации баллов при слиянии данных. Информационно-поисковые технологии. Конспект лекций по информатике. 4182. С. 642–648. CiteSeerX  10.1.1.103.295. Дои:10.1007/11880592_57. ISBN  978-3-540-45780-0.
  23. ^ Manmatha, R .; Север, Х. (2014). «Формальный подход к нормализации оценок для метапоиска» (PDF). Архивировано из оригинал (PDF) на 2019-09-30. Получено 2014-10-27.
  24. ^ Наджорк, Марк (2014). «Обнаружение веб-спама». Microsoft.
  25. ^ Вандендрише, Геррит (февраль 2009 г.). "Несколько юридических комментариев о спамодексировании".
  26. ^ Ван, И-Мин; Ма, Мин; Ниу, юань; Чен, Хао (8 мая 2007 г.). «Связь веб-спамеров с рекламодателями» (PDF).