Сфокусированный сканер - Focused crawler

А сфокусированный сканер это поисковый робот который собирает веб-страницы, удовлетворяющие определенному свойству, путем тщательного определения приоритетов ползать граница и управление процессом исследования гиперссылок.[1] Некоторые предикаты могут быть основаны на простых, детерминированных и поверхностных свойствах. Например, задачей краулера может быть сканирование страниц только из домена .jp. Другие предикаты могут быть более мягкими или сравнительными, например, «сканировать страницы о бейсболе» или «сканировать страницы с большими PageRank ". Важное свойство страницы относится к темам, ведущим к« тематическим сканерам ». Например, тематический поисковый робот может быть развернут для сбора страниц о солнечной энергии, свином гриппе или даже более абстрактных концепциях, таких как полемика[2] при минимизации ресурсов, затрачиваемых на загрузку страниц по другим темам. Управление границами сканирования может быть не единственным устройством, используемым специализированными поисковыми роботами; они могут использовать Интернет-каталог, а Индекс веб-текста, обратные ссылки, или любой другой веб-артефакт.

Сфокусированный поисковый робот должен предсказать вероятность того, что непосещенная страница будет релевантной, до фактической загрузки страницы.[3] Возможный предиктор - это якорный текст ссылок; это был подход Пинкертона[4] в поисковом роботе, разработанном на заре Интернета. Тематическое сканирование впервые было введено Филиппо Менцер[5][6] Чакрабарти и др. придумал термин «сфокусированный поисковый робот» и использовал текстовый классификатор[7] для определения приоритета границы обхода. Эндрю МакКаллум и соавторы также использовали обучение с подкреплением[8][9] для фокусировки краулеров. Diligenti et al. проследил контекстный граф[10] ведение к релевантным страницам и их текстовому контенту для обучения классификаторов. Форма онлайн-обучения с подкреплением использовалась вместе с функциями, извлеченными из DOM-дерево и текст связанных страниц, чтобы постоянно тренировать[11] классификаторы, направляющие сканирование. В обзоре алгоритмов тематического сканирования Menczer et al.[12] показывают, что такие простые стратегии очень эффективны для коротких обходов, в то время как более сложные методы, такие как обучение с подкреплением а эволюционная адаптация может дать лучшую производительность при более длительных обходах. Было показано, что пространственная информация важна для классификации веб-документов.[13]

Другой тип целевых поисковых роботов - это семантически ориентированные поисковые роботы, которые используют онтологии предметной области для представления тематических карт и связи веб-страниц с соответствующими онтологическими концепциями для целей выбора и категоризации.[14] Кроме того, онтологии могут автоматически обновляться в процессе сканирования. Донг и др.[15] представил такой поисковый робот, основанный на обучении онтологии, использующий машину векторов поддержки для обновления содержимого онтологических концепций при сканировании веб-страниц.

Сканеры также сосредоточены на свойствах страницы, отличных от тем. Cho et al.[16] изучить различные политики приоритизации сканирования и их влияние на ссылочную популярность загруженных страниц. Наджорк и Вайнер[17] покажи это в ширину сканирование, начиная с популярных исходных страниц, приводит к сбору страниц с большим PageRank на ранних этапах сканирования. Об уточнениях, связанных с обнаружением устаревших (плохо обслуживаемых) страниц, сообщили Eiron et al.[18]Своего рода семантически ориентированный краулер, использующий идею обучение с подкреплением был представлен Meusel et al.[19] использование онлайн-алгоритмов классификации в сочетании со стратегией выбора на основе бандитов для эффективного сканирования страниц с такими языками разметки, как RDFa, Микроформаты, и Микроданные.

Производительность целевого поискового робота зависит от количества ссылок в конкретной теме, в которой выполняется поиск, а целенаправленное сканирование обычно основывается на общей сети. поисковый движок для обеспечения отправных точек. Дэвисон[20] представил исследования веб-ссылок и текста, которые объясняют, почему целенаправленное сканирование успешно по широким темам; аналогичные исследования были представлены Chakrabarti et al.[21] Выбор семян может быть важен для целенаправленных поисковых роботов и существенно повлиять на эффективность сканирования.[22] А белый список Стратегия заключается в том, чтобы начать сканирование фокуса со списка высококачественных семян URL и ограничить область сканирования домены этих URL-адресов. Эти высококачественные семена следует выбирать на основе списка URL кандидатов, которые накапливаются в течение достаточно длительного периода обычного сканирования сети. В белый список следует периодически обновлять после его создания.

Рекомендации

  1. ^ Сумен Чакрабарти, Целенаправленное сканирование в Интернете, в Энциклопедия систем баз данных.
  2. ^ Спорные темы
  3. ^ Повышение производительности специализированных веб-сканеров[1], Сотирис Батсакис, Еврипид Г. М. Петракис, Евангелос Милиос, 2012-04-09
  4. ^ Пинкертон, Б. (1994). Поиск того, что хотят люди: опыт работы с WebCrawler. В материалах Первой конференции World Wide Web, Женева, Швейцария.
  5. ^ Менцер, Ф. (1997). ARACHNID: агенты адаптивного поиска, выбирающие эвристические окрестности для обнаружения информации В архиве 2012-12-21 в Wayback Machine. В Д. Фишере, изд., Труды 14-й Международной конференции по машинному обучению (ICML97). Морган Кауфманн.
  6. ^ Менцер Ф. и Белью Р.К. (1998). Адаптивные информационные агенты в распределенных текстовых средах В архиве 2012-12-21 в Wayback Machine. В К. Сикара и М. Вулдридж (ред.) Труды 2-й Международной конференции по автономным агентам (агенты '98). ACM Press.
  7. ^ Целенаправленное сканирование: новый подход к обнаружению тематических веб-ресурсов, Сумен Чакрабарти, Мартин ван ден Берг и Байрон Дом, WWW 1999.
  8. ^ Подход машинного обучения к созданию поисковых систем для конкретной предметной области, Эндрю МакКаллум, Камаль Нигам, Джейсон Ренни и Кристи Сеймор, IJCAI 1999.
  9. ^ Использование обучения с подкреплением для эффективного поиска в сети, Джейсон Ренни и Эндрю МакКаллум, ICML 1999.
  10. ^ Дилигенти М., Кутзи Ф., Лоуренс С., Джайлз К. Л. и Гори М. (2000). Целенаправленное сканирование с использованием контекстных графов В архиве 2007-03-07 на Wayback Machine. В материалах 26-й Международной конференции по очень большим базам данных (VLDB), страницы 527-534, Каир, Египет.
  11. ^ Ускоренное целенаправленное сканирование благодаря обратной связи по релевантности в Интернете, Сумен Чакрабарти, Кунал Пунера и Маллела Субраманьям, WWW 2002.
  12. ^ Менцер Ф., Пант Г. и Сринивасан П. (2004). Актуальные веб-сканеры: оценка адаптивных алгоритмов. ACM Trans. по Интернет-технологиям 4 (4): 378–419.
  13. ^ Распознавание общих областей на веб-странице с помощью визуальной информации: возможное применение в классификации страниц, Милош Ковачевич, Микеланджело Дилидженти, Марко Гори, Велько Милутинович, Data Mining, 2002. ICDM 2003.
  14. ^ Донг, Х., Хуссейн, Ф.К., Чанг, Э .: Современное состояние семантических поисковых роботов. Вычислительная наука и ее приложения - ICCSA 2009. Springer-Verlag, Сеул, Корея (июль 2009 г.), стр. 910-924
  15. ^ Донг, Х., Хуссейн, Ф.К .: SOF: полууправляемый поисковый робот, ориентированный на изучение онтологий. Параллелизм и вычисления: практика и опыт. 25 (12) (август 2013), стр. 1623-1812
  16. ^ Чонху Чо, Гектор Гарсия-Молина, Лоуренс Пейдж: Эффективное сканирование с помощью упорядочивания URL. Компьютерные сети 30 (1-7): 161-172 (1998).
  17. ^ Марк Наджорк, Джанет Л. Винер: Сканирование в ширину обеспечивает высокое качество страниц. WWW 2001: 114-118
  18. ^ Надав Эйрон, Кевин С. МакКерли, Джон А. Томлин: Ранжирование веб-границ. WWW 2004: 309-318.
  19. ^ Меусель Р., Мика П., Бланко Р. (2014). Целенаправленное сканирование структурированных данных. Международная конференция ACM по управлению информацией и знаниями, страницы 1039-1048.
  20. ^ Брайан Д. Дэвисон: Актуальная местность в сети. СИГИР 2000: 272-279.
  21. ^ Сумен Чакрабарти, Мукул Джоши, Кунал Пунера, Дэвид М. Пеннок: Структура широких тем в сети. WWW 2002: 251-262.
  22. ^ Цзянь Ву, Прадип Тереговда, Хуан Пабло Фернандес Рамирес, Прасенджит Митра, Шуйи Чжэн, К. Ли Джайлс, Эволюция стратегии сканирования для системы поиска академических документов: белые и черные списки, В трудах 3-й ежегодной конференции ACM Web Science, страницы 340-343, Эванстон, Иллинойс, США, июнь 2012 г.