Сфокусированный сканер - Focused crawler

А сфокусированный сканер это поисковый робот который собирает веб-страницы, удовлетворяющие определенному свойству, путем тщательного определения приоритетов ползать граница и управление процессом исследования гиперссылок.^[1] Некоторые предикаты могут быть основаны на простых, детерминированных и поверхностных свойствах. Например, задачей краулера может быть сканирование страниц только из домена .jp. Другие предикаты могут быть более мягкими или сравнительными, например, «сканировать страницы о бейсболе» или «сканировать страницы с большими PageRank ". Важное свойство страницы относится к темам, ведущим к« тематическим сканерам ». Например, тематический поисковый робот может быть развернут для сбора страниц о солнечной энергии, свином гриппе или даже более абстрактных концепциях, таких как полемика^[2] при минимизации ресурсов, затрачиваемых на загрузку страниц по другим темам. Управление границами сканирования может быть не единственным устройством, используемым специализированными поисковыми роботами; они могут использовать Интернет-каталог, а Индекс веб-текста, обратные ссылки, или любой другой веб-артефакт.

Сфокусированный поисковый робот должен предсказать вероятность того, что непосещенная страница будет релевантной, до фактической загрузки страницы.^[3] Возможный предиктор - это якорный текст ссылок; это был подход Пинкертона^[4] в поисковом роботе, разработанном на заре Интернета. Тематическое сканирование впервые было введено Филиппо Менцер^[5]^[6] Чакрабарти и др. придумал термин «сфокусированный поисковый робот» и использовал текстовый классификатор^[7] для определения приоритета границы обхода. Эндрю МакКаллум и соавторы также использовали обучение с подкреплением^[8]^[9] для фокусировки краулеров. Diligenti et al. проследил контекстный граф^[10] ведение к релевантным страницам и их текстовому контенту для обучения классификаторов. Форма онлайн-обучения с подкреплением использовалась вместе с функциями, извлеченными из DOM-дерево и текст связанных страниц, чтобы постоянно тренировать^[11] классификаторы, направляющие сканирование. В обзоре алгоритмов тематического сканирования Menczer et al.^[12] показывают, что такие простые стратегии очень эффективны для коротких обходов, в то время как более сложные методы, такие как обучение с подкреплением а эволюционная адаптация может дать лучшую производительность при более длительных обходах. Было показано, что пространственная информация важна для классификации веб-документов.^[13]

Другой тип целевых поисковых роботов - это семантически ориентированные поисковые роботы, которые используют онтологии предметной области для представления тематических карт и связи веб-страниц с соответствующими онтологическими концепциями для целей выбора и категоризации.^[14] Кроме того, онтологии могут автоматически обновляться в процессе сканирования. Донг и др.^[15] представил такой поисковый робот, основанный на обучении онтологии, использующий машину векторов поддержки для обновления содержимого онтологических концепций при сканировании веб-страниц.

Сканеры также сосредоточены на свойствах страницы, отличных от тем. Cho et al.^[16] изучить различные политики приоритизации сканирования и их влияние на ссылочную популярность загруженных страниц. Наджорк и Вайнер^[17] покажи это в ширину сканирование, начиная с популярных исходных страниц, приводит к сбору страниц с большим PageRank на ранних этапах сканирования. Об уточнениях, связанных с обнаружением устаревших (плохо обслуживаемых) страниц, сообщили Eiron et al.^[18]Своего рода семантически ориентированный краулер, использующий идею обучение с подкреплением был представлен Meusel et al.^[19] использование онлайн-алгоритмов классификации в сочетании со стратегией выбора на основе бандитов для эффективного сканирования страниц с такими языками разметки, как RDFa, Микроформаты, и Микроданные.

Производительность целевого поискового робота зависит от количества ссылок в конкретной теме, в которой выполняется поиск, а целенаправленное сканирование обычно основывается на общей сети. поисковый движок для обеспечения отправных точек. Дэвисон^[20] представил исследования веб-ссылок и текста, которые объясняют, почему целенаправленное сканирование успешно по широким темам; аналогичные исследования были представлены Chakrabarti et al.^[21] Выбор семян может быть важен для целенаправленных поисковых роботов и существенно повлиять на эффективность сканирования.^[22] А белый список Стратегия заключается в том, чтобы начать сканирование фокуса со списка высококачественных семян URL и ограничить область сканирования домены этих URL-адресов. Эти высококачественные семена следует выбирать на основе списка URL кандидатов, которые накапливаются в течение достаточно длительного периода обычного сканирования сети. В белый список следует периодически обновлять после его создания.

Рекомендации

^ Сумен Чакрабарти, Целенаправленное сканирование в Интернете, в Энциклопедия систем баз данных.
^ Спорные темы
^ Повышение производительности специализированных веб-сканеров [1], Сотирис Батсакис, Еврипид Г. М. Петракис, Евангелос Милиос, 2012-04-09
^ Пинкертон, Б. (1994). Поиск того, что хотят люди: опыт работы с WebCrawler. В материалах Первой конференции World Wide Web, Женева, Швейцария.
^ Менцер, Ф. (1997). ARACHNID: агенты адаптивного поиска, выбирающие эвристические окрестности для обнаружения информации В архиве 2012-12-21 в Wayback Machine. В Д. Фишере, изд., Труды 14-й Международной конференции по машинному обучению (ICML97). Морган Кауфманн.
^ Менцер Ф. и Белью Р.К. (1998). Адаптивные информационные агенты в распределенных текстовых средах В архиве 2012-12-21 в Wayback Machine. В К. Сикара и М. Вулдридж (ред.) Труды 2-й Международной конференции по автономным агентам (агенты '98). ACM Press.
^ Целенаправленное сканирование: новый подход к обнаружению тематических веб-ресурсов, Сумен Чакрабарти, Мартин ван ден Берг и Байрон Дом, WWW 1999.
^ Подход машинного обучения к созданию поисковых систем для конкретной предметной области, Эндрю МакКаллум, Камаль Нигам, Джейсон Ренни и Кристи Сеймор, IJCAI 1999.
^ Использование обучения с подкреплением для эффективного поиска в сети, Джейсон Ренни и Эндрю МакКаллум, ICML 1999.
^ Дилигенти М., Кутзи Ф., Лоуренс С., Джайлз К. Л. и Гори М. (2000). Целенаправленное сканирование с использованием контекстных графов В архиве 2007-03-07 на Wayback Machine. В материалах 26-й Международной конференции по очень большим базам данных (VLDB), страницы 527-534, Каир, Египет.
^ Ускоренное целенаправленное сканирование благодаря обратной связи по релевантности в Интернете, Сумен Чакрабарти, Кунал Пунера и Маллела Субраманьям, WWW 2002.
^ Менцер Ф., Пант Г. и Сринивасан П. (2004). Актуальные веб-сканеры: оценка адаптивных алгоритмов. ACM Trans. по Интернет-технологиям 4 (4): 378–419.
^ Распознавание общих областей на веб-странице с помощью визуальной информации: возможное применение в классификации страниц, Милош Ковачевич, Микеланджело Дилидженти, Марко Гори, Велько Милутинович, Data Mining, 2002. ICDM 2003.
^ Донг, Х., Хуссейн, Ф.К., Чанг, Э .: Современное состояние семантических поисковых роботов. Вычислительная наука и ее приложения - ICCSA 2009. Springer-Verlag, Сеул, Корея (июль 2009 г.), стр. 910-924
^ Донг, Х., Хуссейн, Ф.К .: SOF: полууправляемый поисковый робот, ориентированный на изучение онтологий. Параллелизм и вычисления: практика и опыт. 25 (12) (август 2013), стр. 1623-1812
^ Чонху Чо, Гектор Гарсия-Молина, Лоуренс Пейдж: Эффективное сканирование с помощью упорядочивания URL. Компьютерные сети 30 (1-7): 161-172 (1998).
^ Марк Наджорк, Джанет Л. Винер: Сканирование в ширину обеспечивает высокое качество страниц. WWW 2001: 114-118
^ Надав Эйрон, Кевин С. МакКерли, Джон А. Томлин: Ранжирование веб-границ. WWW 2004: 309-318.
^ Меусель Р., Мика П., Бланко Р. (2014). Целенаправленное сканирование структурированных данных. Международная конференция ACM по управлению информацией и знаниями, страницы 1039-1048.
^ Брайан Д. Дэвисон: Актуальная местность в сети. СИГИР 2000: 272-279.
^ Сумен Чакрабарти, Мукул Джоши, Кунал Пунера, Дэвид М. Пеннок: Структура широких тем в сети. WWW 2002: 251-262.
^ Цзянь Ву, Прадип Тереговда, Хуан Пабло Фернандес Рамирес, Прасенджит Митра, Шуйи Чжэн, К. Ли Джайлс, Эволюция стратегии сканирования для системы поиска академических документов: белые и черные списки, В трудах 3-й ежегодной конференции ACM Web Science, страницы 340-343, Эванстон, Иллинойс, США, июнь 2012 г.

[1] Сумен Чакрабарти, Целенаправленное сканирование в Интернете, в Энциклопедия систем баз данных.

[2] Спорные темы

[3] Повышение производительности специализированных веб-сканеров [1], Сотирис Батсакис, Еврипид Г. М. Петракис, Евангелос Милиос, 2012-04-09

[4] Пинкертон, Б. (1994). Поиск того, что хотят люди: опыт работы с WebCrawler. В материалах Первой конференции World Wide Web, Женева, Швейцария.

[5] Менцер, Ф. (1997). ARACHNID: агенты адаптивного поиска, выбирающие эвристические окрестности для обнаружения информации В архиве 2012-12-21 в Wayback Machine. В Д. Фишере, изд., Труды 14-й Международной конференции по машинному обучению (ICML97). Морган Кауфманн.

[6] Менцер Ф. и Белью Р.К. (1998). Адаптивные информационные агенты в распределенных текстовых средах В архиве 2012-12-21 в Wayback Machine. В К. Сикара и М. Вулдридж (ред.) Труды 2-й Международной конференции по автономным агентам (агенты '98). ACM Press.

[7] Целенаправленное сканирование: новый подход к обнаружению тематических веб-ресурсов, Сумен Чакрабарти, Мартин ван ден Берг и Байрон Дом, WWW 1999.

[8] Подход машинного обучения к созданию поисковых систем для конкретной предметной области, Эндрю МакКаллум, Камаль Нигам, Джейсон Ренни и Кристи Сеймор, IJCAI 1999.

[9] Использование обучения с подкреплением для эффективного поиска в сети, Джейсон Ренни и Эндрю МакКаллум, ICML 1999.

[10] Дилигенти М., Кутзи Ф., Лоуренс С., Джайлз К. Л. и Гори М. (2000). Целенаправленное сканирование с использованием контекстных графов В архиве 2007-03-07 на Wayback Machine. В материалах 26-й Международной конференции по очень большим базам данных (VLDB), страницы 527-534, Каир, Египет.

[11] Ускоренное целенаправленное сканирование благодаря обратной связи по релевантности в Интернете, Сумен Чакрабарти, Кунал Пунера и Маллела Субраманьям, WWW 2002.

[12] Менцер Ф., Пант Г. и Сринивасан П. (2004). Актуальные веб-сканеры: оценка адаптивных алгоритмов. ACM Trans. по Интернет-технологиям 4 (4): 378–419.

[13] Распознавание общих областей на веб-странице с помощью визуальной информации: возможное применение в классификации страниц, Милош Ковачевич, Микеланджело Дилидженти, Марко Гори, Велько Милутинович, Data Mining, 2002. ICDM 2003.

[14] Донг, Х., Хуссейн, Ф.К., Чанг, Э .: Современное состояние семантических поисковых роботов. Вычислительная наука и ее приложения - ICCSA 2009. Springer-Verlag, Сеул, Корея (июль 2009 г.), стр. 910-924

[15] Донг, Х., Хуссейн, Ф.К .: SOF: полууправляемый поисковый робот, ориентированный на изучение онтологий. Параллелизм и вычисления: практика и опыт. 25 (12) (август 2013), стр. 1623-1812

[16] Чонху Чо, Гектор Гарсия-Молина, Лоуренс Пейдж: Эффективное сканирование с помощью упорядочивания URL. Компьютерные сети 30 (1-7): 161-172 (1998).

[17] Марк Наджорк, Джанет Л. Винер: Сканирование в ширину обеспечивает высокое качество страниц. WWW 2001: 114-118

[18] Надав Эйрон, Кевин С. МакКерли, Джон А. Томлин: Ранжирование веб-границ. WWW 2004: 309-318.

[19] Меусель Р., Мика П., Бланко Р. (2014). Целенаправленное сканирование структурированных данных. Международная конференция ACM по управлению информацией и знаниями, страницы 1039-1048.

[20] Брайан Д. Дэвисон: Актуальная местность в сети. СИГИР 2000: 272-279.

[21] Сумен Чакрабарти, Мукул Джоши, Кунал Пунера, Дэвид М. Пеннок: Структура широких тем в сети. WWW 2002: 251-262.

[22] Цзянь Ву, Прадип Тереговда, Хуан Пабло Фернандес Рамирес, Прасенджит Митра, Шуйи Чжэн, К. Ли Джайлс, Эволюция стратегии сканирования для системы поиска академических документов: белые и черные списки, В трудах 3-й ежегодной конференции ACM Web Science, страницы 340-343, Эванстон, Иллинойс, США, июнь 2012 г.

[1]

[2]

[3]

[4]

[5]

[6]

[7]

[8]

[9]

[10]

[11]

[12]

[13]

[14]

[15]

[16]

[17]

[18]

[19]

[20]

[21]

[22]

Интернет-поиск
Типы	Поисковая система в Интернете (Список ) Механизм метапоиска Мультимедийный поиск Совместная поисковая система Межязыковой поиск Локальный поиск Вертикальный поиск Социальный поиск Поиск изображений Аудио поиск Система поиска видео Корпоративный поиск Семантический поиск Поисковая система на естественном языке Голосовой поиск
Инструменты	Маркетинг в поисковых системах Поисковая оптимизация Меры оценки Ориентированная на поиск архитектура Поиск на основе выбора Поиск документов Текстовый анализ Поисковый робот Мультипоиск Федеративный поиск Поисковый агрегатор Индекс /Веб-индексирование Сфокусированный сканер Ловушка для паука Стандарт исключения роботов Распределенное сканирование в Интернете Веб-архивирование Программное обеспечение для зеркалирования веб-сайтов Поисковый запрос в Интернете Классификация веб-запросов
Протоколы и стандарты	Z39.50 Поиск / получение веб-службы Поиск / получение по URL OpenSearch Изобразительное State Transfer Шаблон синтаксического анализа веб-сайта Сервер глобальной информации
Смотрите также	Поисковый движок Поиск на рабочем столе Онлайн поиск

Веб-сканеры
Интернет-боты предназначен для Веб-сканирование и Веб-индексирование
Активный	80 ног бинбот Сборщик Googlebot Heritrix HTTrack PHP-сканер PowerMapper Wget
Снято с производства	FAST Crawler msnbot RBSE Робот TkWWW Twiceler
Типы	Распределенный поисковый робот Сфокусированный сканер