Распределенное сканирование в Интернете - Distributed web crawling

Распределенное сканирование в Интернете это распределенных вычислений техника, посредством которой Интернет поисковые системы использовать много компьютеров для индекс Интернет через сканирование сети. Такие системы могут позволить пользователям добровольно предлагать свои вычислительные ресурсы и ресурсы полосы пропускания для сканирования веб-страниц. Распределив нагрузку этих задач на множество компьютеров, можно избежать затрат, которые в противном случае были бы потрачены на обслуживание больших вычислительных кластеров.

Типы

Чо^[1] и Гарсиа-Молина изучили два типа политики:

Динамическое присвоение

С помощью этого типа политики центральный сервер динамически назначает новые URL-адреса различным сканерам. Это позволяет центральному серверу, например, динамически балансировать нагрузку каждого поискового робота.

При динамическом назначении, как правило, системы также могут добавлять или удалять процессы загрузки. Центральный сервер может стать узким местом, поэтому большая часть рабочей нагрузки должна быть передана распределенным процессам сканирования для больших обходов.

Шкапенюк и Суэль описали две конфигурации архитектур сканирования с динамическими назначениями:^[2]

Небольшая конфигурация краулера, в которой есть центральный DNS резолвер и центральные очереди для каждого веб-сайта, а также распределенные загрузчики.
Конфигурация большого поискового робота, в которой также распределены DNS-преобразователь и очереди.

Статическое присвоение

В этом типе политики с самого начала сканирования устанавливается фиксированное правило, которое определяет, как назначать поисковым роботам новые URL-адреса.

При статическом назначении можно использовать функцию хеширования для преобразования URL-адресов (или, что еще лучше, полных имен веб-сайтов) в число, соответствующее индексу соответствующего процесса сканирования. Поскольку существуют внешние ссылки, которые будут вести с веб-сайта, назначенного одному процессу сканирования, на веб-сайт, назначенный другому процессу сканирования, должен произойти некоторый обмен URL-адресами.

Чтобы уменьшить накладные расходы из-за обмена URL-адресами между процессами сканирования, обмен должен производиться пакетно, по нескольку URL-адресов одновременно, а наиболее цитируемые URL-адреса в коллекции должны быть известны всем процессам сканирования до сканирования (например, с помощью данные из предыдущего сканирования).^[1]

Реализации

По состоянию на 2003 год большинство современных коммерческих поисковых систем используют эту технику. Google и Yahoo использовать тысячи отдельных компьютеров для сканирования Интернета.

В новых проектах пытаются использовать менее структурированный, более для этого случая форма сотрудничества, заключающаяся в привлечении добровольцев к работе с использованием, во многих случаях, их домашних или персональных компьютеров. Выглядит умным является крупнейшей поисковой системой, использующей эту технику, которая обеспечивает ее Проект распределенного веб-сканирования Grub.

В этом решении используются компьютеры, подключенные к Интернет ползать Интернет-адреса на заднем фоне. После загрузки просканированных веб-страниц они сжимаются и отправляются обратно вместе с флагом состояния (например, изменено, новое, не работает, перенаправлено) на мощные центральные серверы. Серверы, управляющие большой базой данных, рассылают клиентам новые URL-адреса для тестирования.

Недостатки

Согласно Часто задаваемые вопросы о Nutch, веб-сайт поисковой системы с открытым исходным кодом, экономия полосы пропускания за счет распределенного веб-сканирования незначительна, поскольку «успешной поисковой системе требуется больше полосы пропускания для загрузки страниц результатов запроса, чем ее сканеру требуется для загрузки страниц ...».

Смотрите также

Распределенных вычислений
ФАРУ - Одноранговая поисковая система с распределенным сканированием
Поисковый робот
YaCy - P2P поисковая система с распределенным сканированием
Стремится - Веб-поиск P2P с открытым исходным кодом

Источники

^ ^а ^б Чо, Джунху; Гарсия-Молина, Гектор (2002). «Параллельные краулеры». Материалы 11-й международной конференции по всемирной паутине. ACM. С. 124–135. Дои:10.1145/511446.511464. ISBN 1-58113-449-5. Получено 2015-10-13.
^ Шкапенюк Владислав; Суэль, Торстен (2002). «Разработка и внедрение высокопроизводительного распределенного поискового робота». Data Engineering, 2002. Труды. 18-я Международная конференция по. IEEE. стр. 357–368. Получено 2015-10-13.

внешняя ссылка

Распределенная поисковая система Majestic-12
Распределенная поисковая система Replaz

[cho2002parallel-1] а ^б Чо, Джунху; Гарсия-Молина, Гектор (2002). «Параллельные краулеры». Материалы 11-й международной конференции по всемирной паутине. ACM. С. 124–135. Дои:10.1145/511446.511464. ISBN 1-58113-449-5. Получено 2015-10-13.

[2] Шкапенюк Владислав; Суэль, Торстен (2002). «Разработка и внедрение высокопроизводительного распределенного поискового робота». Data Engineering, 2002. Труды. 18-я Международная конференция по. IEEE. стр. 357–368. Получено 2015-10-13.

[1]

[2]

Распределенные поисковые системы
Распределенный веб-поиск	ФАРУ Стремится YaCy
Распределенные поисковые роботы	Жратва
курсив = несуществующий

Веб-сканеры
Интернет-боты предназначен для Веб-сканирование и Веб-индексирование
Активный	80 ног бинбот Сборщик Googlebot Heritrix HTTrack PHP-сканер PowerMapper Wget
Снято с производства	FAST Crawler msnbot RBSE Робот TkWWW Twiceler
Типы	Распределенный поисковый робот Сфокусированный сканер