Ловушка паука - Spider trap

А ловушка для пауков (или же гусеничная ловушка) - это набор веб-страниц, которые могут намеренно или непреднамеренно использоваться для поисковый робот или поисковый бот сделать бесконечное количество запросов или вызвать сбой плохо сконструированного краулера. Веб-сканеры также называются веб-пауки, от которого и произошло название. Ловушки для пауков могут быть созданы, чтобы «поймать» спам-боты или другие сканеры, которые тратят пропускную способность веб-сайта. Они также могут быть непреднамеренно созданы календарями, использующими динамические страницы со ссылками, которые постоянно указывают на следующий день или год.

Общие используемые методы:

  • создание бесконечно глубоких каталог структуры, подобные http: //example.com/bar/foo/bar/foo/bar/foo/bar / ...
  • Динамические страницы, которые создают неограниченное количество документов для поискового робота. Примеры включают календари[1] и генерируется алгоритмически языковая поэзия.[2]
  • документы, заполненные множеством символов, разбивая лексический анализатор разбор документ.
  • документы с идентификаторами сеанса на основе необходимых файлов cookie.

Не существует алгоритма обнаружения всех ловушек для пауков. Некоторые классы ловушек могут быть обнаружены автоматически, но быстро возникают новые, нераспознанные ловушки.

Вежливость

Ловушка для пауков заставляет поискового робота ввести что-то вроде бесконечная петля[3], что тратит ресурсы паука[4], снижает ее производительность и, в случае плохо написанного краулера, может привести к сбою программы. Вежливые пауки чередуют запросы между разными хостами и не запрашивают документы с одного и того же сервера чаще одного раза в несколько секунд.[5], что означает, что "вежливый" веб-сканер подвергается гораздо меньшей опасности, чем "невежливый" поисковый робот.

Кроме того, на сайтах с ловушками для пауков обычно есть robots.txt говорит ботам не попадать в ловушку, чтобы законный «вежливый» бот не попал в ловушку, в то время как «невежливый» бот, игнорирующий настройки robots.txt, попадет в ловушку.[6]

Смотрите также

Рекомендации

  1. ^ ""Что такое ловушка для пауков?"". Техопедия. Получено 2018-05-29.
  2. ^ Нил М. Хеннесси. "Сладчайший яд, или открытие L = A = N = G = U = A = G = E Поэзии в сети ". Проверено 26 сентября 2013 г.
  3. ^ "Предзнаменование". Предзнаменование. 2016-02-03. Получено 2019-10-16.
  4. ^ «Как настроить robots.txt для управления пауками поисковых систем (thesitewizard.com)». www.thesitewizard.com. Получено 2019-10-16.
  5. ^ "Создание вежливого поискового робота". Сообщество DEV. Получено 2019-10-16.
  6. ^ Group, J. Media (2017-10-12). «Закрытие ловушки для пауков: устранение неэффективности сканирования». J Media Group. Получено 2019-10-16.