Googlebot - Googlebot

Googlebot
Google 2015 logo.svg
Оригинальный автор (ы)Google
ТипПоисковый робот
Интернет сайтGooglebot FAQ

Googlebot это поисковый робот программное обеспечение, используемое Google, который собирает документы из сеть для создания индекса с возможностью поиска для Поиск Гугл двигатель. Это имя фактически используется для обозначения двух разных типов веб-сканеров: поискового робота для настольных компьютеров (для имитации пользователей настольных компьютеров) и для мобильных устройств (для имитации мобильного пользователя).[1]

Поведение

Веб-сайт, вероятно, будет сканироваться как Googlebot Desktop, так и Googlebot Mobile. Подтип робота Google можно определить, просмотрев строку пользовательского агента в запросе. Однако оба типа поисковых роботов подчиняются одному и тому же токену продукта (useent token) в robots.txt, и поэтому разработчик не может выборочно настроить таргетинг на мобильный робот Googlebot или настольный компьютер Googlebot с помощью robots.txt.

Если веб-мастер желает ограничить доступ к информации на своем сайте для робота Google или другого добросовестного паук, они могут сделать это с помощью соответствующих директив в robots.txt файл,[2] или добавив метатег <meta name="Googlebot" content="nofollow" /> на веб-страницу.[3] Робот Googlebot запрашивает Веб-серверы идентифицируются пользовательский агент строка, содержащая "Googlebot" и адрес хоста, содержащий "googlebot.com".[нужна цитата ]

В настоящее время робот Google следует HREF ссылки и ссылки SRC.[2] Все больше доказательств того, что робот Google может выполнять JavaScript и анализировать контент, созданный Аякс звонки тоже.[4] Существует множество теорий относительно того, насколько продвинуты способности робота Googlebot обрабатывать JavaScript, причем мнения варьируются от минимальных возможностей, полученных от пользовательских интерпретаторов.[5] В настоящее время робот Googlebot использует службу веб-рендеринга (WRS), основанную на движке рендеринга Chromium (версия 74 по состоянию на 7 мая 2019 г.).[6] Робот Googlebot обнаруживает страницы, собирая все ссылки на каждой найденной странице. Затем он переходит по этим ссылкам на другие веб-страницы. На новые веб-страницы должны быть ссылки с других известных страниц в Интернете, чтобы их сканировал и индексировал или вручную отправлял веб-мастер.

Проблема, которую веб-мастера с низкой пропускной способностью веб хостинг планы[нужна цитата ] При работе с роботом Googlebot часто отмечается, что он занимает огромную полосу пропускания.[нужна цитата ] Это может привести к тому, что веб-сайты превысят предел пропускной способности и будут временно отключены. Это особенно неприятно для зеркало сайты, на которых размещено много гигабайты данных. Google предоставляет "Search Console "которые позволяют владельцам веб-сайтов регулировать скорость сканирования.[7]

Как часто робот Googlebot будет сканировать сайт, зависит от бюджета сканирования. Бюджет сканирования - это оценка того, как часто сайт обновляется.[нужна цитата ] Технически группа разработчиков робота Googlebot (группа сканирования и индексирования) использует несколько определенных терминов внутри компании, чтобы взять на себя то, что означает «краулинговый бюджет».[8] С мая 2019 г. робот Googlebot использует новейшие Хром движок рендеринга, который поддерживает ECMAScript 6 Особенности. Это сделает бота более «вечнозеленым» и гарантирует, что он не полагается на устаревший движок рендеринга по сравнению с возможностями браузера.[9]

Медиабот

Медиабот это поисковый робот который Google использует для анализа контента, чтобы Google AdSense может служить контекстуально релевантный реклама на веб-странице. Медиабот идентифицирует себя с пользовательский агент строка «Медиапартнеры-Google / 2.1».

В отличие от других сканеров, Mediabot не переходит по ссылкам для обнаружения новых URL-адресов для сканирования, а только посещает те URL-адреса, которые содержат код AdSense.[10] Если этот контент находится за логином, сканеру может быть предоставлен логин, чтобы он мог сканировать защищенный контент.[11]

Медиабот обычно сначала посещает страницу в течение нескольких секунд после первого вызова кода AdSense с этой страницы. После этого он повторно посещает страницы на регулярной, но непредсказуемой основе. Поэтому изменения, внесенные на страницу, не вызывают немедленных изменений рекламы, отображаемой на странице.

Рекламу по-прежнему можно показывать на странице, даже если Медиабот еще не посещал ее. В этом случае выбранные объявления будут основаны на сочетании общей темы домена и ключевых слов, содержащихся в строке URL.[нужна цитата ] Если на странице не может быть сопоставлено ни одной рекламы, отображаются либо общественные объявления, либо пустое пространство, либо сплошной цвет, в зависимости от настроек этого рекламного блока.

Рекомендации

  1. ^ "Googlebot". Google. 2019-03-11. Получено 2019-03-11.
  2. ^ а б "Консоль поиска Google". Google.com.
  3. ^ "Консоль поиска Google". search.google.com. Получено 2019-03-11.
  4. ^ «Изучение основ JavaScript для SEO | Поиск для разработчиков». Разработчики Google. Получено 2020-07-26.
  5. ^ Сплитт, Мартин. "Как Google Search индексирует сайты JavaScript - JavaScript SEO". YouTube.
  6. ^ "Новый вечнозеленый робот Google". Официальный блог Центра веб-мастеров Google. Получено 2019-06-07.
  7. ^ "Google - Вебмастерам". Google.com. Получено 2012-12-15.
  8. ^ "Что означает бюджет сканирования для робота Googlebot". Официальный блог Центра веб-мастеров Google. Получено 2018-07-04.
  9. ^ "Новый вечнозеленый робот Google". Официальный блог Центра веб-мастеров Google. Получено 2019-06-17.
  10. ^ "О сканере AdSense".
  11. ^ "Показывать рекламу на страницах, защищенных входом".

внешняя ссылка