SEO-кухня 23.01.2022

Как оптимизировать краулинговый бюджет

Представьте, что на сайте регулярно обновляются тысячи страниц. Чтобы новые версии попали в выдачу, их должны просканировать и проиндексировать поисковые роботы — краулеры. Проблема в том, что у них есть лимит на количество страниц, которые они могут обойти за день. Рассказываем, как узнать краулинговый бюджет сайта и 12 способов его оптимизировать.

Что такое «краулинговый бюджет сайта»

Как поисковые системы «выдают» бюджет сайту

Нужно ли следить за краулинговым бюджетом

Что будет, если лимит меньше, чем количество обновляемых страниц

Как узнать краулинговый бюджет сайта

Через системы аналитики

Через логи сервера

Как оптимизировать краулинговый бюджет — 12 проверенных способов

Что делать после оптимизации бюджета

Если сразу пролистали вниз: ключевые тезисы

Что такое «краулинговый бюджет сайта»

Краулинговый бюджет — это лимит на количество страниц сайта, которые поисковые роботы смогут обойти за сутки.

Когда краулеры заходят на сайт, они уже знают, какое конкретно количество страниц на этом сайте можно просканировать за этот день. То есть, у сайта есть лимит на сканирование. Этот лимит и называется краулинговым бюджетом.

Как работают краулеры

Зачем поисковая система ввела такие лимиты?

Когда поисковые роботы заходят на новую или обновлённую страницу, они должны отсканировать весь контент от кода до картинок и отправить его в индекс. Во время своей работы, они нагружают сервер, на котором размещён сайт.

Представьте, что на сайт с миллионом страниц одновременно зайдёт миллион поисковых роботов. Сервер не выдержит такой нагрузки и сайт, скорее всего, «упадёт». Равномерное и постепенное сканирование страниц позволяет минимизировать нагрузку на сервер.

Как поисковые системы «выдают» бюджет сайту

Помимо ограничений со стороны сервера, есть ограничения и в вычислительных возможностях поисковых систем, и в количестве краулеров.

Поэтому ПС выделяют каждому сайту лимитированное количество ресурсов, исходя из двух факторов:

скорости сканирования;
потребности в сканировании.

Скорость сканирования зависит от времени ответа сайта: чем быстрее робот получает данные, тем больше страниц он сможет обойти за выделенную ему единицу времени.

Потребность в сканировании зависит от таких показателей:

Посещаемость страницы: чем популярнее, тем чаще робот её обходит.
Необходимая периодичность сканирования, которая обеспечит актуальность контента. То есть частота обновления контента. Например, на популярной странице форума скорость сканирования будет выше, чем на статичной странице этого же форума.
Количество страниц на сайте: чем больше страниц, тем больше бюджет.
Тематика сайта. Например, новостные сайты, форумы и другие сайты обычно обновляются чаще.
Важные изменения на сайте. Например, изменение структуры сайта.

Нужно ли следить за краулинговым бюджетом

По словам Джона Мюллера, представителя Google, даже 100 тыс. URL обычно недостаточно, чтобы как-то влиять на краулинговый бюджет. Яндекс тоже использует технологию краулингового бюджета, но таких точных данных о цифрах не даёт.

Нельзя однозначно сказать, стоит или не стоит отслеживать бюджет. Если у сайта больше, чем 10 тысяч постоянно обновляемых или новых страниц, скорее всего, стоит следить за бюджетом и при необходимости оптимизировать его.

Илья Горбачов, SEO-эксперт, автор канала SEO Rocket

«В реальной практике на небольших проектах заниматься улучшением краулингового бюджета чаще всего не приходится, так как есть более эффективные с точки зрения получаемого результата работы.

Но это точно требуется на проектах с большим количеством генерируемых страниц, когда поисковая система не успевает быстро индексировать новые страницы. Сюда относятся крупные интернет-магазины и проекты с большим количеством UGC контента: маркетплейсы, агрегаторы и так далее».

Что будет, если лимит меньше, чем количество обновляемых страниц

Бюджет может быть израсходован на обход второстепенных страниц (страницы с ошибками, дубли, пустые и технические страницы). Более важные страницы при этом могут не попасть в выдачу. А это в свою очередь может привести к тому, что:

часть обновлённых страниц будет долгое время непроиндексирована, и в поисковой выдаче будет неактуальная информация;
новые страницы долго не смогут попасть в индекс, а значит, не будут появляться в результатах поиска — вы заметите сильные задержки в индексации.

Как узнать краулинговый бюджет сайта

Через системы аналитики

Необходимо посмотреть, сколько страниц сайта за сутки обходят роботы Яндекс и Google. Сделать это можно в Яндекс.Вебмастер и Google Searсh Console.

Путь в Яндекс.Вебмастер: Индексирование → Статистика обхода → История обхода.

Статистика обхода страниц сайта из панели Яндекс.Вебмастер

Путь в Google Searсh Console: Индекс → Покрытие.

Статистика обхода страниц сайта из Google Search Console

Это не даст конкретной информации о бюджете, но на эти цифры можно ориентироваться.

Сравните количество индексируемых страниц в месяц с общим количеством новых страниц, и если заметите, что индексируется, например, 2 000 страниц в месяц, а вы добавили 5 000 новых страниц, необходимо оптимизировать краулинговый бюджет.

Через логи сервера

Если в команде есть разработчик, можно попросить его настроить выгрузку отчётов логов сервера. Это поможет узнать, на какие страницы робот заходил, а на какие — нет, какие взял в индекс, а какие — нет.

Для анализа в логах понадобится три параметра:

адрес страницы;
дата её посещения роботом;
user agent, чтобы определить, что это поисковый робот.

К примеру, Googlebot desktop представится вашему сервису так:

Полные строки агента пользователя

Mozilla/5.0 (compatible; Googlebot/2.1; +http://www.google.com/bot.html)
Mozilla/5.0 AppleWebKit/537.36 (KHTML, like Gecko; compatible; Googlebot/2.1; +http://www.google.com/bot.html) Chrome/W.X.Y.Z Safari/537.36
Googlebot/2.1 (+http://www.google.com/bot.html)

А Googlebot для смартфонов — так:

Полная строка агента пользователя

Mozilla/5.0 (Linux; Android 6.0.1; Nexus 5X Build/MMB29P) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/W.X.Y.Z Mobile Safari/537.36 (compatible; Googlebot/2.1; +http://www.google.com/bot.html)

Узнать больше об идентификации ботов Google можно в Центре Google Поиска.

Точно так же можно идентифицировать роботов Яндекса. Например, YandexBot:

Полная строка агента пользователя

Mozilla/5.0 (compatible; YandexBot/3.0; +http://yandex.com/bots)

В динамике можно увидеть, на какое количество страниц робот заходит каждый день — это косвенно укажет на краулинговый бюджет сайта.

Тут нужно учитывать, что на некоторые страницы робот может не заходить по разным причинам, а не только из-за лимита. Например, на них нет ссылок, они закрыты от индексации и т. д. Если вы уверенны, что с этим проблем нет, то оценить таким образом примерный бюджет можно.

Как оптимизировать краулинговый бюджет — 12 проверенных способов

Проверить и настроить файл Sitemap.xml. Из него необходимо убрать всё лишнее: неканоничные ссылки, ссылки с ошибками сканирования, редиректы, страницы с кодами ответа, отличными от «200 ОК». Сгенерировать и выгрузить Sitemap.xml можно через строку браузера, вписав в неё https://site.ru/sitemap.xml — вместо «site.ru» впишите адрес вашего сайта.

Прописать http заголовки Last-Modified. Они сообщают о том, когда было последнее изменение на странице. Если робот уже сканировал страницу ранее и Last-Modified сообщает, что изменений с последнего обхода не было, робот не будет тратить на неё бюджет.

Проверить наличие заголовка Last-Modified можно в Топвизоре через инструмент «Аудит», раздел «Контент»:

Проверка заголовков Last-Modified в Топвизоре

Другой способ — использовать бесплатные сервисы проверки Last Modified, например, lastmodified.ru

Результат проверки сайта, на котором не прописаны http заголовки Last-Modified

Если на сайте не прописаны Last-Modified, сделать это можно в карте сайте через специальные плагины для генерации карты сайта, доступные для большинства популярных CMS, или прописать вручную. К примеру, для сайтов на WordPress есть плагины XML Sitemaps и All in One SEO, для Joomla — JSitemap, а для Drupal — Simple XML sitemap.

Пример тега <lastmod> в карте сайта, сообщающего, что последнее обновление страницы было 15 января 2022:

<lastmod>2022-01-15</lastmod>

Указать в карте сайта частоту обновления страницы через <changefreq>. Роботы учитывают этот атрибут как подсказку, а не как команду, поэтому даже если указать ежедневный интервал обновления, не факт, что именно с такой регулярностью роботы будут сканировать страницу.

Пример кода, сообщающего о ежемесячном обновлении контента на странице:

<changefreq>monthly</changefreq>

Указать в карте сайта приоритет важных страниц через атрибут <priority>. Это позволит роботам понять, какие страницы наиболее важны и приоритетны в индексировании.

Не обязательно прописывать приоритет для всех страниц, достаточно повысить стандартный приоритет с 0,5 до, например, 0,8 (выше среднего) для самых важных страниц: главной, основных категорий, ключевых продуктов, контактов и так далее. Пример кода, задающего странице приоритет 0,8:

<priority>0.8</priority>

Вот как это выглядит:

Пример тегов <lastmod>, <changefreq> и <priority> в XML-карте сайта

Использовать инструмент «Параметры URL» Google. С его помощью можно запретить поисковику сканировать страницы с определённым параметром или значением этого параметра. Например, если сайт использует параметры URL, которые не изменяют содержание страницы, но попадают в индекс Google, дублируя основную страницу.

Проверить и настроить файл robots.txt. Необходимо убедиться, что в файле robots.txt открыты для индексации все нужные страницы и скрыты все лишние ссылки с помощью директив Allow и Disallow соответственно.

Оптимизировать редиректы. Чем их меньше, тем меньше бюджета тратится на обход сайта. В идеале — заменить все редиректы реальными адресами.

Ускорить загрузку страниц. Скорость загрузки напрямую влияет на скорость работы поискового робота: если при загрузке страница не тормозит, робот сможет полноценно и быстро выполнить свою работу. Чем быстрее грузится сайт, тем больше страниц сможет пройти робот за единицу времени.

Если сайт на JavaScript, используйте серверный рендеринг, чтобы сайт загружался быстрее.

Подробнее о серверном рендеринге в блоге developers.google.com

Проверить сайт на дубли. Проверьте сайт на наличие страниц с одинаковым контентом, но разными ссылками. Поисковики определяют их как дубли. Если такие обнаружатся, их нужно либо удалить, если страница не нужна, либо настроить редирект, либо задать каноническую страницу через тег rel="canonical" в разделе Head. Пример:

<link rel="canonical"href="http://example.com/canonical-link.html"/>

Прочитав эту строку, робот поймет, что по вышеуказанному адресу находится главная, то есть каноническая страница.

Кейс, в котором сайт годами не мог попасть в ТОП Яндекса из-за дублей.

Настроить внутреннюю перелинковку. Так робот сможет быстрее найти и отсканировать нужные страницы.

Улучшить юзабилити сайта. Чем выше удобство использования сайта, тем выше его поведенческие факторы, а они напрямую влияют на оценку качества сайта поисковиками, особенно Яндексом.

Чем больше пользователь изучает страниц на сайте и чем больше он проводит на нём времени, тем, по мнению поисковиков, полезнее сайт. А полезные сайты можно и нужно обходить чаще.

Увеличивать внешнюю ссылочную массу. Чем больше внешних ресурсов ссылается на конкретные страницы сайта, тем выше вероятность, что поисковый бот в первую очередь просканирует их.

При этом следите за тем, чтобы внешние ссылки были естественными, иначе Яндекс и Google могут заподозрить вас в ссылочном спаме и понизить позиции сайта в поисковой выдаче.

Естественные ссылки — это ссылки, которыми делятся пользователи или владельцы каких-либо ресурсов, когда считают сайт или материалы сайта интересными.

Чтобы поисковик посчитал ссылку естественной, нужно, чтобы:

она была расположена на сайте со схожей тематикой;
по ссылке кликали реальные пользователи и переходили на сайт;
у ссылки не было анкоров, то есть текста, к которому прикреплена ссылка.

Что делать после оптимизации бюджета

После того, как внесёте изменения, анализируйте, как индексируются страницы сайта, например, с помощью инструмента проверки индексации в Топвизоре.

Проверьте:

совпадает ли количество новых страниц, которые вы добавили за последний месяц, и количество проиндексированных страниц за этот месяц;
на какие страницы заходил робот, а на какие — нет;
какие страницы не попали в индекс и есть ли что-то, что их объединяет.

Анализировать работу краулера можно в среднем 1 раз в месяц. Если же у вас большой проект, например, от 100 тыс. страниц, лучше делать это чаще, чтобы при необходимости вносить изменения.

Если сразу пролистали вниз: ключевые тезисы

Краулинговый бюджет — это количество страниц (ссылок) сайта, которое поисковый робот сможет обойти за единицу времени, например, за сутки. Для каждого сайта поисковая система определяет свой бюджет.

От размера краулингового бюджета зависит то, насколько быстро попадут в поисковую выдачу нужные страницы.

Небольшие ресурсы могут не волноваться по поводу бюджета. Крупным же сайтам необходимо проверить, сколько новых страниц в сутки обходят краулеры, и сравнить их количество с количеством регулярно обновляемых или новых страниц проекта.

Если на сайте новых или обновлённых страниц значительно больше, чем успевает просканировать поисковый робот, необходимо оптимизировать бюджет.