SEO-кухня SEO-кухня 21.12.2023

Как проверить индексацию сайта

Чтобы пользователь увидел страницу сайта в выдаче, сначала она должна быть проиндексирована поисковыми роботами. Как проверить индексацию, как её ускорить и что делать, если сайт не индексируется — в нашей статье.

Как проверить индексацию сайта

Что такое индексация страниц сайта

Индексация страниц сайта — это процесс добавления страниц сайта в базу данных поисковых систем — Google, Яндекса и других.

Когда пользователь вводит поисковый запрос, поисковик анализирует эту базу данных и выдаёт наиболее релевантные запросу страницы. То есть чтобы страница сайта попала в результаты поиска, она должна быть проиндексирована.

Процесс индексации начинается с того, что поисковые роботы сканируют все страницы вашего сайта. Они анализируют содержание каждой страницы, включая текст, изображения, видео и другие элементы. Затем информация о странице сохраняется в базе данных поисковой системы, а сама страница индексируется.

Индексация бывает первичной и повторной. Первичная индексация — это когда новая страница впервые добавляется в базу поисковика. Повторная индексация означает обновление данных о странице в базе.

Как проверить индексацию сайта

Есть несколько способов проверить индексацию сайта. Во‑первых, ввести URL конкретной страницы в поисковый запрос Google‑ или Яндекс‑поиска — так мы сможем увидеть, добавлена ли в индекс конкретная страница.

Проверка индексации страницы по URL
Проверка индексации страницы по URL

Ещё есть возможность проверить индексацию, введя часть текста страницы в поисковый запрос:

Проверка индексации страницы по части текста
Проверка индексации страницы по части текста

Также функция проверки индексации есть и в каждой поисковой системе. Об этом поговорим подробнее.

Google

Чтобы проверить, проиндексирован ли сайт в Google, нужно воспользоваться оператором site:

site:мойсайт.рф

В результатах поиска будут показаны все страницы сайта, которые есть в базе Google.

Проверка индексации в Google
Проверка индексации в Google

Полный список поисковых операторов Google

Можно воспользоваться сервисом Google Search Console. В нём отображается более подробная информация об индексации. Откройте сервис, затем «Индексирование» — «Страницы». Будет показано, сколько страниц проиндексировано, а сколько нет.

Проверка индексации в Google Search Console
Проверка индексации в Google Search Console

Ниже будет информация о том, почему страницы не индексируются — подробнее о причинах читайте ниже в разделе «Почему страница не индексируется».

Причины, почему страницы не индексируются
Причины, почему страницы не индексируются

Как пользоваться отчётом об индексировании в Google Search Console

Яндекс

В Яндексе проверить индексацию можно такой же командой:

site:мойсайт.рф
Проверка индексации в Яндексе
Проверка индексации в Яндексе

Или воспользоваться Яндекс Вебмастером. Открываем «Индексирование» — «Статистика обхода». Здесь увидим то, как часто робот Яндекса обходит страницы сайта для добавления их в индекс.

Проверка обхода в Яндекс Вебмастере
Проверка обхода в Яндекс Вебмастере

А в отчёте «Страницы в поиске» увидим, какие страницы находятся в индексе, а с какими есть проблемы:

Проверка индексации в Яндекс Вебмастере
Проверка индексации в Яндекс Вебмастере

У каждой страницы будет отображён статус в столбце «Статус». Что значит каждый из них и как исправить ошибки, читайте в Яндекс Справке.

Что такое Яндекс Вебмастер и как им пользоваться

❗️ Ещё индексацию можно проверить в «Анализе сайта» Топвизора.

Загрузите URL для проверки и запустите «Анализ сайта». Когда проверка закончится, откройте «Сводку» — там будет информация об индексируемости. Можно посмотреть, сколько страниц заблокировано, сколько, наоборот, присутствует в индексе, какие запрещены к индексации директивами robots.txt и так далее:

Проверка индексируемости в Сводке Топвизора
Проверка индексируемости в Сводке

А в разделе «Индексируемость» можно посмотреть данные по конкретным URL детально:

Индексируемость конкретных страниц сайта
Индексируемость страниц сайта по URL

Сервис покажет:

  • разрешена ли страница для индексации файлом robots.txt;

  • есть ли она в sitemap.xml;

  • есть ли со страницы редирект;

  • код ответа страницы.

Почему страница не индексируется

Есть несколько причин, по которым страница может не индексироваться:

  • Сайт закрыт от индексации файлом robots.txt

В robots.txt можно запретить индексацию сайта роботам разных поисковых систем. Например, мы указываем, что всем роботам (значок *) запрещена индексация всего сайта (директива disallow указывает на запрет, знак / — на весь сайт).

User‑Agent: *
Disallow: / 

Подробнее о работе robots.txt

  • На странице установлены теги noindex, запрещающие индексацию

Ещё закрытие страницы от индексации можно прописать прямо в её коде. Вот как он может выглядеть:

<meta name=“robots” content=“noindex”>

Тег noindex указывает ПС на то, что страницу не нужно индексировать. Бывает, что этот тег ставится для страниц в разработке, а потом его забывают убрать, поэтому страница и не попадает в индекс.

  • Индексация запрещена файлом .htaccess

Файл .htaccess описывает правила работы сервера. Он тоже может закрыть роботу возможность индексации страниц. Например, так можно закрыть доступ всем, кроме посетителей с определённым IP:

order allow,deny

deny from all

allow from IP

Обычно файл находится в корневой папке сайта. Найдите его и просмотрите на наличие таких запрещающих указаний.

  • У сайта нет файла sitemap

Файл sitemap.xml показывает поисковым роботам структуру вашего сайта. Если его нет, некоторые страницы робот может просто не найти.

Что такое sitemap и как её создать

  • На сайт наложены штрафы или санкции

Если контент сайта некачественный или вредоносный (например, спам, клоакинг, фишинг, скрытый текст и прочее), поисковики могут применить к нему санкции и закрыть часть страниц или все страницы от индексации.

❗️ Google так и пишет на этот счёт:

«Контент сайтов, в отношении которых вручную принимаются меры, полностью или частично скрывается из результатов поиска Google».

О мерах, принятых вручную — Справка Google

Что Яндекс считает некачественным контентом — Справка Яндекса

  • На сайте цикл перенаправления

Такое бывает, когда одна страница с каноническим тегом ссылается на себя же.

Каноническая страница — основная, наиболее предпочитаемая страница.

Каноническая ссылка (URL) ;— ссылка, которая ведёт на эту страницу

rel=”canonical” — атрибут, который указывается в контейнере тега <link>, чтобы указать поисковому роботу: конкретная страница каноническая, то есть главная.

Если один каноникал ссылается на другой или на страницу с редиректом или вообще каноникалы установлены на сайте неверно, роботу сложно ориентироваться и он может не обработать часть страниц.

Как правильно установить canonical

  • Не все свойства домена добавлены в панели вебмастеров

Для ПС домен вашего сайта с http:// и https:// — это два разных домена. То же самое касается домена с www и без, а также различных зеркал сайта. Другими словами, добавьте все домены в Google Search Console и Яндекс Вебмастер, чтобы всё точно индексировалось.

  • Прошло мало времени или сайт/страница новые

Иногда нужно просто подождать. Роботы не заходят на сайт сразу же, как вы добавили новую информацию.

Как ускорить индексацию сайта

  • Проведите техническую оптимизацию и оптимизацию контента

Оптимизируйте скорость загрузки страниц. Улучшите качество контента, чтобы он соответствовал запросам пользователей и поисковые алгоритмы считали его полезным.

  • Обеспечьте внутреннюю перелинковку

Благодаря перелинковке сайта поисковые роботы могут быстрее находить новый материал и страницы на сайте или новые сайты, если на них ссылаются другие ресурсы.

Поэтому, когда создаёте новый материал, ставьте на него ссылки на более старых страницах сайта.

  • Обеспечьте внешнюю перелинковку

Размещайте ссылки на ваш сайт на других ресурсах: в блогах, соцсетях, на форумах и так далее. Это даст роботам дополнительные сигналы о том, что страницу нужно проиндексировать.

Как получать внешние ссылки на свой сайт

  • Обеспечьте доступность и открытость сайта для поисковых роботов

Проверьте файл robots.txt и тег noindex. Всё это можно посмотреть в «Анализе сайта» в разделе «Индексируемость».

  • Создайте и загрузите sitemap

Карта сайта поможет передать роботам представление о структуре сайта, чтобы они проходили по всем страницам. Sitemap можно создать из структуры сайта с помощью специальных сервисов — например, Топвизора.

Зайдите в «Мои проекты» и перейдите к «Карте сайта». Нажмите «Сгенерировать карту»:

Генерация карты сайта в Топвизоре
Генерация карты сайта в Топвизоре

Цена будет зависеть от размера вашего сайта — количества страниц, которое вы укажете при настройке генерации. Ограничений нет: робот обойдет столько ссылок, сколько укажете. Например, обойти 100 страниц стоит 5 рублей.

Вот что получится:

Карта сайта от Топвизора

Карту можно будет выгрузить в XML‑ или CSV‑формате. Затем её нужно будет загрузить в панели вебмастеров:

Добавление Sitemap в Вебмастере
Добавление Sitemap в Вебмастере
Добавление Sitemap в GSC
Добавление Sitemap в GSC

Что такое Google Search Console: как подключить и настроить

  • Регулярно обновляйте страницы сайта

У ботов есть краулинговый бюджет. Краулинговый бюджет — это лимит на количество страниц сайта, которые поисковые роботы смогут обойти за сутки. То есть лимит на сканирование сайта.

Роботы составляют его сами на основе скорости сканирования и потребности в сканировании. Скорость сканирования зависит от того, насколько быстро роботы получают данные с сайта, для этого мы и советуем поработать с перелинковкой и картой сайта.

А потребность в сканировании зависит от популярности страницы (как часто на неё заходят), темы сайта, количества страниц на нём, важных изменений и частоты обновления контента. Чем чаще обновляете, тем чаще роботы к вам заходят.

Как оптимизировать краулинговый бюджет

  • Отправляйте страницы на переобход

Если нужно дополнительно привлечь внимание к определённой странице, можно воспользоваться «Переобходом страниц» в Вебмастере и «Инструментом проверки URL» в Google. Они работают одинаково: вы загружаете в них нужный URL и со временем робот должен на него прийти.

Что запомнить

1. Индексация — важный процесс, без которого страницы не покажутся пользователю.

2. Индексация бывает первичной и повторной. Первичная индексация — это когда новая страница впервые добавляется в базу поисковика. Повторная индексация означает обновление данных о странице в базе.

3. Чтобы проверить, проиндексирована ли страница, нужно ввести её URL в поиске. Или часть текста с этой страницы — оба способа покажут, есть ли страница в поиске. Ещё увидеть, проиндексирована ли страница, можно с помощью следующего оператора (работает и в Яндексе, и в Google):

site:мойсайт.рф

4. Также индексацию покажут сервисы для вебмастера — Google Search Console и Яндекс Вебмастер. И «Анализ сайта» от Топвизора.

5. Сайт может не индексироваться по разным причинам:

  • сайт закрыт от индексации файлом robots.txt;
  • на странице установлены теги noindex, запрещающие индексацию;
  • индексация запрещена файлом .htaccess;
  • у сайта нет файла sitemap;
  • на сайт наложены штрафы или санкции;
  • на сайте цикл перенаправления;
  • не все свойства домена добавлены в панели вебмастеров;
  • прошло мало времени или сайт/страница новые.

6. Чтобы ускорить индексацию:

  • проведите техническую оптимизацию и аудит контента;
  • обеспечьте внутреннюю и внешнюю перелинковки;
  • обеспечьте доступность и открытость сайта для поисковых роботов;
  • создайте и загрузите sitemap;
  • регулярно обновляйте страницы сайта;
  • отправляйте страницы на переобход.

Ещё про работу поисковых систем 👇

Что такое ЧПУ сайта и как на них перейти

Как работает индексация обратных ссылок в 2023‑м: тест 14 инструментов

Раскрытые алгоритмы Google. Как работает поисковая система согласно слитым документам