Что такое индексация

Индексация сайта — это процесс добавления сайта в базу поисковой системы, то есть в индекс.

Перед тем как попасть в индекс, страница проходит через этапы сканирования и фильтрации, где поисковая система отсеивает дубликаты страниц, которые уже есть в поиске, спамные некачественные страницы и те, на которых недостаточно контента. И только страницы, прошедшие этот фильтр, попадают в индекс, а оттуда — в результаты поиска.

Составление индекса проходит с помощью поисковых роботов, по-другому — «пауков» или краулеров. Они узнают о новой странице от других, уже проиндексированных, страниц или если SEO‑специалист принудительно отправляет страницу на индексацию с помощью заполнения формы на сервисе поисковой системы. Тогда страницы встают в очередь на индексацию и ждут посещения роботов.

После того как роботы узнали о странице, они проводят сканирование: распознают контент, определяют качество кода: правильность заполнения метаданных и заголовков, верную кодировку, разметку структурированных данных и т. д.

После этого робот уточняет, нет ли препятствий для индексации. Например, ошибок, наложенных санкций или специальных запретов от веб‑мастера. Если нет, страница добавляется в индекс. Если да — не добавляется.

Вот как всё примерно происходит:

  1. Поисковый робот заходит на страницу.

  2. Анализирует информацию на ней.

  3. Смотрит файл robots.txt и узнает, можно ли её индексировать.

  4. Если да, сохраняет информацию о ней в индекс, но при условии, что на странице есть контент и он не нарушает правила поисковых систем.

  5. Поисковая машина определяет, какую позицию и по каким запросам может занимать страница.

  6. Когда пользователь вводит запрос, страница отображается на соответствующем ей месте в списке поисковой выдачи.

Примерная схема индексации
Примерная схема индексации

Как видно из схемы, стандартное индексирование — небыстрый процесс. Но у поисковой системы «Яндекс» есть робот, который может проиндексировать страницу быстро. Он так и называется — «быстроробот». Он предназначен для индексации нового важного контента, чтобы тот максимально быстро появился в индексе.

При индексации быстроробот опирается только на контент страницы. Такие роботы обычно посещают страницы сайтов, которые постоянно добавляют новый контент — хотя бы один раз в сутки. Этот паук индексации добавляет новый материал в индекс за пару часов.

При этом параллельно с быстрой индексацией страница проходит и стандартную индексацию. Поэтому страницы, которые попали в выдачу с помощью быстроробота, могут быть понижены или удалены из индекса в течение нескольких дней.

Зачем нужна индексация

Результаты поиска, которые вы видите, например, в Яндексе или Google, — это проиндексированные страницы. Без индексации страница не может попасть в индекс и участвовать в результатах поиска.

Индексация нужна владельцу сайта для того, чтобы показать сайт в поиске и получить на сайт трафик — посетителей.

Как проверить индексацию страниц

Для этого есть несколько способов.

Через сервисы Яндекс Вебмастер и Google Search Console

В Яндекс Вебмастере проверить индексацию можно в инструменте «Индексирование» → «Проверить статус URL». Введите адрес страницы в поле поиска и нажмите «Проверить». Инструмент покажет, в каком статусе находится страница. Например, страница обходится роботом и находится в поиске.

Проверить статус индексирования страницы в Вебмастере
Проверить статус индексирования страницы в Вебмастере

Кроме того, отчёт о состоянии страниц в поиске можно увидеть в «Индексирование» → «Страницы в поиске». Здесь вы увидите, какие страницы проиндексированы, какие исключены из индекса и дату последнего посещения страницы роботом.

Подробный гайд, как работать с Яндекс Вебмастером

В Google Search Console увидеть сводку об индексации страниц можно на главной странице в разделе «Индексирование».

Отчёт «Индексирование» в GSC
Отчёт «Индексирование» в GSC

Проверить отдельную ссылку можно в инструменте проверки URL в самом верху страницы. Введите адрес страницы, нажмите Enter и дождитесь результатов проверки.

Через строку поиска в Яндексе и Google с помощью специальных операторов

  • site:[адрес страницы]. Оператор site позволяет искать страницу в индексе прямо внутри поисковой строки.

Чтобы воспользоваться оператором, укажите в поисковой строке Яндекса или Google команду со ссылкой на сайт. Не забудьте убрать квадратные скобки. После нажмите Enter. Если страница найдена, она в индексе.

Пример проверки индексации сайта в Google
Пример проверки индексации сайта в Google

Через «Индексацию» в Топвизоре

Автоматизировать процесс можно c помощью инструмента «Индексация» в Топвизоре. Перед проверкой нужно добавить ссылку на карту сайта или загрузить список URL для проверки и нажать «Импорт»:

Добавление адресов на проверку в Топвизоре
Добавление адресов на проверку в Топвизоре

А после этого запустить проверку — инструмент покажет статус индексации всех добавленных URL:

Результат проверки
Результат проверки

Страницы можно отсортировать по изменению статуса в индексе. Первыми покажутся те, которых раньше не было в индексе или которые выпали из него.

Проверку индексации можно настроить по расписанию, тогда Топвизор сам запустит проверку по требованию и, если нужно, пришлёт отчёт на почту.

Настройка расписания проверок
Настройка расписания проверок

Проверить их индексацию можно и с помощью Key Collector. Подробнее — в совете Айрата Рахимзянова.

На что обратить внимание, если страница не попала в индекс:

  1. Когда была создана страница. Новые страницы не всегда попадают в индекс моментально. Иногда требуется время. Чтобы ускорить индексацию, отправьте её на индексацию вручную через Я.Вебмастер и GCS.

  2. Добавлена ли страница в карту сайта. Карта помогает роботам быстро находить новые страницы.

  3. Метатег robots на странице. Проверьте, чтобы в метатеге не было атрибута «content=”noindex”» или «content=”none”». Первый атрибут показывает роботу, что не нужно индексировать страницу. Второй — что запрещено индексировать текст и переходить по ссылкам на странице.

  4. Дубли страниц, битые ссылки, неуникальный контент. Если страница копирует какую‑либо страницу, является малополезной или неуникальной, а также является несуществующей или удалённой страницей, роботы могут убрать ее из индекса.

  5. Перелинковка страниц. Страница может индексироваться быстрее, если ссылка на неё ведёт с уже проиндексированных страниц.

Закрыть страницу от индексации: когда нужно и как сделать

Если нужно специально поставить запрет индексации страниц (например, тех, которые находятся в разработке, PD‑файлов, копий страниц, веб‑страниц для печати, страниц с личными данными пользователей), это можно сделать несколькими способами:

  • через команду Disallow в файле robots.txt. Команда дает рекомендацию роботам, какие страницы сканировать не нужно. Подробнее: Как закрыть сайт от индексации в robots.txt;

  • через noindex в метатеге robots. В блоке <head> страницы указывается метатег robots c атрибутом «content=”noindex”»;

  • через HTTP‑заголовок X‑Robots‑Tag со значением noindex или none;

  • через атрибут rel="canonical". Атрибут применяется в тех случаях, когда на сайте имеются страницы с одинаковым или очень похожим контентом. Чтобы роботы не расценивали такие страницы как дубли, необходимо разместить на них ссылку на предпочтительную для индексации каноническую страницу;

  • через файл .htaccess. Файл скачивается на компьютер из корневой папки сайта, открывается в любом текстовом редакторе, и в нем вручную прописывается запрет на индексирование.

Что запомнить

  • Индексация сайта — это процесс добавления сайта в базу поисковой системы, то есть в индекс;
  • Страница проходит через этапы сканирования и фильтрации. Поисковая система отсеивает дубликаты страниц, которые уже есть в поиске, спамные некачественные страницы и те, на которых недостаточно контента;
  • Составление индекса проходит с помощью поисковых роботов («пауки», краулеры);
  • Индексация нужна владельцу сайта для того, чтобы показать сайт в поиске и получить на сайт трафик — посетителей;
  • Проверить индексацию можно через Яндекс Вебмастер, «Индексацию» в Топвизоре, строку поиска в Яндексе и Google с помощью специальных операторов, Key Collector;
  • Если страница не попала в индекс, стоит обратить внимание на дату создания, карту сайта, метатег robots, дубли страниц, неуникальный контент или битые ссылки, перелинковку страниц;
  • Закрыть страницу от индексации можно через команду Disallow, noindex в метатеге robots, через HTTP‑заголовок X‑Robots‑Tag со значением noindex или none, через атрибут rel="canonical" или файл .htaccess.