Что такое индексация
Индексация сайта — это процесс добавления сайта в базу поисковой системы, то есть в индекс.
Перед тем как попасть в индекс, страница проходит через этапы сканирования и фильтрации, где поисковая система отсеивает дубликаты страниц, которые уже есть в поиске, спамные некачественные страницы и те, на которых недостаточно контента. И только страницы, прошедшие этот фильтр, попадают в индекс, а оттуда — в результаты поиска.
Составление индекса проходит с помощью поисковых роботов, по-другому — «пауков» или краулеров. Они узнают о новой странице от других, уже проиндексированных, страниц или если SEO‑специалист принудительно отправляет страницу на индексацию с помощью заполнения формы на сервисе поисковой системы. Тогда страницы встают в очередь на индексацию и ждут посещения роботов.
После того как роботы узнали о странице, они проводят сканирование: распознают контент, определяют качество кода: правильность заполнения метаданных и заголовков, верную кодировку, разметку структурированных данных и т. д.
После этого робот уточняет, нет ли препятствий для индексации. Например, ошибок, наложенных санкций или специальных запретов от веб‑мастера. Если нет, страница добавляется в индекс. Если да — не добавляется.
Вот как всё примерно происходит:
-
Поисковый робот заходит на страницу.
-
Анализирует информацию на ней.
-
Смотрит файл robots.txt и узнает, можно ли её индексировать.
-
Если да, сохраняет информацию о ней в индекс, но при условии, что на странице есть контент и он не нарушает правила поисковых систем.
-
Поисковая машина определяет, какую позицию и по каким запросам может занимать страница.
-
Когда пользователь вводит запрос, страница отображается на соответствующем ей месте в списке поисковой выдачи.
Как видно из схемы, стандартное индексирование — небыстрый процесс. Но у поисковой системы «Яндекс» есть робот, который может проиндексировать страницу быстро. Он так и называется — «быстроробот». Он предназначен для индексации нового важного контента, чтобы тот максимально быстро появился в индексе.
При индексации быстроробот опирается только на контент страницы. Такие роботы обычно посещают страницы сайтов, которые постоянно добавляют новый контент — хотя бы один раз в сутки. Этот паук индексации добавляет новый материал в индекс за пару часов.
При этом параллельно с быстрой индексацией страница проходит и стандартную индексацию. Поэтому страницы, которые попали в выдачу с помощью быстроробота, могут быть понижены или удалены из индекса в течение нескольких дней.
Зачем нужна индексация
Результаты поиска, которые вы видите, например, в Яндексе или Google, — это проиндексированные страницы. Без индексации страница не может попасть в индекс и участвовать в результатах поиска.
Индексация нужна владельцу сайта для того, чтобы показать сайт в поиске и получить на сайт трафик — посетителей.
Как проверить индексацию страниц
Для этого есть несколько способов.
Через сервисы Яндекс Вебмастер и Google Search Console
В Яндекс Вебмастере проверить индексацию можно в инструменте «Индексирование» → «Проверить статус URL». Введите адрес страницы в поле поиска и нажмите «Проверить». Инструмент покажет, в каком статусе находится страница. Например, страница обходится роботом и находится в поиске.
Кроме того, отчёт о состоянии страниц в поиске можно увидеть в «Индексирование» → «Страницы в поиске». Здесь вы увидите, какие страницы проиндексированы, какие исключены из индекса и дату последнего посещения страницы роботом.
Подробный гайд, как работать с Яндекс Вебмастером
В Google Search Console увидеть сводку об индексации страниц можно на главной странице в разделе «Индексирование».
Проверить отдельную ссылку можно в инструменте проверки URL в самом верху страницы. Введите адрес страницы, нажмите Enter и дождитесь результатов проверки.
Через строку поиска в Яндексе и Google с помощью специальных операторов
-
site:[адрес страницы]. Оператор site позволяет искать страницу в индексе прямо внутри поисковой строки.
Чтобы воспользоваться оператором, укажите в поисковой строке Яндекса или Google команду со ссылкой на сайт. Не забудьте убрать квадратные скобки. После нажмите Enter. Если страница найдена, она в индексе.
Через «Индексацию» в Топвизоре
Автоматизировать процесс можно c помощью инструмента «Индексация» в Топвизоре. Перед проверкой нужно добавить ссылку на карту сайта или загрузить список URL для проверки и нажать «Импорт»:
А после этого запустить проверку — инструмент покажет статус индексации всех добавленных URL:
Страницы можно отсортировать по изменению статуса в индексе. Первыми покажутся те, которых раньше не было в индексе или которые выпали из него.
Проверку индексации можно настроить по расписанию, тогда Топвизор сам запустит проверку по требованию и, если нужно, пришлёт отчёт на почту.
Проверить их индексацию можно и с помощью Key Collector. Подробнее — в совете Айрата Рахимзянова.
На что обратить внимание, если страница не попала в индекс:
-
Когда была создана страница. Новые страницы не всегда попадают в индекс моментально. Иногда требуется время. Чтобы ускорить индексацию, отправьте её на индексацию вручную через Я.Вебмастер и GCS.
-
Добавлена ли страница в карту сайта. Карта помогает роботам быстро находить новые страницы.
-
Метатег robots на странице. Проверьте, чтобы в метатеге не было атрибута «content=”noindex”» или «content=”none”». Первый атрибут показывает роботу, что не нужно индексировать страницу. Второй — что запрещено индексировать текст и переходить по ссылкам на странице.
-
Дубли страниц, битые ссылки, неуникальный контент. Если страница копирует какую‑либо страницу, является малополезной или неуникальной, а также является несуществующей или удалённой страницей, роботы могут убрать ее из индекса.
-
Перелинковка страниц. Страница может индексироваться быстрее, если ссылка на неё ведёт с уже проиндексированных страниц.
Закрыть страницу от индексации: когда нужно и как сделать
Если нужно специально поставить запрет индексации страниц (например, тех, которые находятся в разработке, PD‑файлов, копий страниц, веб‑страниц для печати, страниц с личными данными пользователей), это можно сделать несколькими способами:
-
через команду Disallow в файле robots.txt. Команда дает рекомендацию роботам, какие страницы сканировать не нужно. Подробнее: Как закрыть сайт от индексации в robots.txt;
-
через noindex в метатеге robots. В блоке <head> страницы указывается метатег robots c атрибутом «content=”noindex”»;
-
через HTTP‑заголовок X‑Robots‑Tag со значением noindex или none;
-
через атрибут rel="canonical". Атрибут применяется в тех случаях, когда на сайте имеются страницы с одинаковым или очень похожим контентом. Чтобы роботы не расценивали такие страницы как дубли, необходимо разместить на них ссылку на предпочтительную для индексации каноническую страницу;
-
через файл .htaccess. Файл скачивается на компьютер из корневой папки сайта, открывается в любом текстовом редакторе, и в нем вручную прописывается запрет на индексирование.
Что запомнить
- Индексация сайта — это процесс добавления сайта в базу поисковой системы, то есть в индекс;
- Страница проходит через этапы сканирования и фильтрации. Поисковая система отсеивает дубликаты страниц, которые уже есть в поиске, спамные некачественные страницы и те, на которых недостаточно контента;
- Составление индекса проходит с помощью поисковых роботов («пауки», краулеры);
- Индексация нужна владельцу сайта для того, чтобы показать сайт в поиске и получить на сайт трафик — посетителей;
- Проверить индексацию можно через Яндекс Вебмастер, «Индексацию» в Топвизоре, строку поиска в Яндексе и Google с помощью специальных операторов, Key Collector;
- Если страница не попала в индекс, стоит обратить внимание на дату создания, карту сайта, метатег robots, дубли страниц, неуникальный контент или битые ссылки, перелинковку страниц;
- Закрыть страницу от индексации можно через команду Disallow, noindex в метатеге robots, через HTTP‑заголовок X‑Robots‑Tag со значением noindex или none, через атрибут rel="canonical" или файл .htaccess.