Как проверить индексацию сайта
Чтобы пользователь увидел страницу сайта в выдаче, сначала она должна быть проиндексирована поисковыми роботами. Как проверить индексацию, как её ускорить и что делать, если сайт не индексируется — в нашей статье.
Что такое индексация страниц сайта
Индексация страниц сайта — это процесс добавления страниц сайта в базу данных поисковых систем — Google, Яндекса и других.
Когда пользователь вводит поисковый запрос, поисковик анализирует эту базу данных и выдаёт наиболее релевантные запросу страницы. То есть чтобы страница сайта попала в результаты поиска, она должна быть проиндексирована.
Процесс индексации начинается с того, что поисковые роботы сканируют все страницы вашего сайта. Они анализируют содержание каждой страницы, включая текст, изображения, видео и другие элементы. Затем информация о странице сохраняется в базе данных поисковой системы, а сама страница индексируется.
Индексация бывает первичной и повторной. Первичная индексация — это когда новая страница впервые добавляется в базу поисковика. Повторная индексация означает обновление данных о странице в базе.
❗️ Ещё подробнее об индексе и его работе в наших материалах:
Как проверить индексацию сайта
Есть несколько способов проверить индексацию сайта. Во‑первых, ввести URL конкретной страницы в поисковый запрос Google‑ или Яндекс‑поиска — так мы сможем увидеть, добавлена ли в индекс конкретная страница.
Ещё есть возможность проверить индексацию, введя часть текста страницы в поисковый запрос:
Также функция проверки индексации есть и в каждой поисковой системе. Об этом поговорим подробнее.
Чтобы проверить, проиндексирован ли сайт в Google, нужно воспользоваться оператором site:
site:мойсайт.рф
В результатах поиска будут показаны все страницы сайта, которые есть в базе Google.
Полный список поисковых операторов Google
Можно воспользоваться сервисом Google Search Console. В нём отображается более подробная информация об индексации. Откройте сервис, затем «Индексирование» — «Страницы». Будет показано, сколько страниц проиндексировано, а сколько нет.
Ниже будет информация о том, почему страницы не индексируются — подробнее о причинах читайте ниже в разделе «Почему страница не индексируется».
Как пользоваться отчётом об индексировании в Google Search Console
Яндекс
В Яндексе проверить индексацию можно такой же командой:
site:мойсайт.рф
Или воспользоваться Яндекс Вебмастером. Открываем «Индексирование» — «Статистика обхода». Здесь увидим то, как часто робот Яндекса обходит страницы сайта для добавления их в индекс.
А в отчёте «Страницы в поиске» увидим, какие страницы находятся в индексе, а с какими есть проблемы:
У каждой страницы будет отображён статус в столбце «Статус». Что значит каждый из них и как исправить ошибки, читайте в Яндекс Справке.
Что такое Яндекс Вебмастер и как им пользоваться
❗️ Ещё индексацию можно проверить в «Анализе сайта» Топвизора.
Загрузите URL для проверки и запустите «Анализ сайта». Когда проверка закончится, откройте «Сводку» — там будет информация об индексируемости. Можно посмотреть, сколько страниц заблокировано, сколько, наоборот, присутствует в индексе, какие запрещены к индексации директивами robots.txt и так далее:
А в разделе «Индексируемость» можно посмотреть данные по конкретным URL детально:
Сервис покажет:
-
разрешена ли страница для индексации файлом robots.txt;
-
есть ли она в sitemap.xml;
-
есть ли со страницы редирект;
-
код ответа страницы.
Почему страница не индексируется
Есть несколько причин, по которым страница может не индексироваться:
-
Сайт закрыт от индексации файлом robots.txt
В robots.txt можно запретить индексацию сайта роботам разных поисковых систем. Например, мы указываем, что всем роботам (значок *) запрещена индексация всего сайта (директива disallow указывает на запрет, знак / — на весь сайт).
User‑Agent: * Disallow: /
-
На странице установлены теги noindex, запрещающие индексацию
Ещё закрытие страницы от индексации можно прописать прямо в её коде. Вот как он может выглядеть:
<meta name=“robots” content=“noindex”>
Тег noindex указывает ПС на то, что страницу не нужно индексировать. Бывает, что этот тег ставится для страниц в разработке, а потом его забывают убрать, поэтому страница и не попадает в индекс.
-
Индексация запрещена файлом .htaccess
Файл .htaccess описывает правила работы сервера. Он тоже может закрыть роботу возможность индексации страниц. Например, так можно закрыть доступ всем, кроме посетителей с определённым IP:
order allow,deny deny from all allow from IP
Обычно файл находится в корневой папке сайта. Найдите его и просмотрите на наличие таких запрещающих указаний.
-
У сайта нет файла sitemap
Файл sitemap.xml показывает поисковым роботам структуру вашего сайта. Если его нет, некоторые страницы робот может просто не найти.
Что такое sitemap и как её создать
-
На сайт наложены штрафы или санкции
Если контент сайта некачественный или вредоносный (например, спам, клоакинг, фишинг, скрытый текст и прочее), поисковики могут применить к нему санкции и закрыть часть страниц или все страницы от индексации.
«Контент сайтов, в отношении которых вручную принимаются меры, полностью или частично скрывается из результатов поиска Google».
О мерах, принятых вручную — Справка Google
Что Яндекс считает некачественным контентом — Справка Яндекса
-
На сайте цикл перенаправления
Такое бывает, когда одна страница с каноническим тегом ссылается на себя же.
Каноническая страница — основная, наиболее предпочитаемая страница.
Каноническая ссылка (URL) ;— ссылка, которая ведёт на эту страницу
rel=”canonical” — атрибут, который указывается в контейнере тега <link>, чтобы указать поисковому роботу: конкретная страница каноническая, то есть главная.
Если один каноникал ссылается на другой или на страницу с редиректом или вообще каноникалы установлены на сайте неверно, роботу сложно ориентироваться и он может не обработать часть страниц.
Как правильно установить canonical
-
Не все свойства домена добавлены в панели вебмастеров
Для ПС домен вашего сайта с http:// и https:// — это два разных домена. То же самое касается домена с www и без, а также различных зеркал сайта. Другими словами, добавьте все домены в Google Search Console и Яндекс Вебмастер, чтобы всё точно индексировалось.
-
Прошло мало времени или сайт/страница новые
Иногда нужно просто подождать. Роботы не заходят на сайт сразу же, как вы добавили новую информацию.
Как ускорить индексацию сайта
-
Проведите техническую оптимизацию и оптимизацию контента
Оптимизируйте скорость загрузки страниц. Улучшите качество контента, чтобы он соответствовал запросам пользователей и поисковые алгоритмы считали его полезным.
-
Обеспечьте внутреннюю перелинковку
Благодаря перелинковке сайта поисковые роботы могут быстрее находить новый материал и страницы на сайте или новые сайты, если на них ссылаются другие ресурсы.
Поэтому, когда создаёте новый материал, ставьте на него ссылки на более старых страницах сайта.
-
Обеспечьте внешнюю перелинковку
Размещайте ссылки на ваш сайт на других ресурсах: в блогах, соцсетях, на форумах и так далее. Это даст роботам дополнительные сигналы о том, что страницу нужно проиндексировать.
Как получать внешние ссылки на свой сайт
-
Обеспечьте доступность и открытость сайта для поисковых роботов
Проверьте файл robots.txt и тег noindex. Всё это можно посмотреть в «Анализе сайта» в разделе «Индексируемость».
-
Создайте и загрузите sitemap
Карта сайта поможет передать роботам представление о структуре сайта, чтобы они проходили по всем страницам. Sitemap можно создать из структуры сайта с помощью специальных сервисов — например, Топвизора.
Зайдите в «Мои проекты» и перейдите к «Карте сайта». Нажмите «Сгенерировать карту»:
Цена будет зависеть от размера вашего сайта — количества страниц, которое вы укажете при настройке генерации. Ограничений нет: робот обойдет столько ссылок, сколько укажете. Например, обойти 100 страниц стоит 5 рублей.
Вот что получится:
Карту можно будет выгрузить в XML‑ или CSV‑формате. Затем её нужно будет загрузить в панели вебмастеров:
Что такое Google Search Console: как подключить и настроить
-
Регулярно обновляйте страницы сайта
У ботов есть краулинговый бюджет. Краулинговый бюджет — это лимит на количество страниц сайта, которые поисковые роботы смогут обойти за сутки. То есть лимит на сканирование сайта.
Роботы составляют его сами на основе скорости сканирования и потребности в сканировании. Скорость сканирования зависит от того, насколько быстро роботы получают данные с сайта, для этого мы и советуем поработать с перелинковкой и картой сайта.
А потребность в сканировании зависит от популярности страницы (как часто на неё заходят), темы сайта, количества страниц на нём, важных изменений и частоты обновления контента. Чем чаще обновляете, тем чаще роботы к вам заходят.
Как оптимизировать краулинговый бюджет
-
Отправляйте страницы на переобход
Если нужно дополнительно привлечь внимание к определённой странице, можно воспользоваться «Переобходом страниц» в Вебмастере и «Инструментом проверки URL» в Google. Они работают одинаково: вы загружаете в них нужный URL и со временем робот должен на него прийти.
Что запомнить
1. Индексация — важный процесс, без которого страницы не покажутся пользователю.
2. Индексация бывает первичной и повторной. Первичная индексация — это когда новая страница впервые добавляется в базу поисковика. Повторная индексация означает обновление данных о странице в базе.
3. Чтобы проверить, проиндексирована ли страница, нужно ввести её URL в поиске. Или часть текста с этой страницы — оба способа покажут, есть ли страница в поиске. Ещё увидеть, проиндексирована ли страница, можно с помощью следующего оператора (работает и в Яндексе, и в Google):
site:мойсайт.рф
4. Также индексацию покажут сервисы для вебмастера — Google Search Console и Яндекс Вебмастер. И «Анализ сайта» от Топвизора.
5. Сайт может не индексироваться по разным причинам:
- сайт закрыт от индексации файлом robots.txt;
- на странице установлены теги noindex, запрещающие индексацию;
- индексация запрещена файлом .htaccess;
- у сайта нет файла sitemap;
- на сайт наложены штрафы или санкции;
- на сайте цикл перенаправления;
- не все свойства домена добавлены в панели вебмастеров;
- прошло мало времени или сайт/страница новые.
6. Чтобы ускорить индексацию:
- проведите техническую оптимизацию и аудит контента;
- обеспечьте внутреннюю и внешнюю перелинковки;
- обеспечьте доступность и открытость сайта для поисковых роботов;
- создайте и загрузите sitemap;
- регулярно обновляйте страницы сайта;
- отправляйте страницы на переобход.
Ещё про работу поисковых систем 👇
Что такое ЧПУ сайта и как на них перейти
Как работает индексация обратных ссылок в 2023‑м: тест 14 инструментов
Раскрытые алгоритмы Google. Как работает поисковая система согласно слитым документам