Глоссарий 27.01.2023

Что такое сканирование сайта

Сканирование в SEO — это как бы считывание и анализ страницы поисковыми роботами перед тем, как отправить её на индексирование. Давайте разберём процесс с самого начала.

Когда в интернете появляется новая страница, поисковые системы о ней ещё не знают. Её нельзя найти в поиске по запросу. Пользователи могут перейти на неё только по прямой ссылке с другого сайта или с другой страницы этого же сайта.

Страницу можно будет найти только тогда, когда поисковые роботы добавят её в индекс. Но до этого должно произойти следующее:

робот должен найти новую страницу;
робот должен её просканировать и проанализировать контент.

Это можно представить так:

Как происходит сканирование сайта

Краулер находит страницы:

через Google Search Console и Яндекс Вебмастер;
с помощью счётчиков аналитики Яндекс Метрики и Google Analytics;
по ссылкам с уже известных роботу страниц;
через карту сайта Sitemap.

Что сканируют роботы:

контент страницы: заголовки, описания, текст, картинки и видео;
технические параметры и код страницы;
ссылки, которые есть на странице.

Собранную информацию робот обрабатывает, разбирает на удобные для базы данных части, и в итоге получается файл с обработанным содержанием и файл с набором ссылок. В таком виде информация передаётся на индексацию.

Теперь, когда пользователь наберёт в поисковой строке запрос, поисковая система посмотрит в индекс, найдёт подходящие запросу страницы, отсортирует их по релевантности и покажет результат выдачи.

Что запомнить

Сканирование в SEO — это как бы считывание и анализ страницы поисковыми роботами перед тем, как отправить её на индексирование;
Страницу можно будет найти только тогда, когда поисковые роботы добавят её в индекс. Для этого робот должен найти страницу, просканировать её и проанализировать контент;
Краулер находит страницы через Google Search Console и Яндекс Вебмастер или карту сайта Sitemap, с помощью счётчиков аналитики Яндекс Метрики и Google Analytics, по ссылкам с уже известных роботу страниц;
Роботы сканируют контент, технические параметры и код страницы, ссылки, которые есть на ней.