Индексация Google: анализ данных о 16 миллионах страниц
Процесс индексации Google всегда был ключевым фактором для повышения видимости сайта в интернете. Однако из-за стремительного роста контента, создаваемого с помощью ИИ, и усилий Google по поддержанию качества индексация стала более непредсказуемой, чем когда-либо. В этой статье — исследование того, как работает индексация в Google.
Многие владельцы сайтов задаются вопросом: «Видят ли мой контент?» — от случайных сбоев в индексации до недавнего всплеска деиндексации в марте.
IndexCheckr следит за статусом индексации миллионов страниц, позволяя пользователям контролировать, какие URL‑адреса Google включает в результаты поиска. Компания проанализировала данные о 16 миллионах страниц, чтобы выявить ключевые статистические показатели, касающиеся того, как часто страницы и ссылки индексируются, деиндексируются или остаются незамеченными.
Глава 1. Текущее состояние индексации
После анализа 16 миллионов страниц было обнаружено следующее распределение индексации:
-
Домен не проиндексирован: к этой категории относятся 143 068 страниц (0,98%), что означает, что весь их домен не был включён в индекс. Эта критическая проблема часто связана с наложенными санкциями или серьёзными нарушениями качества, которые вынудили Google исключить весь домен из поисковой выдачи.
-
Страница не проиндексирована: в этом статусе находятся 9 036 446 страниц (61,94%), когда домен проиндексирован, но конкретные страницы не появляются в результатах поиска. Это свидетельствует о том, что большинство страниц не соответствуют стандартам Google для включения в индекс.
-
Страница проиндексирована: 5 409 096 страниц (37,08%) достигли полной индексации, что означает, что они доступны для пользователей в поисковой выдаче.
Такое распределение указывает на серьёзные проблемы, с которыми сталкиваются владельцы сайтов. Хотя более трети страниц успешно проиндексированы (статус 2), подавляющее большинство либо не отображаются (статус 1), либо полностью исключены из‑за проблем на уровне домена (статус 0).
Эти данные отражают суровую реальность: большинство контента, публикуемого в интернете, не соответствует всё более строгим стандартам Google, особенно сейчас.
В недавнее время Google выпустил несколько ключевых обновлений, которые подняли планку индексации и удалили низкокачественный, бесполезный и неоригинальный контент (включая контент, созданный искусственным интеллектом) из поисковой выдачи. По данным Google, в результате проделанной работы к концу 2023 года в результатах поиска было очищено 45% контента.
Поскольку Google становится всё более строгим в отношении контента, который не несёт никакой ценности или создан искусственным интеллектом, для многих владельцев сайтов и SEO‑специалистов становится всё более важным вопрос о том, как обеспечить индексацию страниц.
Как создать ИИ‑контент, ориентированный на E‑E‑A‑T
В следующей главе мы подробно рассмотрим, как изменяется статус индексации с течением времени, и попытаемся выявить основные закономерности, которые объясняют, как страницы переходят из забвения в состояние видимости или снова исчезают из поля зрения.
Глава 2. Тенденции индексирования в последние годы
За последние годы подход Google к индексированию претерпел значительные изменения.
Проанализировав уровень индексации страниц с 2021 по 2025 год, можно увидеть, как изменилось соотношение проиндексированных и непроиндексированных страниц.
Подробная статистика
Год |
Домен не проиндексирован |
Страница не проиндексирована |
Страница проиндексирована |
2021 |
834 |
30 168 |
21 534 |
2022 |
36 828 |
825 514 |
356 269 |
2023 |
35 705 |
5 621 244 |
2 753 473 |
2024 |
66 193 |
2 464 277 |
2 138 912 |
2025 |
5645 |
142 117 |
356 269 |
❗ Примечание
Выборка за 2021 год может быть слишком мала для точного анализа в этом году.
Анализ
2022 год стал годом, когда мир перевернулся с ног на голову после выхода ChatGPT. Это событие вызвало появление огромного количества контента, созданного с помощью искусственного интеллекта.
Вполне вероятно, что этот всплеск низкокачественного и массового контента стал причиной резкого увеличения количества непроиндексированных страниц и доменов в 2022 и 2023 годах.
После Core Update в мае 2022 года появились предположения, что Google сосредоточился на контенте, созданном с помощью искусственного интеллекта.
Более того, в декабре 2022 года и сентябре 2023 года Google выпустил два Helpful Content Update, которые были направлены на то, чтобы сделать акцент на создании качественного, надежного и созданного людьми контента. Это означает, что в приоритете находятся полезность и ценность для читателей через контент, а не просто передача уже известной информации, как это делает генеративный ИИ.
Возможно, наиболее важным стало Reviews Update, выпущенное в апреле 2023 года, в котором Google сделал акцент на критериях E‑E‑A‑T. Это означает, что контент, который не может продемонстрировать реальный жизненный опыт, получает меньший приоритет и даже может быть исключён из поисковой системы Google.
В 2024 и 2025 годах замечено относительное увеличение количества проиндексированных страниц, что можно объяснить несколькими причинами.
Во‑первых, увеличение скорости индексации Google может говорить о том, что поисковая система стремится наверстать упущенное после предыдущих проблем с индексацией.
Во‑вторых, во время сентябрьского HCU 2023 года Google, похоже, смягчил свою позицию в отношении ИИ‑контента. Ранее было заявлено, что HCU был создан для того, чтобы «люди видели оригинальный, полезный контент, написанный людьми для людей». Теперь же Google признаёт тот факт, что количество материалов, созданных искусственным интеллектом, неустанно растёт, при условии, что они не используются для манипулирования ранжированием и не нарушают рекомендации Google по борьбе со спамом.
В‑третьих, SEO‑специалисты и владельцы сайтов — мудрые люди. Они постоянно адаптируются к постоянно меняющейся системе индексации и ранжирования Google, и, само собой, они уловили суть и в период 2024–2025 годов создавали более ценный и интересный контент.
Глава 3. Время индексирования
В этой главе мы исследуем, насколько быстро Google добавляет только что опубликованные страницы в свой индекс.
❗Примечание
Важно отметить, что анализируемые страницы могли быть размещены или видны Google дольше, чем указано в данных. Измеренное время отражает лишь период, прошедший с момента их отслеживания в IndexCheckr.
Основные выводы
Страницы индексируются в среднем за 27,4 дня:
-
Быстрая индексация (0–7 дней): 14,00% страниц были проиндексированы в течение первой недели.
-
Один месяц: 64,86% страниц были проиндексированы в течение первых 30 дней.
-
Три месяца: 76,81% страниц были проиндексированы в течение первых трех месяцев.
Подробная статистика
Срок индексации |
Проиндексированные страницы |
Процент страниц |
Общее число страниц |
Процент от общего числа |
0–7 |
43 518 |
14,00% |
43 518 |
14,00% |
8–30 |
157 997 |
50,86% |
201 515 |
64,86% |
31–90 |
37 127 |
11,95% |
238 642 |
76,81% |
91+ |
25 797 |
8,31% |
264 439 |
85,12% |
Анализ
Эти данные говорят о том, что скорость индексации может сильно различаться. Некоторые страницы попадают в индекс уже в первую неделю, в то время как другим требуется намного больше времени.
Только после третьего месяца в поисковой системе Google индексируется 85,12% страниц. Анализ показал, что в течение первых шести месяцев Google проиндексирует 93,2% страниц, а оставшиеся 6,8% — после 180‑го дня.
Согласно руководству Google по сканированию, разница в скорости индексации страниц может быть объяснена двумя факторами:
-
Спрос на сканирование. Этот параметр включает в себя размер сайта, его популярность, частоту обновлений, качество страниц и релевантность.
-
Предельная пропускная способность. А этот параметр отражает время отклика сайта на запросы сервера и приоритет Google.
Эти два фактора являются основными, определяющими бюджет сканирования, то есть время и ресурсы, выделяемые Google для сканирования сайта.
Как оптимизировать краулинговый бюджет
Краулинговый бюджет и скорость индексации имеют положительную корреляцию, что означает, что увеличение бюджета обычно приводит к более быстрому и частому индексированию. Однако на то, будет ли страница проиндексирована и когда, влияют и другие факторы.
Страницы, которые были проиндексированы в течение первых семи дней (14%), вероятно, принадлежали авторитетным и хорошо зарекомендовавшим себя сайтам. К ним относятся известные отраслевые издания и новостные ресурсы, которые регулярно публикуют новый контент.
Большая часть страниц (50,86%) была проиндексирована в период от 8 до 30 дней. Это связано со стандартным циклом сканирования Google, который охватывает большинство страниц в этот период.
Страницы, проиндексированные ближе к концу этого 30‑дневного срока, испытывали некоторые задержки. Это произошло, чтобы Google мог оценить качество и релевантность контента, особенно учитывая растущее количество материалов, созданных искусственным интеллектом.
Страницы, которые индексируются с 31 по 90 дней (11,95%), имеют более низкий приоритет. К ним относятся ресурсы с меньшим количеством факторов ранжирования, таких как низкокачественные обратные ссылки, сложная архитектура сайта и низкий уровень общей вовлёченности пользователей.
Часто такие страницы сталкиваются с алгоритмическими колебаниями, когда Google может задержать индексацию, если обнаружит дублированный или низкокачественный контент.
Наконец, задержка индексации на 91 день и более (14,88%) наблюдается на страницах сайтов с низким приоритетом сканирования и качеством контента, а также с дублирующимися материалами. Даже если эти страницы будут опубликованы в Google, они вряд ли покажут хорошие результаты в поисковой выдаче.
Как провести анализ контента сайта
Глава 4. Время деиндексирования
Деиндексация — это ключевой процесс, который напрямую влияет на видимость страниц вашего сайта в Google. Авторы исследования провели тщательный анализ 310 705 уникальных страниц, чтобы понять, как быстро они теряют свой статус после того, как были отмечены в IndexCheckr.
❗ Примечание
Эти страницы могли оставаться проиндексированными дольше, чем зафиксировано в исследовании. Измеренное время отражает лишь период с момента отслеживания страниц в IndexCheckr до их фактической деиндексации.
Основные выводы
21,29% страниц были деиндексированы:
-
Быстрая деиндексация (0–7 дней): 1,97% страниц были удалены из индекса в течение первой недели.
-
Один месяц: 7,97% страниц потеряли свой статус в течение первых 30 дней.
-
Три месяца: 13,70% страниц были удалены в течение первых трёх месяцев.
Подробная статистика
Срок деиндексации |
Деиндексированные страницы |
Процент страниц |
Общее число страниц |
Процент от общего числа |
0–7 |
6120 |
1,97% |
6120 |
1,97% |
8–30 |
18 638 |
6,00% |
24 758 |
7,97% |
31–90 |
17 804 |
5,73% |
42 562 |
13,70% |
91+ |
23 577 |
7,59% |
66 139 |
21,29% |
Анализ
Результаты исследования показывают, что процесс удаления страницы из индекса Google может занять различное время. Основная часть деиндексации приходится на первые 90 дней, что составляет 13,70% от общего количества страниц. После этого периода деиндексация замедляется, и лишь оставшиеся 7,59% страниц теряют статус проиндексированных после 90‑го дня.
В общей сложности 21,29% страниц в исследуемом наборе данных были деиндексированы, в то время как остальные 78,71% остались в индексе Google.
Этот график наглядно демонстрирует важность своевременного мониторинга и оптимизации. Он позаоляет избежать потенциальных проблем, которые могут привести к деиндексации.
Хотя по истечении трёх месяцев риск деиндексации снижается, он всё же остается. Это говорит о необходимости долгосрочного отслеживания статуса индексации, постоянного информирования об обновлениях алгоритмов Google и проведения периодических аудитов, что поможет вам обеспечить стабильную видимость контента.
⚙️ Находите ошибки на вашем сайте с помощью Топвизора
Инструмент Аудит сайта поможет выявить технические проблемы, которые мешают индексации и ранжированию вашего сайта. Анализатор не только соберёт технические данные, но и подскажет, как исправить ошибки и предупреждения
Глава 5. Эффективность инструментов для индексирования
Для тех страниц, которые по‑прежнему не индексируются в Google, отправка их в соответствующие инструменты может стать эффективным способом улучшить их видимость.
Чтобы оценить результативность такого подхода, проанализировали процент успешных отправок на индексацию из 33 930 страниц.
Основные выводы
-
Индексировано после подачи заявки: 9965 страниц (29,37%) успешно перешли в статус проиндексированных после отправки заявки.
-
Не проиндексировано: 23 965 страниц (70,63%) остались непроиндексированными даже после подачи заявки.
Анализ
Этот отчёт демонстрирует, что инструменты индексации Google помогли проиндексировать 9965 (29,37%) ранее не проиндексированных страниц. Однако, к сожалению, значительная часть страниц — 23 965 (70,63%) — осталась непроиндексированной даже после отправки заявки.
Возникает очевидный вопрос: почему одни страницы индексируются, а другие — нет?
Ответ кроется в двух основных причинах:
-
Процесс, используемый инструментами индексирования (второстепенная причина).
-
Политика Google в области индексации (основная причина).
Мы мало знаем о том, как происходит индексация в Google. Однако стоит обратить внимание на 2 вещи:
-
Использование API для индексации от Google. Оно подразумевает обращение к поисковой системе с целью привлечь её внимание к вашей странице и, в случае успеха, проиндексировать её.
Очевидно, что этот процесс не всегда эффективен, поскольку даже если вам удастся привлечь внимание Google, поисковая система всё равно будет анализировать факторы ранжирования страницы, прежде чем проиндексировать её.
Что является фактором ранжирования, а что нет — в книге Search Engine Journal, которую перевёл Топвизор.
-
Правда ли, что первая ссылка на странице имеет больший вес для Google?
-
Влияет ли на ранжирование то, за сколько кликов с главной страницы можно добраться до посадочной?
-
Насколько важны локальные ссылки?
-
Нужно ли учитывать при оптимизации показатель отказов?
Всё это разобрано в книге Google Ranking Factors 2023.
Чтобы получить книгу:
-
Перейдите в @TopvisorBot и запустите бота.
-
Нажмите на «Меню» в левом нижнем углу.
-
Выберите 📚«Открыть библиотеку».
Внутри вы найдёте не только эту книгу, но и кучу других полезных материалов для SEO 🤫
-
Создание временных обратных ссылок на целевую страницу. Обратные ссылки — это один из самых мощных факторов, влияющих на ранжирование, поскольку Google воспринимает их как подтверждение из внешних источников. Кроме того, обратные ссылки служат своеобразными точками обнаружения для поисковой системы.
Большое количество обратных ссылок повышает воспринимаемую ценность страницы в глазах Google, побуждая краулер с большей вероятностью проиндексировать её. Часто это приводит к желаемому результату, но после удаления обратных ссылок страница может быть исключена из индекса.
❗ Несмотря на то, что инструменты для ускорения индексации могут быть полезны, политика выборочной индексации Google всегда остаётся в приоритете. Поисковая система не будет индексировать каждую страницу, особенно если её релевантность и качество контента не соответствуют стандартам Google.
Это объясняет, почему почти три четверти страниц не были проиндексированы.
В последнее время Google стал более избирательным в процессе индексации, чтобы гарантировать высокое качество результатов поиска. Это связано с улучшением алгоритмов и обновлением полезного контента.
Можно с уверенностью утверждать, что инструменты для отправки на индексацию могут ускорить процесс индексации качественных страниц. Однако они не могут гарантировать, что абсолютно все страницы будут проиндексированы.
Ещё про работу Google и индексацию
Всё об алгоритме Google: как думает поисковая система
Раскрытые алгоритмы Google. Как работает поисковая система согласно слитым документам