Директивы помогают управлять индексацией сайта. С помощью них можно указать, что за страницы и файлы сайта должны присутствовать в поисковой выдаче, а какие, наоборот, не нужно сканировать.
Чтобы посмотреть файл, достаточно добавить /robots.txt к доменному имени (например, topvisor.com/robots.txt).
Как работает robots.txt для сайта
На сайте должен быть только один текстовый файл с названием /robots.txt, без пробелов и лишних символов. Его нужно разместить в корневом каталоге (главной папке веб‑ресурса).
Максимальный размер файла robots.txt — 500 КБ. Такое требование распространяется на обе основные поисковые системы — Google и Яндекс. Если превысить лимит, то это может привести к частичной или полной остановке обработки правил поисковыми роботами.
Файл robots.txt для сайта работает так:
-
Поисковой робот перед началом сканирования сайта отправляет запрос.
-
Если файл найден, робот анализирует его содержимое, извлекая директивы.
-
Робот следует указанным правилам: запрещённые директивой Disallow страницы и разделы не сканируются; разрешённые (Allow) — анализируются.
-
Если файл robots.txt отсутствует или пуст, поисковые роботы по умолчанию сканируют весь сайт, на который могут перейти по ссылкам.
Роботы могут игнорировать директивы robots.txt — это рекомендательный, а не обязательный стандарт. Хотя обычно Яндекс и Google соблюдают их.
Основные директивы robots.txt
Директивы robots.txt — это специальные правила и команды, которые указывают поисковым роботам, как обрабатывать сайт: что за страницы сканировать, какие из них игнорировать, где находится sitemap и так далее.
User‑agent
Обязательная директива, которая говорит, какому именно поисковому роботу адресуются указанные ниже правила. В документе она может повторяться несколько раз.
Disallow
Эта директива запрещает роботу индексировать определённые разделы сайта, страницы или файлы, например:
-
технические страницы («Регистрация», «Авторизация», «Корзина», «Избранное»);
-
страницы с конфиденциальными данными;
-
страницы с результатами поиска по сайту;
-
статистику посещаемости;
-
дубликаты страниц;
-
разнообразные логи;
-
сервисные страницы баз данных.
Allow
Allow разрешает доступ к определённой части ресурса. Она объясняет поисковому роботу, какие разделы сайта можно индексировать. Обычно используется для указания подправила директивы Disallow — например, когда мы хотим разрешить сканирование какой‑то страницы или каталога внутри закрытого директивой Disallow раздела.
Sitemap
В robots.txt можно указать путь к карте сайта (Sitemap.xml). И таким образом помочь поисковому роботу просканировать страницы. Он задаётся через директиву Sitemap, должен быть полным, с указанием домена, как в браузере.
Директива считается межсекционной: поисковые роботы видят путь к карте сайта вне зависимости от места в файле robots.txt, где он указан.
♻️ Сгенерируйте карту и загрузите её на сайт, чтобы поисковые роботы быстрее обходили новые страницы
Генератор карты сайта учитывает настройки robots.txt и исключает страницы с редиректами, создавая структурированную и SEO‑оптимизированную карту, доступную поисковым системам. Скачайте полученную карту и загрузите её на сайт, чтобы поисковые роботы быстрее обходили ваши страницы.
Clean‑param для Яндекса
Директива запрещает поисковым роботам индексировать страницы с динамическими параметрами, например с GET‑параметрами или UTM‑метками и т. д.
Она относится только к Яндексу, который предупреждает, что если не закрыть страницы с параметрами через Clean‑param, то в поиске могут появиться многочисленные дубли страниц, что негативно отразится на ранжировании.
Директива Clean‑param межсекционная, поэтому может быть указана в любом месте файла. Если вы обозначаете другие директивы именно для робота Яндекса, перечислите все предназначенные для него правила в одной секции. При этом строка User‑agent: * будет проигнорирована.
Подробную инструкцию о том, как её использовать, можно найти в Вебмастере.
Host для Яндекса
Host указывает главное зеркало сайта — основной домен. То есть помогает Яндексу правильно определить, какой вариант (с www или без, http или https) считать основным.
|
Основные директивы robots.txt |
|
|
Директива |
Функция |
|
User‑agent |
Определяет, какому именно поисковому роботу адресуются правила. |
|
Disallow |
Запрещает обход разделов или отдельных страниц сайта. |
|
Allow |
Разрешает индексирование разделов или отдельных страниц сайта. |
|
Sitemap |
Указывает путь к карте сайта. |
|
Clean‑param |
Убирает динамические параметры из URL для борьбы с дублями. |
|
Host |
Указывает основной домен. |
🔥 Об основных директивах robots.txt мы рассказали в 5‑м модуле бесплатного курса Топвизора по SEO — одного из самых популярных в отрасли.
Это возможность начать карьеру в поисковой оптимизации, быстро овладеть необходимыми знаниями и подтвердить их с помощью сертификата.
Что можно и нельзя контролировать через robots.txt
В файле robots.txt можно:
-
разрешить или запретить индексацию страниц, папок или разделов сайта;
-
заблокировать показ определённого типа контента: изображений, видеороликов и аудиофайлов в результатах поиска;
-
закрыть от индексации документы, например в формате pdf, docx и т. д.;
-
сообщить поисковым роботам ссылку на sitemap.xml;
-
указать главное зеркало сайта (для Яндекса);
-
задать задержку между запросами робота для снижения нагрузки на сервер (в Яндексе);
-
убрать из URL динамические параметры, создающие дубли (в Яндексе).
Через файл robots.txt нельзя контролировать:
-
удаление страниц из индекса (для этого нужны нужны другие методы: метатег noindex, HTTP‑заголовок, X‑Robots‑Tag, закрытие доступа паролем и т. д.);
-
гарантию выполнения правил (они носят рекомендательный характер, и поисковой робот может их проигнорировать);
-
защиту конфиденциальной информации (страница, запрещённая для роботов, доступна для любого пользователя, который знает прямой URL);
-
скорость индексации для Google (для регулировки скорости сканирования Google нужно использовать настройки в Google Search Console);
-
влияние на сниппет и отображение страницы в выдаче (это делается через метатеги).
Как настроить эффективный сниппет в Яндексе
Что запомнить
-
Файл robots.txt — текстовый документ, рекомендующий поисковым роботам, что можно и нельзя сканировать.
-
Файл должен быть один, называться robots.txt и лежать в корневой папке. Максимальный размер — 500 КБ.
-
Директивы robots.txt — это правила для поисковых роботов, основные из них: User‑agent, Disallow, Allow, Sitemap, Clean‑param и Host.
-
С помощью файла robots.txt можно запрещать или разрешать сканирование страниц и папок на сайте, закрывать от индексации отдельные типы файлов (pdf, docx), указывать Sitemap; для Яндекса — задавать главное зеркало (Host), чистить параметры (Clean‑param).
-
Через файл robots.txt нельзя удалять страницы из индекса, гарантировать выполнение правил, влиять на сниппет или скорость индексации Google и т. д.