Глоссарий 01.11.2025

Что такое robots.txt

Файл robots.txt — это текстовый документ формата .txt, в котором прописаны специальные правила (директивы) для поисковых роботов.

Как работает robots.txt для сайта

Основные директивы robots.txt

Что можно и нельзя контролировать через robots.txt

Что запомнить

Директивы помогают управлять индексацией сайта. С помощью них можно указать, что за страницы и файлы сайта должны присутствовать в поисковой выдаче, а какие, наоборот, не нужно сканировать.

Чтобы посмотреть файл, достаточно добавить /robots.txt к доменному имени (например, topvisor.com/robots.txt).

Как работает robots.txt для сайта

На сайте должен быть только один текстовый файл с названием /robots.txt, без пробелов и лишних символов. Его нужно разместить в корневом каталоге (главной папке веб‑ресурса).

Максимальный размер файла robots.txt — 500 КБ. Такое требование распространяется на обе основные поисковые системы — Google и Яндекс. Если превысить лимит, то это может привести к частичной или полной остановке обработки правил поисковыми роботами.

Файл robots.txt для сайта работает так:

Поисковой робот перед началом сканирования сайта отправляет запрос.
Если файл найден, робот анализирует его содержимое, извлекая директивы.
Робот следует указанным правилам: запрещённые директивой Disallow страницы и разделы не сканируются; разрешённые (Allow) — анализируются.
Если файл robots.txt отсутствует или пуст, поисковые роботы по умолчанию сканируют весь сайт, на который могут перейти по ссылкам.

Важно понимать: ограничив страницу в robots.txt, вы не удалите её из индекса, если она уже там оказалась. Запрещённая страница тоже может быть проиндексирована (например, когда на неё ведут внешние ссылки). В таком случае в выдаче будет показан URL без описания.

Роботы могут игнорировать директивы robots.txt — это рекомендательный, а не обязательный стандарт. Хотя обычно Яндекс и Google соблюдают их.

Основные директивы robots.txt

Директивы robots.txt — это специальные правила и команды, которые указывают поисковым роботам, как обрабатывать сайт: что за страницы сканировать, какие из них игнорировать, где находится sitemap и так далее.

User‑agent

Обязательная директива, которая говорит, какому именно поисковому роботу адресуются указанные ниже правила. В документе она может повторяться несколько раз.

Disallow

Эта директива запрещает роботу индексировать определённые разделы сайта, страницы или файлы, например:

технические страницы («Регистрация», «Авторизация», «Корзина», «Избранное»);
страницы с конфиденциальными данными;
страницы с результатами поиска по сайту;
статистику посещаемости;
дубликаты страниц;
разнообразные логи;
сервисные страницы баз данных.

Allow

Allow разрешает доступ к определённой части ресурса. Она объясняет поисковому роботу, какие разделы сайта можно индексировать. Обычно используется для указания подправила директивы Disallow — например, когда мы хотим разрешить сканирование какой‑то страницы или каталога внутри закрытого директивой Disallow раздела.

Если в документе одновременно указаны директивы Allow и Disallow для одного и того же элемента, то предпочтение отдаётся Allow — элемент будет проиндексирован.

Sitemap

В robots.txt можно указать путь к карте сайта (Sitemap.xml). И таким образом помочь поисковому роботу просканировать страницы. Он задаётся через директиву Sitemap, должен быть полным, с указанием домена, как в браузере.

Директива считается межсекционной: поисковые роботы видят путь к карте сайта вне зависимости от места в файле robots.txt, где он указан.

♻️ Сгенерируйте карту и загрузите её на сайт, чтобы поисковые роботы быстрее обходили новые страницы

Генератор карты сайта учитывает настройки robots.txt и исключает страницы с редиректами, создавая структурированную и SEO‑оптимизированную карту, доступную поисковым системам. Скачайте полученную карту и загрузите её на сайт, чтобы поисковые роботы быстрее обходили ваши страницы.

Clean‑param для Яндекса

Директива запрещает поисковым роботам индексировать страницы с динамическими параметрами, например с GET‑параметрами или UTM‑метками и т. д.

Она относится только к Яндексу, который предупреждает, что если не закрыть страницы с параметрами через Clean‑param, то в поиске могут появиться многочисленные дубли страниц, что негативно отразится на ранжировании.

Директива Clean‑param межсекционная, поэтому может быть указана в любом месте файла. Если вы обозначаете другие директивы именно для робота Яндекса, перечислите все предназначенные для него правила в одной секции. При этом строка User‑agent: * будет проигнорирована.

Подробную инструкцию о том, как её использовать, можно найти в Вебмастере.

Host для Яндекса

Host указывает главное зеркало сайта — основной домен. То есть помогает Яндексу правильно определить, какой вариант (с www или без, http или https) считать основным.

Основные директивы robots.txt
Директива	Функция
User‑agent	Определяет, какому именно поисковому роботу адресуются правила.
Disallow	Запрещает обход разделов или отдельных страниц сайта.
Allow	Разрешает индексирование разделов или отдельных страниц сайта.
Sitemap	Указывает путь к карте сайта.
Clean‑param	Убирает динамические параметры из URL для борьбы с дублями.
Host	Указывает основной домен.

🔥 Об основных директивах robots.txt мы рассказали в 5‑м модуле бесплатного курса Топвизора по SEO — одного из самых популярных в отрасли.

Это возможность начать карьеру в поисковой оптимизации, быстро овладеть необходимыми знаниями и подтвердить их с помощью сертификата.

Что можно и нельзя контролировать через robots.txt

В файле robots.txt можно:

разрешить или запретить индексацию страниц, папок или разделов сайта;
заблокировать показ определённого типа контента: изображений, видеороликов и аудиофайлов в результатах поиска;
закрыть от индексации документы, например в формате pdf, docx и т. д.;
сообщить поисковым роботам ссылку на sitemap.xml;
указать главное зеркало сайта (для Яндекса);
задать задержку между запросами робота для снижения нагрузки на сервер (в Яндексе);
убрать из URL динамические параметры, создающие дубли (в Яндексе).

Через файл robots.txt нельзя контролировать:

удаление страниц из индекса (для этого нужны нужны другие методы: метатег noindex, HTTP‑заголовок, X‑Robots‑Tag, закрытие доступа паролем и т. д.);
гарантию выполнения правил (они носят рекомендательный характер, и поисковой робот может их проигнорировать);
защиту конфиденциальной информации (страница, запрещённая для роботов, доступна для любого пользователя, который знает прямой URL);
скорость индексации для Google (для регулировки скорости сканирования Google нужно использовать настройки в Google Search Console);
влияние на сниппет и отображение страницы в выдаче (это делается через метатеги).

Как настроить эффективный сниппет в Яндексе

Что запомнить

Файл robots.txt — текстовый документ, рекомендующий поисковым роботам, что можно и нельзя сканировать.

Файл должен быть один, называться robots.txt и лежать в корневой папке. Максимальный размер — 500 КБ.
Директивы robots.txt — это правила для поисковых роботов, основные из них: User‑agent, Disallow, Allow, Sitemap, Clean‑param и Host.

С помощью файла robots.txt можно запрещать или разрешать сканирование страниц и папок на сайте, закрывать от индексации отдельные типы файлов (pdf, docx), указывать Sitemap; для Яндекса — задавать главное зеркало (Host), чистить параметры (Clean‑param).

Через файл robots.txt нельзя удалять страницы из индекса, гарантировать выполнение правил, влиять на сниппет или скорость индексации Google и т. д.