Файл robots.txt — текстовый документ формата .txt, в котором прописаны правила (директивы) для поисковых роботов. Они помогают управлять индексацией сайта.
SEO‑специалисты используют специальные команды, содержащиеся в файле, чтобы указывать краулерам, что за страницы должны показываться в выдаче поисковых систем, а какие из них, наоборот, не нужно сканировать.
Подробнее о robots.txt читайте в Глоссарии. Здесь мы рассказываем, как настраивать файл и что в нём писать.
Как создать и оформить файл robots.txt
Создать файл можно в любом текстовом редакторе, например в «Блокноте», VS Code, TextEdit, Emacs, Notepad++. В нём нужно прописать директивы. Чтобы поисковые роботы считали команды robots.txt, важно корректно оформить его. Основные требования:
-
расширение — .txt;
-
имя — robots.txt (на сайте должен быть один файл с таким названием, которое написано строчными буквами без пробелов и лишних символов);
-
место размещения — корневой каталог (главная папка) сайта;
-
размер — не более 500 КБ;
-
кодировка для сохранения — UTF‑8 без BOM;
-
сервер, на котором размещён сайт, отвечает HTTP‑кодом состояния 200 OK.
В некоторых CMS (WordPress, «1С‑Битрикс» и OpenCart) robots.txt можно создать и редактировать в административной панели, но принципы его оформления не меняются.
Основные директивы robots.txt
Директивы robots.txt — это специальные правила для поисковых роботов.
User‑agent
Обозначает, какому именно поисковому роботу адресуются указанные ниже команды. В документе она может повторяться несколько раз. Чаще всего используют такие формулировки:
User‑agent: * — обращение ко всем поисковым роботам. User‑agent: Yandex — для роботов Яндекса. User‑agent: Googlebot — для роботов Google.
Перед каждой новой директивой User‑agent необходимо ставить дополнительный пропуск строки:
User‑agent: Googlebot Disallow: / User‑agent: Yandex Disallow: /
Disallow
Эта директива запрещает роботу индексировать определённые элементы сайта, например:
-
технические страницы («Регистрация», «Авторизация», «Корзина», «Избранное»);
-
страницы с конфиденциальными данными;
-
страницы с результатами поиска по сайту;
-
статистику посещаемости;
-
дубликаты;
-
разнообразные логи;
-
сервисные страницы баз данных.
Disallow: / — запрещает сканировать весь сайт. Disallow: /admin — закрывает от индексации административный раздел. Disallow: /cgi-bin — закрывает папку на хостинге.
Если оставить значение директивы пустым, то роботы воспримут его как «всё разрешено».
При указании пути к разделу, странице или файлам используется спецсимвол «*». Он означает любую (в том числе пустую) последовательность символов. Может ставиться как префикс в начале адреса или как суффикс в конце.
Например:
«Disallow: /catalog/*/shopinfo» — запрещает индексацию любых страниц в разделе catalog, в URL которых есть shopinfo. «Disallow: *shopinfo» — запрещает индексацию всех страниц, содержащих в URL «shopinfo», например «/ru/marketing/shopinfo».
Allow
Allow разрешает доступ к определённой части ресурса. Она объясняет поисковому роботу, какие разделы сайта можно индексировать. Обычно используется для указания подправила директивы Disallow — например, когда мы хотим разрешить сканирование какой‑то страницы или каталога внутри закрытого директивой Disallow раздела.
User‑agent: Yandex Disallow: /catalog/ Allow: /catalog/auto/ # запрещает сканировать страницы, начинающиеся с '/catalog/', # но разрешает сканировать страницы, начинающиеся с '/catalog/auto/'
Sitemap
В robots.txt можно указать путь к карте сайта (Sitemap.xml) и таким образом помочь поисковому роботу просканировать страницы. Он задаётся через директиву Sitemap, должен быть полным, с указанием домена, как в браузере.
Sitemap: https://topvisor.com/sitemaps1.xml
Если карта сайта не одна, директиву можно повторять несколько раз с новой строки:
Sitemap: https://topvisor.com/sitemaps1.xml Sitemap: https://topvisor.com/sitemaps2.xml
Sitemap считается межсекционной: поисковые роботы видят путь к карте сайта вне зависимости от места в файле robots.txt.
♻️ Сгенерируйте карту и загрузите её на сайт, чтобы поисковые роботы быстрее обходили новые страницы
Генератор карты сайта учитывает настройки robots.txt и исключает страницы с редиректами, создавая структурированную и SEO‑оптимизированную карту, доступную поисковым системам. Скачайте полученную карту и загрузите её на сайт, чтобы поисковые роботы быстрее обходили ваши страницы.
Clean‑param для Яндекса
Запрещает поисковым роботам индексировать страницы с динамическими параметрами, например с UTM‑метками. Директива помогает бороться с многочисленными дублями, которые негативно отражаются на ранжировании, а также снижает нагрузку на сервер.
Например, на сайте есть страницы:
www.example.com/some_dir/get_book.pl?ref=site_1&book_id=123 www.example.com/some_dir/get_book.pl?ref=site_2&book_id=123 www.example.com/some_dir/get_book.pl?ref=site_3&book_id=123
Параметр ref используется только для того, чтобы отследить, с какого ресурса был сделан запрос, и не меняет содержимое, по всем трём адресам будет показана одна и та же страница с книгой book_id=123.
User‑agent: Yandex Clean‑param: ref /some_dir/get_book.pl Робот Яндекса сведёт все адреса страницы к одному: www.example.com/some_dir/get_book.pl?book_id=123
Если на сайте доступна такая страница, именно она будет участвовать в результатах поиска.
Чтобы директива применялась к параметрам на страницах по любому адресу, не указывайте его:
User‑agent: Yandex Clean‑param: utm
Директива Clean‑param межсекционная, поэтому может быть указана в любом месте файла. Подробную инструкцию о том, как её использовать, можно найти в Вебмастере.
|
Основные директивы robots.txt |
|||
|
Директива |
Функция |
|
Яндекс |
|
User‑agent |
Определяет, какому именно поисковому роботу адресуются правила |
Да |
Да |
|
Disallow |
Запрещает обход разделов или отдельных страниц сайта |
Да |
Да |
|
Allow |
Разрешает индексирование разделов или отдельных страниц сайта |
Частично (приоритет Disallow) |
Да |
|
Sitemap |
Указывает путь к карте сайта |
Да |
Да |
|
Clean‑param |
Убирает динамические параметры из URL для борьбы с дублями |
Нет |
Да |
🧠 Об основных директивах robots.txt мы рассказали в 5‑м модуле бесплатного курса Топвизора по SEO — одного из самых популярных в отрасли.
Это возможность начать карьеру в поисковой оптимизации, быстро овладеть необходимыми знаниями и подтвердить их с помощью сертификата.
Роботы могут игнорировать команды robots.txt — это рекомендательный, а не обязательный стандарт.
Где проверить robots.txt
После создания из загрузки файла убедитесь, что он существует, размещён в корневом каталоге и без проблем открывается. Введите в строку браузера адрес сайта с указанием файла в формате https://site.ru/robots.txt.
Затем проверьте корректность работы robots.txt в Google Search Console и Яндекс Вебмастере.
В Google Search Console (GSC)
-
Войдите в Google Search Console и выберите нужный сайт.
-
Перейдите в раздел «Файл robots.txt».
-
В меню слева найдите раздел «Индексирование» или «Сканирование» (в зависимости от версии интерфейса).
-
Выберите «Файл robots.txt».
-
В открывшемся окне отобразится текущее содержимое вашего файла, которое видит Googlebot, а также ошибки или предупреждения.
В GSC можно:
-
увидеть синтаксические недочёты, которые мешают индексации;
-
проверить, разрешает ли файл доступ к конкретным URL‑адресам;
-
посмотреть актуальность (если файл был изменён на сервере, вы увидите время последнего сканирования и сможете обновить его).
В Яндекс Вебмастере
-
Добавьте сайт в Яндекс Вебмастер.
-
Перейдите в раздел «Инструменты» в главном меню.
-
Выберите «Анализ robots.txt».
-
Заполните поле «Адрес сайта» (укажите домен).
-
Нажмите «Проверить».
Отчёт отобразится в разделе «Результаты анализа robots.txt». На вкладке «Правила обхода» покажутся все директивы, которые учитывают роботы Яндекса при индексировании, а на вкладке «Ошибки» появятся недочёты, из‑за которых инструмент не смог обработать строку, секцию или весь файл, например:
-
перед правилом нет директивы User‑agent;
-
превышен допустимый размер robots.txt;
-
слишком длинное правило (более 1 024 символов) и т. д.
Подробное описание каждого из них находится в Справочнике по ошибкам анализа robots.txt.
|
Основные ошибки при работе с robots.txt |
||
|
Ошибка |
Суть |
Как исправить |
|
Некорректное имя файла |
Файл назван с заглавной буквы (Robots.txt) |
Использовать только строчные буквы (robots.txt) |
|
Неверное расположение robots.txt |
Файл находится в поддомене, папке /admin/ или /static/, поэтому поисковые системы его не распознают |
Разместить файл в корне сайта. Например, для домена topvisor.com он должен быть доступен по адресу: https://topvisor.com/robots.txt |
|
Слишком большой файл |
Размер robots.txt превышает 500 КБ |
Сократить количество правил, объединять похожие пути, использовать Clean‑param вместо перечисления параметров |
|
Отсутствие ведущего слеша в пути |
Перед правилом нет символа / или * |
Убедиться, что каждое правило Allow или Disallow начинается с / (для указания пути) или * (для использования маски) Disallow: admin (неверно) Disallow: /admin (верно) |
|
Перед правилом нет директивы User‑agent |
Правило должно всегда следовать за директивой User‑agent. Распространённая ошибка — файл содержит пустую строку после User‑agent или директива отсутствует |
Удалить лишние пустые строки между User‑agent и первым правилом |
|
Disallow: / (закрыт весь сайт) |
Для всех роботов User‑agent: * указан полный запрет на сканирование |
Убрать Disallow: / или заменить на пустое значение Disallow: (разрешить всё) |
|
Слишком много правил |
Количество правил в файле превышает 2 048 |
Оптимизировать правила, объединяя похожие директивы. Добавить маски * для группировки путей. Например, вместо отдельных правил для /page1/, /page2/, /page3/ используйте /page*/ |
|
Неправильное имя пользовательского агента |
Написано User‑agent: Yandex и User‑agent: Google |
Корректно указать агентов: YandexBot/ Yandex и Googlebot |
|
Некорректный формат URL файла Sitemap |
В качестве URL файла Sitemap должен быть указан полный адрес, включая протокол. Sitemap: www.example.com/sitemap.xml или Sitemap: /sitemap.xml (неверно) |
Добавить полный URL с протоколом (http:// или https://) Sitemap: https://www.topvisor.com/sitemap.xml (верно) |
|
Использование noindex вместо Disallow |
Веб‑мастер думает, что Disallow: /page/ удалит страницу из поиска |
Для исключения из индекса использовать метатег noindex или заголовок X‑Robots‑Tag. Disallow лишь запрещает сканирование |
|
Несколько правил вида User‑agent: * |
Допускается только одно правило User‑agent: * в файле |
Объединить все правила для всех роботов в один блок с User‑agent: *. Если нужны специфичные правила для конкретных роботов, указать их отдельными блоками до или после общего блока |
Индексация страниц в robots.txt
Файл robots.txt управляет именно сканированием, а не индексацией напрямую. При помощи директив он сообщает роботу: «Эту страницу можно загружать, а ту — не нужно». Если краулер не сканирует сайт, он не может его проиндексировать.
Примеры управления сканированием через robots.txt:
-
Закрыть от индексации все страницы, кроме главной и раздела «Контакты»:
User‑agent: * Disallow: / Allow: /$ Allow: /contacts/ Disallow: / — закрывает весь сайт. Allow: /$ — разрешает только главную (символ $ означает конец URL, то есть https://site.ru/). Allow: /contacts/ — разрешает всё внутри /contacts/.
-
Запретить индексацию страниц с фильтрами в интернет‑магазине:
User‑agent: * Disallow: /*?price= Disallow: /*?size= Disallow: /*?color=
Причины:
-
поисковый робот перешёл на страницу по ссылкам с других сайтов;
-
краулер не обновил свой кэш правил;
-
страница уже проиндексирована до добавления запрета.
Директива Disallow: /page/ запрещает сканирование, но не удаляет страницу из индекса. Если вы не хотите, чтобы какие‑либо разделы сайта были представлены в различных поисковиках, добавьте noindex (отвечает за блокировку индексирования) в HTML‑коде страницы, настройте HTTP‑заголовок или сделайте их доступными только по паролю.
Например, поместите тег <meta> в раздел <head>:
<meta name="robots" content="noindex">
Если вам нужно закрыть доступ к странице для конкретных роботов (допустим, Google), используйте следующий код:
<meta name="googlebot" content="noindex">
Файл robots.txt и GEO
GEO (Generative Engine Optimization) — это оптимизация контента бренда под ответы нейросетей, цель которой — попасть в сгенерированную искусственным интеллектом выдачу.
GEO и омниканальность: как они изменили поиск и что делать специалистам
В 2026 году файл robots.txt должен содержать информацию для нейросетей, так как GEO/AEO — это тренд продвижения. Проходят времена, когда SEO‑специалисты соревновались за 10 ссылок на экране. Теперь мы боремся за попадание в нейросети. Сейчас там не так много трафика, но уже видно, что он приносит конверсии: люди верят тому, что порекомендовал ИИ, потому что, по их мнению, он проанализировал множество источников и выдал наиболее подходящий результат.
Если сейчас не вступить в схватку за внимание внутри нейросетей, через год можно безнадёжно опоздать. Нужно показать ИИ, что вы открыты для ботов: GPTBot, ClaudeBot или PerplexityBot.
Артём Высоков советует после основных пользовательских агентов (User‑agent: Yandex, User‑agent: Googlebot, User‑agent: Bingbot) добавлять следующие формулировки:
# OpenAI (обучение и поиск / ChatGPT Search) User‑agent: GPTBot Allow: / User‑agent: OAI‑SearchBot Allow: / User‑agent: ChatGPT‑User Allow: / # Anthropic (Claude) User‑agent: ClaudeBot Allow: / # Perplexity User‑agent: PerplexityBot Allow: / User‑agent: Perplexity‑User Allow: /
Эти пользовательские агенты не гарантируют попадание в выдачу нейросетей, но они показывают, что ваш сайт открыт для сканирования, что может помочь ему лучше ранжироваться в ИИ‑ответах.
✨ Проверьте, что нейросеть знает о вашем бренде
Соберите упоминания по добавленным промптам и узнайте, какую информацию нейросеть выдаёт клиентам о вашем бренде с помощью AI‑трекера в Топвизоре. Проверьте тональность упоминаний и работайте над отзывами, PR и партнёрскими публикациями, чтобы улучшить мнение ИИ и чтобы они говорили о вас именно то, что вы хотите. Проанализируйте, какую позицию ваш бренд занимает в ответе нейросети среди других брендов.
Ещё о robots.txt и индексации
Как закрыть сайт от индексации в robots.txt
Индексация Google: анализ данных о 16 миллионах страниц
Как пользоваться Отчётом об индексировании в Google Search Console