SEO-кухня 12.05.2026

Файл robots.txt: что это и как с ним работать

Файл robots.txt — база SEO-специалиста. Неправильная настройка этого инструмента может сделать сайт невидимым для поисковых систем. В статье разобрали требования к оформлению robots.txt, основные директивы и объяснили, зачем файл нужен для SEO и GEO.

Как создать и оформить файл robots.txt

Основные директивы robots.txt

Где проверить robots.txt

В Google Search Console (GSC)

В Яндекс Вебмастере

Индексация страниц в robots.txt

Файл robots.txt и GEO

Ещё о robots.txt и индексации

Файл robots.txt — текстовый документ формата .txt, в котором прописаны правила (директивы) для поисковых роботов. Они помогают управлять индексацией сайта.

SEO‑специалисты используют специальные команды, содержащиеся в файле, чтобы указывать краулерам, что за страницы должны показываться в выдаче поисковых систем, а какие из них, наоборот, не нужно сканировать.

Подробнее о robots.txt читайте в Глоссарии. Здесь мы рассказываем, как настраивать файл и что в нём писать.

Как создать и оформить файл robots.txt

Создать файл можно в любом текстовом редакторе, например в «Блокноте», VS Code, TextEdit, Emacs, Notepad++. В нём нужно прописать директивы. Чтобы поисковые роботы считали команды robots.txt, важно корректно оформить его. Основные требования:

расширение — .txt;
имя — robots.txt (на сайте должен быть один файл с таким названием, которое написано строчными буквами без пробелов и лишних символов);
место размещения — корневой каталог (главная папка) сайта;
размер — не более 500 КБ;
кодировка для сохранения — UTF‑8 без BOM;
сервер, на котором размещён сайт, отвечает HTTP‑кодом состояния 200 OK.

Если файл не соответствует требованиям, сайт считается открытым для индексирования.

В некоторых CMS (WordPress, «1С‑Битрикс» и OpenCart) robots.txt можно создать и редактировать в административной панели, но принципы его оформления не меняются.

Основные директивы robots.txt

Директивы robots.txt — это специальные правила для поисковых роботов.

User‑agent

Обозначает, какому именно поисковому роботу адресуются указанные ниже команды. В документе она может повторяться несколько раз. Чаще всего используют такие формулировки:

User‑agent: * — обращение ко всем поисковым роботам.

User‑agent: Yandex — для роботов Яндекса.

User‑agent: Googlebot — для роботов Google.

Перед каждой новой директивой User‑agent необходимо ставить дополнительный пропуск строки:

User‑agent: Googlebot

Disallow: /

User‑agent: Yandex

Disallow: /

Disallow

Эта директива запрещает роботу индексировать определённые элементы сайта, например:

технические страницы («Регистрация», «Авторизация», «Корзина», «Избранное»);
страницы с конфиденциальными данными;
страницы с результатами поиска по сайту;
статистику посещаемости;
дубликаты;
разнообразные логи;
сервисные страницы баз данных.

Disallow: / — запрещает сканировать весь сайт.

Disallow: /admin — закрывает от индексации административный раздел.

Disallow: /cgi-bin — закрывает папку на хостинге.

Если оставить значение директивы пустым, то роботы воспримут его как «всё разрешено».

При указании пути к разделу, странице или файлам используется спецсимвол «*». Он означает любую (в том числе пустую) последовательность символов. Может ставиться как префикс в начале адреса или как суффикс в конце.

Например:

«Disallow: /catalog/*/shopinfo» — запрещает индексацию любых страниц в разделе catalog, в URL которых есть shopinfo.

«Disallow: *shopinfo» — запрещает индексацию всех страниц, содержащих в URL «shopinfo», например «/ru/marketing/shopinfo».

Allow

Allow разрешает доступ к определённой части ресурса. Она объясняет поисковому роботу, какие разделы сайта можно индексировать. Обычно используется для указания подправила директивы Disallow — например, когда мы хотим разрешить сканирование какой‑то страницы или каталога внутри закрытого директивой Disallow раздела.

User‑agent: Yandex

Disallow: /catalog/

Allow: /catalog/auto/

# запрещает сканировать страницы, начинающиеся с '/catalog/',

# но разрешает сканировать страницы, начинающиеся с '/catalog/auto/'

Если в документе одновременно указаны директивы Allow и Disallow для одного и того же элемента, то предпочтение отдаётся Allow — он будет проиндексирован.

Sitemap

В robots.txt можно указать путь к карте сайта (Sitemap.xml) и таким образом помочь поисковому роботу просканировать страницы. Он задаётся через директиву Sitemap, должен быть полным, с указанием домена, как в браузере.

Sitemap: https://topvisor.com/sitemaps1.xml

Если карта сайта не одна, директиву можно повторять несколько раз с новой строки:

Sitemap: https://topvisor.com/sitemaps1.xml

Sitemap: https://topvisor.com/sitemaps2.xml

Sitemap считается межсекционной: поисковые роботы видят путь к карте сайта вне зависимости от места в файле robots.txt.

♻️ Сгенерируйте карту и загрузите её на сайт, чтобы поисковые роботы быстрее обходили новые страницы

Генератор карты сайта учитывает настройки robots.txt и исключает страницы с редиректами, создавая структурированную и SEO‑оптимизированную карту, доступную поисковым системам. Скачайте полученную карту и загрузите её на сайт, чтобы поисковые роботы быстрее обходили ваши страницы.

Clean‑param для Яндекса

Запрещает поисковым роботам индексировать страницы с динамическими параметрами, например с UTM‑метками. Директива помогает бороться с многочисленными дублями, которые негативно отражаются на ранжировании, а также снижает нагрузку на сервер.

Например, на сайте есть страницы:

www.example.com/some_dir/get_book.pl?ref=site_1&book_id=123

www.example.com/some_dir/get_book.pl?ref=site_2&book_id=123

www.example.com/some_dir/get_book.pl?ref=site_3&book_id=123

Параметр ref используется только для того, чтобы отследить, с какого ресурса был сделан запрос, и не меняет содержимое, по всем трём адресам будет показана одна и та же страница с книгой book_id=123.

User‑agent: Yandex

Clean‑param: ref /some_dir/get_book.pl

Робот Яндекса сведёт все адреса страницы к одному:

www.example.com/some_dir/get_book.pl?book_id=123

Если на сайте доступна такая страница, именно она будет участвовать в результатах поиска.

Чтобы директива применялась к параметрам на страницах по любому адресу, не указывайте его:

User‑agent: Yandex

Clean‑param: utm

Директива Clean‑param межсекционная, поэтому может быть указана в любом месте файла. Подробную инструкцию о том, как её использовать, можно найти в Вебмастере.

❗ Директиву Clean-param используют в Яндексе, но её применение стало необязательным с декабря 2025 года. В Вебмастере появился инструмент «Настройка GET-параметров». С его помощью указывают, какие параметры надо или не стоит учитывать при индексации.

Основные директивы robots.txt
Директива	Функция	Google	Яндекс
User‑agent	Определяет, какому именно поисковому роботу адресуются правила	Да	Да
Disallow	Запрещает обход разделов или отдельных страниц сайта	Да	Да
Allow	Разрешает индексирование разделов или отдельных страниц сайта	Частично (приоритет Disallow)	Да
Sitemap	Указывает путь к карте сайта	Да	Да
Clean‑param	Убирает динамические параметры из URL для борьбы с дублями	Нет	Да

🧠 Об основных директивах robots.txt мы рассказали в 5‑м модуле бесплатного курса Топвизора по SEO — одного из самых популярных в отрасли.

Это возможность начать карьеру в поисковой оптимизации, быстро овладеть необходимыми знаниями и подтвердить их с помощью сертификата.

Роботы могут игнорировать команды robots.txt — это рекомендательный, а не обязательный стандарт.

Где проверить robots.txt

После создания из загрузки файла убедитесь, что он существует, размещён в корневом каталоге и без проблем открывается. Введите в строку браузера адрес сайта с указанием файла в формате https://site.ru/robots.txt.

Затем проверьте корректность работы robots.txt в Google Search Console и Яндекс Вебмастере.

В Google Search Console (GSC)

Войдите в Google Search Console и выберите нужный сайт.
Перейдите в раздел «Файл robots.txt».
В меню слева найдите раздел «Индексирование» или «Сканирование» (в зависимости от версии интерфейса).
Выберите «Файл robots.txt».
В открывшемся окне отобразится текущее содержимое вашего файла, которое видит Googlebot, а также ошибки или предупреждения.

В GSC можно:

увидеть синтаксические недочёты, которые мешают индексации;
проверить, разрешает ли файл доступ к конкретным URL‑адресам;
посмотреть актуальность (если файл был изменён на сервере, вы увидите время последнего сканирования и сможете обновить его).

В Яндекс Вебмастере

Добавьте сайт в Яндекс Вебмастер.
Перейдите в раздел «Инструменты» в главном меню.
Выберите «Анализ robots.txt».
Заполните поле «Адрес сайта» (укажите домен).
Нажмите «Проверить».

Отчёт отобразится в разделе «Результаты анализа robots.txt». На вкладке «Правила обхода» покажутся все директивы, которые учитывают роботы Яндекса при индексировании, а на вкладке «Ошибки» появятся недочёты, из‑за которых инструмент не смог обработать строку, секцию или весь файл, например:

перед правилом нет директивы User‑agent;
превышен допустимый размер robots.txt;
слишком длинное правило (более 1 024 символов) и т. д.

Подробное описание каждого из них находится в Справочнике по ошибкам анализа robots.txt.

Основные ошибки при работе с robots.txt
Ошибка	Суть	Как исправить
Некорректное имя файла	Файл назван с заглавной буквы (Robots.txt)	Использовать только строчные буквы (robots.txt)
Неверное расположение robots.txt	Файл находится в поддомене, папке /admin/ или /static/, поэтому поисковые системы его не распознают	Разместить файл в корне сайта. Например, для домена topvisor.com он должен быть доступен по адресу: https://topvisor.com/robots.txt
Слишком большой файл	Размер robots.txt превышает 500 КБ	Сократить количество правил, объединять похожие пути, использовать Clean‑param вместо перечисления параметров
Отсутствие ведущего слеша в пути	Перед правилом нет символа / или *	Убедиться, что каждое правило Allow или Disallow начинается с / (для указания пути) или * (для использования маски) Disallow: admin (неверно) Disallow: /admin (верно)
Перед правилом нет директивы User‑agent	Правило должно всегда следовать за директивой User‑agent. Распространённая ошибка — файл содержит пустую строку после User‑agent или директива отсутствует	Удалить лишние пустые строки между User‑agent и первым правилом
Disallow: / (закрыт весь сайт)	Для всех роботов User‑agent: * указан полный запрет на сканирование	Убрать Disallow: / или заменить на пустое значение Disallow: (разрешить всё)
Слишком много правил	Количество правил в файле превышает 2 048	Оптимизировать правила, объединяя похожие директивы. Добавить маски * для группировки путей. Например, вместо отдельных правил для /page1/, /page2/, /page3/ используйте /page*/
Неправильное имя пользовательского агента	Написано User‑agent: Yandex и User‑agent: Google	Корректно указать агентов: YandexBot/ Yandex и Googlebot
Некорректный формат URL файла Sitemap	В качестве URL файла Sitemap должен быть указан полный адрес, включая протокол. Sitemap: www.example.com/sitemap.xml или Sitemap: /sitemap.xml (неверно)	Добавить полный URL с протоколом (http:// или https://) Sitemap: https://www.topvisor.com/sitemap.xml (верно)
Использование noindex вместо Disallow	Веб‑мастер думает, что Disallow: /page/ удалит страницу из поиска	Для исключения из индекса использовать метатег noindex или заголовок X‑Robots‑Tag. Disallow лишь запрещает сканирование
Несколько правил вида User‑agent: *	Допускается только одно правило User‑agent: * в файле	Объединить все правила для всех роботов в один блок с User‑agent: *. Если нужны специфичные правила для конкретных роботов, указать их отдельными блоками до или после общего блока

Индексация страниц в robots.txt

Файл robots.txt управляет именно сканированием, а не индексацией напрямую. При помощи директив он сообщает роботу: «Эту страницу можно загружать, а ту — не нужно». Если краулер не сканирует сайт, он не может его проиндексировать.

Примеры управления сканированием через robots.txt:

Закрыть от индексации все страницы, кроме главной и раздела «Контакты»:

User‑agent: *

Disallow: /

Allow: /$

Allow: /contacts/

Disallow: / — закрывает весь сайт.

Allow: /$ — разрешает только главную (символ $ означает конец URL, то есть https://site.ru/).

Allow: /contacts/ — разрешает всё внутри /contacts/.

Запретить индексацию страниц с фильтрами в интернет‑магазине:

User‑agent: *

Disallow: /*?price=

Disallow: /*?size=

Disallow: /*?color=

❗ Файл не запрещает показ материалов в результатах поиска. Если доступ к странице ограничен в robots.txt, она всё равно может быть проиндексирована.

Причины:

поисковый робот перешёл на страницу по ссылкам с других сайтов;
краулер не обновил свой кэш правил;
страница уже проиндексирована до добавления запрета.

Директива Disallow: /page/ запрещает сканирование, но не удаляет страницу из индекса. Если вы не хотите, чтобы какие‑либо разделы сайта были представлены в различных поисковиках, добавьте noindex (отвечает за блокировку индексирования) в HTML‑коде страницы, настройте HTTP‑заголовок или сделайте их доступными только по паролю.

Например, поместите тег <meta> в раздел <head>:

<meta name="robots" content="noindex">

Если вам нужно закрыть доступ к странице для конкретных роботов (допустим, Google), используйте следующий код:

<meta name="googlebot" content="noindex">

Файл robots.txt и GEO

GEO (Generative Engine Optimization) — это оптимизация контента бренда под ответы нейросетей, цель которой — попасть в сгенерированную искусственным интеллектом выдачу.

GEO и омниканальность: как они изменили поиск и что делать специалистам

В 2026 году файл robots.txt должен содержать информацию для нейросетей, так как GEO/AEO — это тренд продвижения. Проходят времена, когда SEO‑специалисты соревновались за 10 ссылок на экране. Теперь мы боремся за попадание в нейросети. Сейчас там не так много трафика, но уже видно, что он приносит конверсии: люди верят тому, что порекомендовал ИИ, потому что, по их мнению, он проанализировал множество источников и выдал наиболее подходящий результат.

Если сейчас не вступить в схватку за внимание внутри нейросетей, через год можно безнадёжно опоздать. Нужно показать ИИ, что вы открыты для ботов: GPTBot, ClaudeBot или PerplexityBot.

Артём Высоков Основатель компании по поисковому продвижению Vysokoff &Co

Артём Высоков советует после основных пользовательских агентов (User‑agent: Yandex, User‑agent: Googlebot, User‑agent: Bingbot) добавлять следующие формулировки:

# OpenAI (обучение и поиск / ChatGPT Search)

User‑agent: GPTBot

Allow: /

User‑agent: OAI‑SearchBot

Allow: /

User‑agent: ChatGPT‑User

Allow: /


# Anthropic (Claude)

User‑agent: ClaudeBot

Allow: /


# Perplexity

User‑agent: PerplexityBot

Allow: /

User‑agent: Perplexity‑User

Allow: /

Эти пользовательские агенты не гарантируют попадание в выдачу нейросетей, но они показывают, что ваш сайт открыт для сканирования, что может помочь ему лучше ранжироваться в ИИ‑ответах.

✨ Проверьте, что нейросеть знает о вашем бренде

Соберите упоминания по добавленным промптам и узнайте, какую информацию нейросеть выдаёт клиентам о вашем бренде с помощью AI‑трекера в Топвизоре. Проверьте тональность упоминаний и работайте над отзывами, PR и партнёрскими публикациями, чтобы улучшить мнение ИИ и чтобы они говорили о вас именно то, что вы хотите. Проанализируйте, какую позицию ваш бренд занимает в ответе нейросети среди других брендов.

Ещё о robots.txt и индексации

Как закрыть сайт от индексации в robots.txt

Индексация Google: анализ данных о 16 миллионах страниц

Как пользоваться Отчётом об индексировании в Google Search Console