Что там опять 18.01.2022

Яндекс рассказал, как обнаружить дубли страниц и что с ними делать

Дубли страниц могут замедлять индексирование нужных страниц и искажать аналитику. Яндекс рассказал, как избавиться от дублей вручную или автоматически.

Яндекс рассказал, чем вредны дубли страниц и как их обнаружить на сайте.

Дубли — это страницы сайта с одинаковым или практически полностью совпадающим контентом. Дубли приводят к таким последствиям:

Замедляется индексирование нужных страниц. Если на сайте много дублей, робот будет посещать все дублированные страницы отдельно друг от друга. Это может снизить скорость обхода страниц, ведь потребуется больше времени, чтобы робот дошёл до нужных страниц.
Затрудненяется интерпретация данных веб-аналитики. Страница из группы дублей выбирается поисковой системой автоматически, и этот выбор может меняться. Это значит, что адрес страницы-дубля в поиске может меняться с обновлениями поисковой базы, что может повлиять на страницу в поиске (например, узнаваемость ссылки пользователями) и затруднит сбор статистики.

Как обнаружить дубли

Автоматически. Найти дубли теперь можно в разделе «Диагностика». Там появилось специальное уведомление, которое отобразит большую долю дублированных страниц сайта.

Уведомление появляется с небольшой задержкой в 2-3 дня. Причина — на сбор данных и их обработку требуется время. Подписываться на оповещения не нужно, уведомление появится автоматически.

Вручную. Если вы хотите найти дубли вручную, перейдите в Вебмастер. Во вкладке «Индексирование» откройте «Страницы в поиске», нажмите на «Исключённые» в правой части страницы. Прокрутите вниз, в правом нижнем углу увидите опцию «Скачать таблицу». Выберите подходящий формат и загрузите архив. Откройте скачанный файл: у страниц-дублей будет статус DUPLICATE.

Как оставить в поиске нужную страницу

В случае с «мусорными» страницами воспользуйтесь одним из способов:

Добавьте в файл robots.txt директиву Disallow, и страница-дубль не будет индексироваться.
Запретите их индексирование при помощи мета-тега noindex. Тогда поисковой робот исключит эти страницы из базы по мере их переобхода.
Настройте HTTP-код ответа 403/404/410. Данный метод менее предпочтителен, так как показатели недоступных страниц не будут учитываться, и если где-то на сайте или в поиске еще есть ссылки на такие страницы, пользователь попадет на недоступную ссылку.

В случае со страницами-дублями воспользуйтесь одним из способов:

Для дублей с незначащими GET-параметрами добавьте в файл robots.txt межсекционную директиву Clean-param. Она будет обрабатываться в любом месте файла robots.txt. Указывать её для роботов Яндекса при помощи User-Agent: Yandex не требуется. Но если вы хотите указать директивы именно для наших роботов, убедитесь, что для User-Agent: Yandex указаны и все остальные директивы — Disallow и Allow. Если в robots.txt будет указана директива User-Agent: Yandex, наш робот будет следовать указаниям только для этой директивы, а User-Agent: * будет проигнорирован.
Установите редирект с HTTP-кодом 301 с одной дублирующей страницы на другую. В этом случае в поиске будет участвовать цель установленного редиректа. Укажите предпочитаемый (канонический) адрес страницы, который будет участвовать в поиске.
Используйте атрибут rel=«canonical». При работе с атрибутом rel=«canonical» учитывайте, что если содержимое дублей имеет некоторые отличия или очень часто обновляется, то такие страницы все равно могут попасть в поиск из-за различий в этом содержимом. В этом случае рекомендуем использовать варианты выше.

Подробнее о работе со страницами-дублями читайте в Справке.

В наших новостях всегда есть немного больше, чем у других. Подпишитесь на канал в Телеграм и читайте интересные новости первыми.

Теги:

#yandex