SEO-кухня SEO-кухня 16.02.2024

Как быстро найти и убрать дубли страниц

Дубли страниц — это повторяющиеся страницы сайта с разными URL. Их появление может негативно сказаться на SEO‑продвижении сайта. Рассказываем, как быстро найти дубли страниц сайта и избавиться от них.

Как быстро найти и убрать дубли страниц

Почему дубли страниц — это плохо

Дубли негативно сказываются на SEO‑продвижении сайта — это дополнительная трата ресурсов как специалиста, так и поисковой системы:

  • Ухудшается индексация сайта.

При наличии дублирующихся страниц на сайте поисковые роботы могут индексировать их вместо оригинальных, и краулинговый бюджет тратится впустую. Кроме этого, одинаковые страницы на сайте просто затрудняют работу поискового робота — ведь он посещает каждую из них отдельно.

  • Снижаются позиции по ключевым запросам.

Индексация дублей вместо нужных страниц сайта приводит к снижению позиций в поисковой выдаче.

  • Страницы начинают конкурировать между собой.

Дубли могут как объединяться в группы, так и участвовать в поиске как разные документы; это может привести к каннибализации. Она усложняет работу поисковых систем и снижает шанс оригинальной страницы на индексирование.

Что такое каннибализация ключевых слов в SEO и как её избежать

  • Теряется пoлeзный внyтpeнний ccылoчный вec.

Это влияет на авторитетность сайта и на дальнейшее его цитирование.

  • Сайт может попасть пoд фильтры ПС.

Переходы из поисковых систем на сайт прекратятся, если Яндeкс применит фильтр AГC, а Google — Panda.

  • Усложняется сбор аналитических данных, затрудняется интерпретация веб‑аналитики.

По поисковому запросу отражается одна страница; попадание дублей в запрос усложняет сбор аналитических данных и их интерпретацию.

Откуда берутся дубли страниц

Основные причины:

1. Ошибка сотрудника

Случайно созданные дублирующиеся страницы поможет избежать поможет контент‑план и регулярная ревизия сайта.

2. Некорректно заданные параметры ссылок

Дубли возникают при неправильной передаче технической информации через ссылки: например, при фильтрации и сортировке товаров, использовании фильтров отображения контента на странице и UTM‑меток.

Виды дублей страниц

Дубли страниц сайта бывают трёх видов: полные, частичные и смысловые.

  • Полные дубли — когда страницы содержат абсолютно одинаковый контент.

  • Частичные дубли — страницы имеют общую семантику и задачи, содержат похожий контент, но не являются полными дублями.

  • Смысловые дубли — несколько разделов страниц имеют одинаковый смысл, переданный разными словами.

Как найти дубли страниц

Через парсинг

Парсинг — это автоматический сбор и анализ данных с веб‑ресурса при помощи программ и сервисов. 

Алгоритм копирует весь контент, который есть на странице, и разбивает его на данные: заголовки, картинки и т. д. Таким образом, можно отследить открытую информацию: например, товарные позиции и цены; метаданные; редиректы и страницы, выдающие ошибку.

Существует огромное количество парсеров: платные и бесплатные, облачные и десктопные.

Screaming Frog

Программа для скачивания на Windows, macOS и Linux.

Стоимость: 199 евро в год. Бесплатная версия программы может парсить до 500 страниц c 90%‑ным совпадением. Можно настроить меньший процент.

Как пользоваться:

  • Настройте определение дубликатов с точностью до 90 % или ниже. В зависимости от задачи настройте выявление точных дубликатов и проверку только индексируемых страниц.

Настройка парсера Screaming Frog

  • Настройте проверку основного контента через «исключение классов» — mobile‑menu__dropdown.

Настройка парсера Screaming Frog

  • Вставьте ссылку и нажмите Enter.

Запуск парсера Screaming Frog

  • Просмотреть дубликаты можно во вкладке «Контент».

Дубли в отчёте парсера Screaming Frog

Xenu’s Link Sleuth

Бесплатный парсер для ПК с Windows.

Программа создана для поиска битых ссылок, но помогает выявить и дубли страниц. SEO‑специалист Артём Болотов показал, как использовать парсер Xenu’s Link Sleuth для проверки уникальности страниц, в кейсе «Как удалить 12 тысяч дублей и попасть в ТОП Яндекса за три месяца».

Топвизор

Откройте Анализ сайта и перейдите в раздел «Страницы» на вкладку «Контент». По скроллу вправо можно найти дубли title и description:

Дубли title и description в Анализе сайта Топвизора

Как сделать качественный SEO‑аудит сайта самостоятельно: полное руководство 

Как выбрать парсер

  1. Поставьте чёткую задачу: это может быть мониторинг цен, сбор данных для каталога, SEO‑анализ или другая задача.

  2. Определите, какой объём данных нужно исследовать, получить и в каком формате.

  3. Выберите частоту получения информации.

Исходя из этих пунктов и бюджета, вы сможете выбрать наиболее подходящий сервис.

Артём Бирюков, автор телеграм‑канала «О SEO по делу — блог о SEO‑оптимизации»:

«Чаще всего для поиска дублей я делаю парсинг через Screaming Frog и работаю с данными панелей вебмастера. Парсинг даёт информацию по всем страницам сайта, которые перелинкованы между собой. Работа с вебмастерами позволяет получить данные напрямую из поиска, в том числе по страницам, которые не имеют ссылок с сайта. На крупных сайтах подключаю анализ логов сервера».

С помощью операторов Google и Яндекса

Дубли можно найти вручную с использованием операторов Google и Яндекса. Например, intext показывает страницы, которые содержат указанное слово в тексте, а allintext находит страницы, содержащие все указанные слова.

Полный список поисковых операторов Google

В Вебмастере и GSC

Яндекс Вебмастер

  • Перейдите на вкладку «Индексирование» в раздел «Страницы в поиске».

Раздел «Индексирование» в Яндекс Вебмастере

  • По скроллу вниз вы увидите список URL; выберите «Исключённые страницы». Отфильтруйте их по параметру «Дубль».

Дубли в Яндекс Вебмастере

При выгрузке результатов проверки в файлы форматов XSL или CSV дубли будут обозначены как «DUPLICATE».

🔥 Всё, что нужно знать о Яндекс Вебмастере и Google Search Console, ищите в наших гайдах по сервисам.

Google Search Console

  • Нажмите на вкладку «Индексирование» и выберите «Страницы».

Раздел «Индексирование» в GSC

  • По скроллу вниз расположен перечень ошибок, мешающих индексированию, в числе которых на дубли будет указывать строка «Страница является копией. Канонический вариант не выбран пользователем».

Отчёт по дублям в GSC

Как удалить дубли страниц на сайте

Физическое удаление

Самый простой способ — удалить вручную в административной панели. Прежде чем действовать, нужно разобраться, каким образом дубль появился и не ссылаются ли на него другие источники. Так удаление не повлияет на продвижение или повлияет минимально.

Настройка 301 редиректа

301 редирект позволяет настроить перенаправление страниц на один адрес, например: «http://www.topvisor.ru/catalog/catalog‑name/» вместо «http://topvisor.ru/catalog/catalog‑name/index.php». Это можно сделать в корневом каталоге веб‑сервера в файле htaccess.

Переадресация с http на https

RewriteCond %{HTTP:X‑Forwarded‑Protocol} !=https
RewriteRule .* https://%{SERVER_NAME}%{REQUEST_URI} [R=301,L]

Перенаправление со страниц без www на www

Если нужно, чтобы сайт открывался только с www, пропишите код:

RewriteEngine On
RewriteCond %{HTTP_HOST} ^correct‑domain.ru
RewriteRule (.*) http://www.correct‑domain.ru/$1 [R=301,L]

Если нужно сделать наоборот, то код будет выглядеть так:

RewriteEngine On
RewriteCond %{HTTP_HOST} ^www.correct‑domain.ru
RewriteRule ^(.*)$ http://correct‑domain.ru/$1 [R=301,L]
  • correct‑domain.ru — адрес вашего домена.

🔥 Об этом мы уже рассказывали — читайте, как правильно переходить с http на https и как настроить редирект с www на адрес без www.

Перенаправление со страниц без слэша на конце, на «/»

Убираем слэш в конце:

RewriteCond %{REQUEST_FILENAME} !‑d
RewriteCond %{REQUEST_URI} ^(.+)/$
RewriteRule ^(.+)/$ http://www.site.ru/$1 [R=301,L]

Добавляем слэш в конце: 

RewriteCond %{REQUEST_FILENAME} !‑f
RewriteCond %{REQUEST_URI} !\..{1,10}$
RewriteCond %{REQUEST_URI} !(.*)/$
RewriteRule ^(.*)$ http://www.site.ru/$1/ [L,R=301]

Ставить завершающий слеш в URL или нет: как лучше для SEO

Перенаправление со старой страницы на новую

Redirect 301 %old_url% %new_url%
  • %old_url% — старый адрес страницы без домена.

  • %new_url% — новый адрес страницы с указанием домена и протокола.

Смена домена

RewriteEngine on
RewriteCond %{HTTP_HOST} !^www\.correct‑domain\.ru(:80)?$
RewriteRule (.*) http://www.correct‑domain.ru/$1 [R=301,L]

RewriteEngine on
RewriteCond %{HTTP_HOST} !^www\.correct‑domain\.ru(:443)?$
RewriteRule (.*) http://www.correct‑domain.ru/$1 [R=301,L]

Выбор канонической страницы

Удалить дубли на сайте можно при помощи атрибута canonical. Его помещают в шапку между открывающим тегом <head> и закрывающим </head>:

<link rel=”canonical” href=”адрес основной страницы” />

Canonical: что это за атрибут и как прописать канонический адрес страницы

Запрет индексации через robots.txt

В файле robots.txt с использованием директивы Disallow можно запретить индексирование отдельных дублей:

User‑agent: *

Disallow: /dublictate.html

Host: topvisor.com

Артём Бирюков, автор телеграм‑канала «О SEO по делу — блог о SEO‑оптимизации»:

«Начинающим SEO‑специалистам я бы рекомендовал для удаления дублей удалить и настроить 301 редирект. При настройке редиректа замените внутренние ссылки актуальными на целевую страницу. Также мы можем закрыть от индексации в robots.txt директивой disallow, либо указать каноническую страницу, а для незначащих параметров пользоваться clean‑param.

В любом случае выбирать метод удаления нужно, исходя из источника и типа дублирования».

Что запомнить

Наличие дублирующихся страниц негативно сказывается на SEO‑продвижении сайта: они мешают поисковой системе индексировать необходимый вам контент.

Найти дубли на сайте помогут:

  • Screaming Frog — парсит до 500 страниц бесплатно с совпадением до 90 %.

  • Парсер Xenu’s Link Sleuth — разработан для поиска битых ссылок, но его можно использовать и при поиске дублей.

  • Анализ сайта в Топвизоре — ищет дубли Title и Description.

  • Панели вебмастеров — Яндекс Вебмастер и Google Search Console;
  • Поисковые операторы Google и Яндекса для работы вручную.

Найденные дубли нужно удалить одним из доступных способов:

  • Настройка 301 редиректа;
  • Выбор канонической страницы;
  • Запрет индексации через robots.txt;
  • Удаление дублей физически в административной панели. Прежде чем это сделать, нужно разобраться, проиндексирована ли страница, как она влияет на трафик и ссылаются ли на неё другие источники.

Ещё по теме

Как бороться с дублированием контента с помощью канонизации

Как проверить индексацию сайта

SEO‑Friendly URLs: что такое ЧПУ сайта и как на них перейти