Как бороться с дублированием контента с помощью канонизации

Дубликаты страниц создаются случайным образом при наличии определенных факторов, например: HTTP- и HTTPS-версии страниц, домены с или без www, UTM-метки, серии пагинации и так далее.

Как бороться с дублированием контента с помощью канонизации
  • Почему контент может дублироваться
  • Что такое канонизация и зачем она нужна
  • Как Google определяет каноническую версию страницы
  • Какие факторы способствуют передаче канонического сигнала
  • Проверка сайта на канонические ошибки и возможности
  • Как внедрить канонизацию
  • 1. Канонический элемент в HTML
  • 2. Каноническая ссылка в HTTP‑заголовке
  • Распространенные ошибки, которых следует избегать
  • Канонические цепочки
  • Размещение канонического тега в теле страницы
  • Канонизация страниц с разбивкой по страницам
  • Отправка противоречивых канонических сигналов
  • Канонизация междоменного или синдицированного контента
  • Ответы на частые вопросы
  • Можно ли использовать 301‑й редирект вместо канонических тегов?
  • Будут ли проиндексированы канонизированные страницы?
  • Зачем использовать канонический тег с аннотацией hreflang?
  • Можно ли использовать канонический тег и метатег robots одновременно?
  • 🤓 Ещё по теме
  • Дублирование может осложнить работу поисковых систем, которые не понимают, какую версию страницы нужно проиндексировать и показать пользователям.

    Читайте, как дать понять ПС, какие страницы являются приоритетными, в переводе статьи Эбере Джонатан для Women in Tech SEO.

    Почему контент может дублироваться

    Дублированный контент — это один и тот же (или очень похожий контент), доступный по нескольким индексируемым URL‑адресам.

    Пример дублированного контента
    Пример дублированного контента

    Причин у дублирования несколько.

    1. Альтернативные версии веб‑сайта

    К сайту может быть разный доступ:

    • по протоколам HTTP и HTTPS, например: http://www.example.com/ и https://www.example.com/;

    • в формате с и без www, к примеру: https://www.example.com/ и https://example.com/;

    • в мобильной и настольной версиях, к примеру: m.example.com и example.com;

    • c завершающим слешем или без него, например: https://www.example.com/ и https://www.example.com.

    Ставить завершающий слеш в URL или нет: как лучше для SEO

    2. Один и тот же контент доступен по разным URL‑адресам

    Как правило, это происходит в результате фильтрации и сортировки — в особенности в интернет‑магазинах, когда две страницы содержат одинаковый контент, например: https://www.example.com/dog‑products/red‑harness/ и https://www.example.com/category‑dog/red‑harness/.

    3. UTM‑метки создают новые URL‑адреса

    UTM — это URL‑адреса, к которым добавлены коды отслеживания переходов. Например: https://www.example.com/pages/?KW=ragnar&PK.

    4. Пагинация

    Речь идет о об одинаковом или очень схожем контенте на всей серии страниц. Например: https://www.example.com/ и https://www.example.com/?page=2.

    5. Международные страницы

    URL‑адреса, которые были созданы для охвата пользователей в разных локациях. К примеру: https://en‑us.example.com/ и https://en‑gb.example.com.

    6. Синдицированный контент

    Синдицированный контент — тот, который публикуется повторно на разных ресурсах, — тоже может привести к дублированию.

    Что такое канонизация и зачем она нужна

    На многих ресурсах дубликаты одной веб‑страницы могут спокойно сосуществовать и даже индексироваться. В контексте SEO канонизация — это когда мы сигнализируем ПС о предпочтительной версии страницы; той, которую нужно показывать пользователям в поисковой выдаче.

    Если вы заметили, что дубли страниц ранжируются выше, чем желаемая страница, с этим может помочь каноническая ссылка.

    Элемент link с атрибутом rel="canonical" или, по‑другому, канонический тег (rel=“canonical”, каноникал) — это фрагмент кода, размещенный в заголовке HTML‑страницы, который указывает ПС на предпочтительную версию страницы.

    Вот как это может выглядеть:

    Пример фрагмента кода на сайте
    Пример фрагмента кода на сайте

    Поисковые системы идентифицируют и игнорируют дубликаты, если им об этом сообщить; но иногда и они ошибаются.

    Представьте, что вы имеете дело с интернет‑магазином, продающим шлейки для собак в различных цветах. Для каждого цвета была создана отдельная страница — в общей сложности 10 разных URL‑адресов для шлеек. Проблема в том, что когда пользователь ищет «шлейку для собак» или делает связанные запросы, все 10 URL‑адресов начинают конкурировать за место в результатах поиска.

    Дубли страниц могут ввести в замешательство поисковые системы: одни страницы не попадут в ТОП; другие, напротив, получат больше внимания; а некоторые — вообще не проиндексируются.

    Канонизация призвана внести порядок. Она обеспечивает правильную идентификацию дублей страниц и ориентирует поисковые системы на распознавание и отображение единственной предпочтительной в результатах поиска.

    Указывая каноническую страницу с помощью тега, вы даёте поисковым системам чёткое указание, какой версии контента отдать предпочтение.

    ❗️ Канонизация на примере торта

    Группа школьников с нетерпением ждет большого торта, который вы обещали принести. Едва заметив вас, все они несутся к торту, пытаясь ухватить кусочек. В суматохе несколько кусков падают на пол, кто‑то из детей отхватывает больше торта, а кому‑то не достается ничего.

    Теперь представим, что вы назначили кого‑то ответственным за раздачу торта. Этот человек примет торт от имени группы и тщательно проследит, чтобы каждому ребенку досталась равная порция. Контролируемая организация и распределение торта позволяют избежать хаоса и несправедливости.

    Так работает канонизация.

    Как Google определяет каноническую версию страницы

    Когда Google сталкивается со множеством схожих страниц при индексации, он выбирает одну страницу как «предпочтительную». Но чем он руководствуется? В документации Google представлены некоторые факторы:

    1. Приоритет мобильной версии над настольной

    Google отдаёт предпочтение именно мобильной версии страницы в результатах поиска по сравнению с настольной версией. Причина в том, что все больше пользователей выходят в интернет с мобильных устройств.

    2. Приоритет HTTPS над HTTP

    Google предпочитает обслуживать защищенные страницы (HTTPS), а не незащищенные (HTTP), хотя существуют исключения.

    Как перейти на HTTPS правильно: зачем, когда и как по шагам

    3. Приоритет «чистых» URL над URL с параметрами

    Google выбирает более короткие, «чистые» URL‑адреса, поскольку они гораздо удобнее для пользователей. Например, https://www.womenintechseo.com/mentorship/ будет предпочтительнее https://www.womenintechseo.com/blog/mentorship?2023=july/.

    4. Приоритет страниц над PDF‑файлами и файлами других форматов

    В качестве канонической версии Google обычно выбирает веб‑страницы, поскольку они доступнее для пользователей, чем PDF‑файлы или файлы других форматов.

    5. Язык

    Если вы создали страницы, ориентированные на несколько языков и местоположений, Google может считать язык запроса каноническим. То есть, если пользователь выполняет поиск на французском языке, Google выберет в качестве канонической французскую страницу.

    6. Общие сигналы страниц

    Google оценивает различные сигналы страницы, включая пользовательский опыт (UX), экспертность, авторитетность, надёжность (EЕAT). Страницы, демонстрирующие сильные сигналы в этих областях, с большей вероятностью будут выбраны в качестве канонической версии.

    Какие факторы способствуют передаче канонического сигнала

    Канонический элемент — это самый простой способ сообщить Google, что существует версия данной страницы, которую вы хотели бы проиндексировать.

    Включение <link rel="canonical"href=https://www.example.com/> в HTML‑заголовок страницы служит сигналом. Но поскольку канонический тег является подсказкой, а не директивой, иногда он игнорируется:

    Скриншот отчета GSC по каноническому тегу, июнь 2023 г.

    Скриншот отчета GSC по каноническому тегу, июнь 2023 г.

    Как устранять такие неполадки? Вот что поможет подать Google более заметный сигнал:

    1. Протокол HTTPS

    Google отдает предпочтение защищенным страницам (HTTPS), а не (HTTP).

    2. «Чистая» структура URL‑адреса

    Упрощение структуры URL предпочтительной страницы усиливает канонический сигнал.

    3. Внутренняя ссылка

    Убедитесь, что вы ставите внутренние ссылки только на каноническую версию страницы — Google будет сложно не заметить ваш выбор.

    4. Аннотации hreflang

    Включение аннотаций hreflang на страницы сообщает Google о местоположении и/или языковом таргетинге, что способствует ранжированию наиболее релевантной версии страницы.

    5. Карта сайта (sitemap.xml)

    Включение URL‑адресов в карту сайта указывает Google, что вы считаете эти страницы приоритетными.

    Что такое sitemap и как её создать

    6. Внешние ссылки

    Когда другие веб‑сайты ссылаются на предпочитаемую вами страницу, это является сильным сигналом для Google, что пользователи находят контент ценным и полезным. Убедитесь, что вы запрашиваете ссылки именно на каноническую версию страниц.

    7. 301‑й редирект

    Будьте осторожны! 301‑й редирект следует рассматривать только в том случае, если нет веских причин для существования нескольких версий страницы, и вы намерены окончательно объединить эти версии страниц. Внедрение редиректа 301 не только гарантирует, что пользователи перейдут на правильную версию, но также передаст ссылочный вес и другие сигналы ранжирования.

    Всё это указывает Google на предпочитаемый вами URL‑адрес и помогает продемонстрировать, что канониклы на страницах были созданы намеренно — и их следует соблюдать.

    Проверка сайта на канонические ошибки и возможности

    По шагам:

    1. Исследуйте канонический статус

    Начните со сканирования вашего сайта при помощи, например, Screaming Frog.

    Перейдите на вкладку «Canonicals»: изучите процент канонизированных страниц, отсутствующие канонические страницы, автореферентные теги каноничности, множественные теги каноничности и неиндексируемые канониклы.

    Скриншот отчета по канониклам в Screaming Frog, июнь 2022 г.
    Скриншот отчета по канониклам в Screaming Frog, июнь 2022 г.

    Анализ этих данных даст представление о текущей ситуации и поможет выявить потенциальные проблемы.

    ❗️Посмотреть канонизацию страниц можно и в «Анализе сайта» Топвизора.

    Откройте инструмент, выберите «Страницы» — «Индексируемость» и посмотрите, какие страницы выбраны каноническими.

    Обзор canonical в «Анализе сайта» Топвизора

    2. Экспортируйте и изучите страницы

    Экспортируйте все страницы и проведите более тщательное исследование данных. Правильно ли использованы канонические теги, и указывают ли они на нужные страницы?

    Скриншот канонических данных Google Sheet, июнь 2022 г.
    Скриншот канонических данных Google Sheet, июнь 2022 г.

    3. Проверьте сканируемость и индексируемость

    Убедитесь, что в результате сканирования и индексации выбранные канонические страницы возвращают код 200 ОК.

    Скриншот канонических данных Google Sheet, июнь 2022 г.
    Скриншот канонических данных Google Sheet, июнь 2022 г.

    Коды ошибок HTTP: полный список ошибок сервера

    4. Проверьте индексирование в Google Search Console

    Более детально разобраться в ситуации поможет отчёт об индексировании страницы в GSC, где можно изучить все случаи, когда Google посчитал страницу дубликатом и определил релевантной другую.

    Скриншот отчета об индексировании страниц в GSC, июнь 2022 г.
    Скриншот отчета об индексировании страниц в GSC, июнь 2022 г.

    5. Проанализируйте расхождения в данных

    Если аудит выявит случаи несоблюдения канонических подсказок или не соответствующего ожиданиям ранжирования страниц, следует разобраться в причинах.

    Чтобы определить, какую страницу Google выбирает канонической вместо предпочитаемой, проверьте URL‑адреса в GSC.

    Скриншот отчета о проверке URL‑адресов в GSC, июнь 2022 г.
    Скриншот отчета о проверке URL‑адресов в GSC, июнь 2022 г.

    6. Усильте канонические сигналы

    Оцените, обладают ли канонические страницы всеми факторами, необходимыми для усиления канонического сигнала. О них мы писали выше.

    ❗️ Бонус: автореферентные теги

    Рассмотрите возможность внедрения автореферентных — когда страница ссылается сама на себя — канонических тегов для всех версий канонических страниц. На первый взгляд, это излишество, но иногда вполне может пригодиться.

    Если в какой‑то момент изменения на сайте приведут к добавлению параметров к URL‑адресам, это вызовет новые сложности с дублированием контента; поэтому лучше предотвратить проблему заранее.

    Вот так выглядит аудит канониклов схематически:

    Блок‑схема аудита канонизации
    Блок‑схема аудита канонизации

    Как сделать качественный SEO‑аудит сайта самостоятельно: полное руководство

    Как внедрить канонизацию

    Атрибут rel="canonical" можно внедрять двумя способами.

    1. Канонический элемент в HTML

    Включите атрибут с URL‑адресом, который указывает на предпочтительную версию, в заголовок HTML‑кода страницы‑дубликата. Например:

    <html>
    
    <head>
    
    <title>Red Dog Harnesses</title>
    
    <link rel="canonical" href="https://example.com/dog‑products/red‑harness" />
    
    <!‑‑ other elements ‑‑>
    
    </head>
    
    <!‑‑ rest of the HTML →

    При реализации канонического тега используйте абсолютные, а не относительные пути: https://www.dogstore/dog‑harness/red‑harness/ вместо dogstore/dog‑harness/red‑harness/.

    Хотя зачастую внедрять элемент канонической ссылки в JavaScript не рекомендуется, при отсутствии альтернатив можно прибегнуть и к этому варианту. Но будьте осторожны: неправильная реализация может привести к каноническим проблемам на уровне всего сайта и неожиданным результатам.

    2. Каноническая ссылка в HTTP‑заголовке

    Для документов — PDF‑файлов, XLX, Docx, изображений или видео — необходимо внедрить канонический тег или X‑Robots‑Tag в HTTP‑заголовок, а не HTML‑код страницы. Для этого метода потребуется доступ к файлу конфигурации сервера.

    Вот как это будет выглядеть:

    HTTP/1.1 200 OK
    
    Content‑Length: 19
    
    ...
    
    Link: <https://www.example.com/downloads/dog‑names.pdf>; rel="canonical"

    Распространенные ошибки, которых следует избегать

    Канонические цепочки

    Когда канонический тег указывает на URL‑адрес, который имеет другой канонический тег или перенаправление, создаётся каноническая цепочка.

    Например, если страница «шлейка для собак» является канонической для страницы «красная шлейка», но страница «шлейка для собак» перенаправлена или имеет собственную каноническую ссылку на страницу «товары для собак», это создает противоречивый сигнал. Google в этом случае может вообще отказаться от подсказки.

    Эта проблема может возникнуть из‑за неправильного внедрения канонического кода с помощью JavaScript или ошибок в плагинах CMS. Периодические аудиты канониклов могут помочь выявить и устранить подобные проблемы.

    Размещение канонического тега в теле страницы

    Информация о странице, включая канонические теги, должна быть добавлена в заголовок. Канонические теги в теле страницы Google будет игнорировать. Проверка того, где появляются канонические теги, поможет определить, не переместили ли элементы — например, iframe или незакрытые теги — canonical в тело ваших страниц.

    Канонизация страниц с разбивкой по страницам

    Многие предпочитают канонизировать страницы пагинации, чтобы избежать конкуренции из‑за схожего контента. Однако это может затруднить обнаружение и индексацию отдельных страниц, на которые ведут ссылки из страниц пагинации. В этих случаях на страницах пагинации следует внедрять автореферентные теги.

    Отправка противоречивых канонических сигналов

    Если вы установили канонический тег для определенной страницы, но затем включили в sitemap другой вариант этой страницы или внутреннюю ссылку на этот вариант, он посылает смешанный сигнал и может заставить поисковые системы выбрать каноническую версию страницы самостоятельно.

    Канонизация междоменного или синдицированного контента

    Раньше это считалось хорошей практикой. Однако Google обновил свою документацию, заявив:

    «Атрибут не рекомендуется тем, кто хочет избежать дублирования со стороны партнёров по синдикации, поскольку страницы часто сильно различаются».

    Согласно обновленной документации Google, наиболее эффективным решением для партнеров является блокирование индексации синдицированного контента.

    Ответы на частые вопросы

    Можно ли использовать 301‑й редирект вместо канонических тегов?

    Несмотря на то, что редирект и канонические теги являются сигналами канонизации, они служат разным целям и не должны использоваться взаимозаменяемо.

    Если вы хотите объединить две страницы в одну и сделать их доступными по одному URL‑адресу, то стоит отдать предпочтение редиректу.

    Если нужно объединить похожие страницы и сохранить доступ к ним по отдельности, указав при этом предпочтительную версию для результатов поиска, рекомендуется использовать атрибут rel=”canonical”.

    Если наличие одинакового контента на нескольких URL‑адресах не имеет смысла, следует использовать 301‑й редирект.

    Что такое редирект и как он работает — Глоссарий

    Будут ли проиндексированы канонизированные страницы?

    Если Google последует подсказке, он объединит страницы и проиндексирует указанную каноническую страницу.

    Однако это не означает, что страница, с которой перенаправили на другую, — канонизированная, — совсем не может быть проиндексирована.

    Единственным способом обеспечить отсутствие страницы в результатах поиска является применение тега noindex.

    Зачем использовать канонический тег с аннотацией hreflang?

    Hreflang сигнализирует поисковым системам, какой URL‑адрес вы хотите показывать пользователям, которые находятся в разных местах или ищут на разных языках.

    Представьте, что у вас есть страница «en‑us» для англоговорящих, которые ищут товары для собак в США, и страница «en‑gb» для англоговорящих в Великобритании.

    Hreflang помогает поисковым системам определить, какую версию показывать тому или иному пользователю; а канонический тег показывает, какую версию нужно ранжировать независимо от языка и местоположения.

    Можно ли использовать канонический тег и метатег robots одновременно?

    Во время видеовстречи «Google SEO office‑hours» Джон Мюллер прокомментировал вопрос о каноничности и отсутствии индексации следующим образом:

    «…можно использовать оба тега. Если внешние ссылки, например, указывают на эту страницу, то наличие там обоих тегов помогает нам хорошо понять: вы хотите, чтобы была проиндексирована не эта страница, а другая. Так что, возможно, некоторые сигналы мы можем просто передать дальше».

    Полная видеозапись ответа Джона Мюллера

    🤓 Ещё по теме

    Canonical: что это за атрибут и как прописать канонический адрес страницы

    Как «читать» исходный код страницы: теги и атрибуты важные для SEO

    Как удалить 12 тысяч дублей и попасть в ТОП Яндекса за три месяца