Новое исследование: как часто ИИ-ассистенты дают несуществующие ссылки?

Авторы исследования изучили 16 миллионов уникальных URL-адресов, созданных различными ИИ-помощниками, включая ChatGPT, Perplexity, Copilot, Gemini, Claude и Mistral, чтобы понять, как часто они ведут на несуществующие страницы. В статье — результаты.

Новое исследование: как часто ИИ-ассистенты дают несуществующие ссылки?
Несуществующая ссылка
Несуществующая ссылка
Исследование показало, что ИИ‑помощники направляют посетителей на страницы 404 в 2,87 раза чаще, чем обычный поиск от Google.

Особенно выделяется ChatGPT, который создаёт наибольшее количество неработающих ссылок: 1,01% всех URL‑адресов, по которым были сделаны клики, и 2,38% ссылок, на которые он ссылается, приводят на страницы 404. Для сравнения: базовый показатель для всех URL‑адресов составляет 0,15% и 0,84%.

Ниже — подробнее. Это перевод и адаптация исследования Ahrefs. 

Тест №1. Анализ c помощью Web Analytics URL‑адресов, по которым были переходы

Для первого теста авторы воспользовались анонимными данными, полученными из бесплатного инструмента Web Analytics. Это позволило получить полную картину того, как пользователи взаимодействуют с URL‑адресами, рекомендованными ИИ, на настоящих веб‑сайтах.

Исследование проводилось следующим образом:

1. Использовали данные Web Analytics, чтобы найти все URL‑адреса, на которые ссылались ИИ‑ассистенты (СhatGPT и Perplexity).

2. Затем авторы определили, какие из этих URL‑адресов могли быть страницами 404, основываясь на наличии в их названиях слов «404» или «не найдено».

3. Для каждой нейросети авторы сравнили количество возможных страниц 404 с общим количеством перенаправленных URL‑адресов, чтобы определить искомый коэффициент.

Показатель 404 в зависимости от ИИ
Показатель 404 в зависимости от ИИ
Результаты исследования показали, что ChatGPT имеет самый высокий показатель страниц 404: 1,01% всех найденных URL‑адресов содержат «404» или «не найдено» в названии страницы.

Далее идёт Claude с 0,58% URL‑адресов, за ним Copilot (0,34%), Perplexity (0,31%) и Gemini (0,21%). Mistral демонстрирует наименьший показатель (0,12%), однако также имеет наименьший объем реферального трафика, что делает его самым малочисленным в этом исследовании.

Нейросеть

Страницы 404

Всего ссылок

Показатель 404

ChatGPT

84 465

8 332 436

1,01%

Perplexity

3 529

1 133 084

0,31%

Copilot

1 466

431 319

0,34%

Gemini

734

351 242

0,21%

Claude

550

95 293

0,58%

Mistral

8

6 760

0,12%

Как интегрировать GEO в SEO 

Базовый показатель 404 в Google

Этот тест нельзя назвать идеальным и полностью объективным. Некоторые неисправные страницы могут не содержать «404» или «не найдено» в названии. Также не все ссылки, созданные нейросетями, будут кликабельными (и, следовательно, не попадут в данные Web Analytics), поэтому вполне вероятно, что общее количество выдуманных URL‑адресов недооценено.

Стоит ещё понимать, что некоторые из этих страниц могут быть реальными страницами с ошибкой 404, а не придуманными искусственным интеллектом. Чтобы добавить больше контекста к этим данным, мы сравнили их с «базовым показателем» страниц 404. Для этого мы изучили статистику ошибки 404 для всех уникальных URL‑адресов, на которые ссылается Google (629 млн уникальных URL‑адресов). Этот базовый показатель составил 0,15%.

Показатель 404 в зависимости от источника
Показатель 404 в зависимости от источника

С учётом этого дополнительного контекста становится очевидно, что показатели 404 для ИИ‑помощников значительно выше «базового» показателя 404 в Google. Похоже, что ChatGPT, Claude, Copilot, Perplexity и Gemini создают несуществующие URL‑адреса.

Средний показатель 404 для всех нейросетей составил 0,43%. По сравнению с Google ИИ‑ассистенты отправляют посетителей на неработающие страницы в 2,87 раза чаще, чем традиционный поиск (0,43 / 0,15).
Показатель 404 в зависимости от источника
Показатель 404 в зависимости от источника

Действительно ли пользователи более вовлечены в контент, когда переходят с ИИ‑выдачи на сайт? 

Тест №2. Анализ цитируемых URL‑адресов в Brand Radar

Авторы также провели аналогичный эксперимент, используя Brand Radar — обширную базу данных, в которой хранятся миллионы запросов и ответов от ИИ. С помощью этих данных можно проанализировать все URL‑адреса, на которые ссылается искусственный интеллект, а не только те, по которым были переходы.

Результаты:

  1. Авторы обнаружили все URL‑адреса, которые выдают ChatGPT, Perplexity, Copilot и Gemini, в Brand Radar.

  2. Для тех URL‑адресов, которые также хранятся в базе данных краулера (65% от общего количества), был получен самый последний статус HTTP.

  3. Для каждого ИИ‑помощника авторы рассчитали искомый коэффициент в базе данных краулера.

Показатель 404 цитируемых ссылок
Показатель 404 цитируемых ссылок

Важно отметить, что коэффициент 404 (то есть количество цитируемых и кликаемых URL‑адресов) оказался значительно выше, чем в предыдущем тесте.

Как и прежде, ChatGPT демонстрирует самый высокий уровень ошибок (2,38%), за ним следуют Perplexity (0,87%) и Gemini (0,86%). Copilot, напротив, имеет самый низкий показатель — всего 0,54%.

Этот тест также имеет свои недостатки. Как и в предыдущих случаях, некоторые из этих страниц могут иметь этот статус по причинам, не связанным с придумками ИИ. Кроме того, нельзя точно посчитать количество 404‑х страниц, так как нам доступен HTTP‑статус только тех URL‑адресов, которые находятся в базе данных краулера.

Как и прежде, целью было сравнить эти данные с «базовым» показателем. Для этого авторы собрали все уникальные URL‑адреса с первых 20 позиций 400 тыс. результатов.

67% этих URL‑адресов также были в базе данных краулера, что позволило высчитать показатель 404 на уровне 0,84%. Проще говоря, это означает, что 0,84% URL‑адресов из ТОП‑20 Google имеют статус 404.

Показатель 404 цитируемых ссылок
Показатель 404 цитируемых ссылок
Показатели для Perplexity (0,87%) и Gemini (0,86%) удивительно близки к поисковой выдаче Google (0,84%).

Это может быть связано с тем, что Gemini и Perplexity используют индекс Google для поиска URL‑адресов. Их показатели 404 отражают процент 404 URL‑адресов в исходном источнике — Google. Если это так, то у них, вероятно, более низкий показатель ошибочных результатов, чем у ChatGPT.

Copilot использует индекс Bing, поэтому возможно, что показатель 404 Copilot отражает аналогичный показатель для Bing.

ИИ

Уникальные процитированные сайты

Ссылки в краулере

Показатель 404

ChatGPT

2 452 776

1 524 277

2,38%

Perplexity

3 471 754

2 450 016

0,87%

Copilot

1 485 355

1 120 780

0,54%

Gemini

1 354 171

641 603

0,86%

Почему нейросети могут создавать несуществующие ссылки?

Скорее всего, существуют две основные причины возникновения подобных ситуаций.

Во‑первых, некоторые из указанных URL‑адресов когда‑то были работающими, но теперь имеют статус 404 («страница не найдена»). ИИ‑ассистенты используют как обычный поиск, так и свои собственные внутренние базы данных. Не исключено, что некоторые из этих URL‑адресов ранее были актуальны, но затем были удалены или мигрировали без редиректа, особенно если ИИ полагается исключительно на свои внутренние данные. Это также объясняет, почему в базе данных краулера так много страниц со статусом 404.

Что делать со страницами, которые выдают ошибку 404 

Во‑вторых, некоторые из указанных URL‑адресов всё‑таки выдуманы, то есть они соответствуют ожидаемому шаблону для данного веб‑сайта, но на самом деле не существуют.

Для блога Ahrefs наиболее распространёнными придуманными URL‑адресами являются такие страницы, как /blog/internal-links/ и /blog/newsletter/. Учитывая, что здесь информация о SEO и различные новости, эти URL‑адреса соответствуют шаблону типичных страниц блога, но на самом деле не существуют.

Таблица URL

Некоторые из этих ссылок даже есть в базе данных краулера. Если опубликованный контент, созданный ИИ, содержит выдуманный URL, краулер попытается его запомнить. Учитывая, что 74% новых веб‑страниц содержат некоторый объём контента от ИИ, эта теория вполне вероятна.

Как найти несуществующие URL‑адреса на вашем сайте

Если вы хотите понять, насколько сильно выдуманные URL влияют на ваш сайт, лучшим способом будет аналитика вашего собственного сайта. Вот как сделать это самостоятельно:

  1. Отфильтруйте данные по вашему сайту, чтобы показать ИИ‑трафик

Первым шагом будет фильтрация данных для отображения посещений, полученных от нейросетей. Если вы используете GA4, вам нужно применить регулярное выражение в отчёте «Исследование».

Тьерри Нгутегуре из SALT.agency рекомендует использовать указанное ниже. Обратите внимание, что вам потребуется обновить его в случае появления новых ИИ‑ассистентов или изменений в их информации об источниках:

.*gpt.*|.*chatgpt.*|.*openai.*|.*writesonic.*|.*nimble.*|.*perplexity.*|.*claude.*|.*gemini.*google.*|.*copilot.*microsoft*|.*outrider.*|.*google.*bard.*|.*bard.*google.*|.*bard.*|.*deepseek.*|.*mistral.*|.*edgeservices.*|.*neeva.*

Если вы используете Web Analytics от Ahrefs, просто воспользуйтесь встроенным фильтром AI search:

Выберите любой интересующий вас период времени и экспортируйте данные в Google Таблицы.

Ahrefs

Напоминаем, что Ahrefs не работает в России.

2. Создайте Apps Script для возврата статуса HTTP

Затем попросите ChatGPT (или другого помощника) сгенерировать Apps Script, который будет возвращать статус HTTP для URL‑адресов в Google Таблицах. В Таблицах перейдите в раздел «Расширения» > Apps Script, вставьте и сохраните скрипт.

Скрипт

Создайте новый столбец, запустите скрипт, выберите ячейку с URL‑адресом (например, =GetHttpStatus(A2)) и примените его ко всему столбцу.

Этот процесс может занять некоторое время, если у вас тысячи URL‑адресов. Для больших сайтов лучше использовать специальный краулер.

ТОП‑29 нейросетей для SEO в 2025 году 

3. Фильтрация по статусу 404 и >10 посетителям

Затем отфильтруйте таблицу, чтобы отобразить только те URL‑адреса, которые имеют статус 404 и посетителей.

Советуем установить порог в 10 посетителей в месяц, но вы можете выбрать любое значение, которое подходит для вашего сайта.

Таблица URL

Вы можете проверить некоторые из этих URL‑адресов вручную, чтобы убедиться, что они действительно выдуманные (а не реальные страницы, которые недоступны по другим причинам).

⚙️ Находите ошибки на вашем сайте с помощью Топвизора

Инструмент Аудит сайта поможет выявить технические проблемы, которые мешают индексации и ранжированию вашего сайта. Анализатор не только соберёт технические данные, но и подскажет, как исправить ошибки и предупреждения. 

4. 301‑й редирект (если это вообще нужно)

Если у вас есть выдуманные ИИ страницы, которые имеют некоторое количество посещений, возможно, стоит рассмотреть возможность 301‑го редиректа на соответствующую страницу вашего сайта (если она у вас есть).

Вам придётся постараться и предположить, о чём могла бы быть придуманная страница. Однако зачастую одного лишь URL‑адреса бывает достаточно, чтобы сделать предположение. Например, посетители страницы с URL‑адресом /blog/keywords/, вероятно, найдут что‑то полезное в нашем реальном руководстве по исследованию ключевых слов.

Если вы не хотите создавать паутину 301‑редиректов, вы можете обновить свою страницу 404. Включите в неё список полезных ресурсов, которые могут быть нужны разочарованным посетителям, попавшим сюда из LLM. Это может быть, например, ваш самый популярный контент или страница, где можно подписаться на рассылку новостей.

Гайд по страницам 404: как создать и улучшить 

Стоит ли вообще переживать из‑за этой проблемы?

По последним данным, на долю ИИ‑помощников, таких как ChatGPT, приходится лишь 0,25% всего трафика, в то время как на долю Google — 39,35%. Однако эта цифра растёт. Учитывая, что 1,01% трафика от ChatGPT приводит к странице 404, выдуманные URL‑адреса оказывают совсем небольшое влияние на и без того небольшой средний трафик веб‑сайтов — но только пока.

Главный вывод: если вы можете минимизировать влияние придуманных URL‑адресов с минимальными усилиями, то, вероятно, это того стоит.

Ещё по теме

«Google считает, что я мёртвый физик»: как ломается крупнейшая поисковая система

«Я создал систему пропаганды на базе ИИ за $105»: как фермы контента зарабатывают на рекламе

Нейросети в SEO: как я навайбкодил сайты с нуля и завалил бизнес лидами