В сеть попала внутренняя инженерная документация Google Search

Произошла утечка «Хранилища контента API».

Стали известны сведения об алгоритмах Google Поиска

Внутренняя версия документации была случайно опубликована в репозитории кода клиентской библиотеки. 

В ней SEO‑специалисты обнаружили 2596 модулей с 14 014 атрибутами (функциями). Как это выглядит:

Атрибуты API Google. Источник: ipullrank
Атрибуты API Google. Источник: ipullrank

Модули связаны с компонентами YouTube, Assistant, Books, поиском видео, ссылками, веб-документами, инфраструктурой сканирования, системой внутреннего календаря и People API. Весь код хранится в одном месте и любая машина в сети может быть частью любой системы Google.

Какие сведения по ранжированию стали известны:

  • у Google действительно есть общий авторитет домена, функция под названием «siteAuthority». Неизвестно, как рассчитывается этот авторитет;
  • в Navboost есть модуль, полностью ориентированный на сигналы кликов. Система учитывает этот ПФ;
  • в документации модуля PerDocData указан атрибут hostAge, который используется для сортировки — это означает, что песочница существует;
  • два модуля имеют атрибуты, связанные с Chrome. Один из них позволяет измерять просмотры на уровне сайта, а другой считает сгенерированные дополнительные ссылки;
  • Траулер — система сканирования страниц;
  • Александрия — основная система индексации;
  • SegIndexer — система, которая помещает документы уровней в уровни индекса;
  • TeraGoogle — вторичная система индексирования документов, которые долго хранятся на диске;
  • HtmlrenderWebkitHeadless — система рендеринга страниц JavaScript;
  • LinkExtractor — система, которая извлекает ссылки со страниц;
  • WebMirror — система, которая управляет канонизацией и дублированием;
  • Mustang — основная система подсчета очков, ранжирования и обслуживания;
  • Ascorer — основной алгоритм ранжирования, который ранжирует страницы перед любыми корректировками повторного ранжирования;
  • NavBoost — система повторного ранжирования на основе журналов кликов о поведении пользователей;
  • FreshnessTwiddler — система изменения рейтинга документов на основе свежести;
  • WebChooserScorer — система, которая определяет имена функций, используемые при оценке фрагментов;
  • GWS — сервер, с которым взаимодействует интерфейс Google;
  • SuperRoot — это мозг Google Search, который отправляет сообщения на серверы Google и управляет системой постобработки для повторного ранжирования и представления результатов;
  • SnippetBrain — система, которая генерирует фрагменты результатов;
  • Glue — система объединения универсальных результатов на основе поведения пользователя;
  • Cookbook — система генерации сигналов;
  • Twiddlers — функции переранжирования, которые выполняются после основного алгоритма поиска Ascorer. Они работают аналогично тому, как работают фильтры и действия в WordPress, где отображаемое настраивается непосредственно перед представлением пользователю. Twiddlers могут настроить оценку поиска информации в документе или изменить рейтинг документа;
  • Google использует шаблоны намерений пользователей, такие как повторные поиски и клики, для корректировки ранжирования;
  • платформа EWOK — Google использует платформу оценки качества, на которой оценку сайтам дают люди. Эти оценки могут напрямую влиять на ранжирование в поисковой выдаче, так как используются в поисковых системах Google в качестве обучающих данных или прямых сигналов ранжирования;

  • Google отдает предпочтение известным, популярным брендам при ранжировании в поисковой выдаче. E‑E‑A‑T могут не иметь такого прямого влияния, важнее бренды и вовлечённость пользователей;
  • уровень индексирования влияет на ценность ссылки;
  • Google имеет возможность измерять скорость распространения спама по ссылкам;
  • Google использует только последние 20 изменений для URL‑адреса при анализе ссылок;
  • размер шрифта терминов и ссылок имеет значение;
  • Google решает, как оценить ссылку, исходя из того, насколько система доверяет домашней странице;
  • PageRank домашней страницы учитывается для всех страниц;
  • Google подсчитывает количество токенов и соотношение общего количества слов в тексте к количеству уникальных токенов;
  • короткий контент оценивается за оригинальность;
  • заголовки страниц также оцениваются по запросам;
  • длинные заголовки страниц неоптимальны для увеличения количества кликов, но они хороши для повышения рейтинга;
  • даты очень важны, так как Google сосредоточен на свежих результатах;
  • информация о регистрации домена хранится на страницах;

  • если более 50 % страниц сайта содержат видео, сайт считается ориентированным на видео — это имеет значение;
  • У Google есть классификаторы, которые генерируют оценки для YMYL Health и YMYL News;
  • Google специально векторизует страницы и сайты и сравнивает встраивания страниц с встраиваниями сайтов, чтобы увидеть, относится ли страница к теме;
  • у Google есть специальный сигнал: он указывает, что ресурс — «небольшой персональный сайт»;
  • Google сохраняет авторов, связанных с документом, система также пытается определить, действительно ли объект на странице — её автор.

В документации обсуждается ряд алгоритмических понижений:

  • несоответствие привязки. Если ссылка не соответствует целевому сайту, на который она ссылается, ссылка понижается при расчетах. Google ищет релевантность по обе стороны ссылки;
  • понижение результатов выдачи. Сигнал указывает на понижение на основе факторов, наблюдаемых в результатах выдачи, и предполагает потенциальное недовольство пользователя страницей (возможно, измеряется кликами);
  • понижение уровня навигации. Предположительно, это понижение уровня навигации, применяемое к страницам, демонстрирующим плохую навигацию или проблемы с пользовательским интерфейсом;
  • понижение уровня доменов с точным соответствием;
  • понижение уровня обзора продукта;
  • понижение местоположения. Есть признаки того, что «глобальные» и «суперглобальные» страницы могут быть понижены. Google пытается связать страницы с местоположением и соответствующим образом ранжировать их;
  • понижение контента для взрослых.

Google обновил документацию по ИИ‑обзорам

Отключить их полностью по‑прежнему нельзя, так как это такая же основная функция, как и Knowledge Panels. Вместо этого компания предложила фильтр «Веб‑поиск».

В Справке появилось два новых раздела:

  • о фильтре «Веб‑поиск»: он отображает только текстовые ссылки без таких функций, как обзоры AI;
  • об обратной связи: теперь можно оставить отзыв о работе искусственного интеллекта — если сгенерированный ответ небезопасен, бесполезен, неточен или плох по какой‑либо другой причине.

Как можно сообщить о неправильной работе искусственного интеллекта:

  1. В правом верхнем углу обзора нажать «Меню» — три точки.
  2. Нажать кнопку «Отзыв».
  3. Выбрать тот элемент обзора ИИ, о котором идёт речь в отзыве.
  4. Выбрать категорию отзыва.
  5. Добавить описание (по желанию).
  6. Нажать «Отправить».

Ранее СМИ сообщили о странных ответах AI.

В мобильном поиске появилась кнопка «Посетить»

У некоторых пользователей она отображается под дополнительными ссылками. SEO‑специалисты отмечают, что не заметить её сложно.

Кнопка «Посетить» в мобильной выдаче. Источник: SER
Кнопка «Посетить» в мобильной выдаче. Источник: SER

Ранее Google тестировал расширенные фрагменты результатов с Reddit.

Пользователи заметили, что GSC отображает меньше внешних ссылок

Отчёт о ссылках в консоли поиска Google показывает значительно меньше ссылок, чем месяцем ранее — об этом сообщают как SEO‑специалисты, так и владельцы сайтов. У некоторых показатели упали более чем на 30 %.

В компании пока не прокомментировали ситуацию, поэтому пользователи строят догадки, в чём причина и будут ли на сайт наложены какие‑то санкции. При этом страницы доступны для индексации.

Google также не подтвердил информацию об алгоритмических действиях, направленных на новостные каналы.

Функция в Google Images позволяет просмотреть точные совпадения

У Google появился новый способ поиска точных совпадений на фотографиях через Google Lens. Таким образом можно найти те сайты, которые незаконно используют чужие изображения. 

Как это выглядит:

Функция «Найти точные изображения». Источник: SER
Функция «Найти точные изображения». Источник: SER

Пользователи отмечают, что эта функция существует давно, но называлась по‑другому — «Найти источник изображения».

Google Search Console иногда отображает некоторые страницы как дубликаты

При этом они не дублируют другую страницу: в отчёте появляется ошибка. На LinkedIn Гэри Иллис объяснил, почему так происходит. 

Он написал: 

«Иногда это происходит из‑за ошибки, в результате которой страницы имеют абсолютно одинаковое содержание. Например, это может быть временная ошибка в службе, из‑за которой страницы выглядят одинаково. Причиной также может быть проблема с рендерингом. Если происходит что‑то подобное, вам следует проверить страницы после рендеринга и убедиться, что они действительно отличаются. Если это действительно так, вы можете повторно отправить его на индексацию и проверить, устранит ли это дублирующийся статус».

Проверку после рендеринга можно провести в:

  • инструменте проверки URL‑адресов в GSC;
  • сканерах (например, Screaming Frog), они также позволяют просмотреть HTML‑код полученных страниц.

Ранее Гэри Иллис заявил, что код, опубликованный Google на Github, уже некоторое время используется поисковой системой.

Теги: