Что там опять 28.05.2024

В сеть попала внутренняя инженерная документация Google Search

Произошла утечка «Хранилища контента API».

Стали известны сведения об алгоритмах Google Поиска

Google обновил документацию по ИИ‑обзорам

В мобильном поиске появилась кнопка «Посетить»

Пользователи заметили, что GSC отображает меньше внешних ссылок

Функция в Google Images позволяет просмотреть точные совпадения

Google Search Console иногда отображает некоторые страницы как дубликаты

Стали известны сведения об алгоритмах Google Поиска

Внутренняя версия документации была случайно опубликована в репозитории кода клиентской библиотеки.

В ней SEO‑специалисты обнаружили 2596 модулей с 14 014 атрибутами (функциями). Как это выглядит:

Атрибуты API Google. Источник: ipullrank

Модули связаны с компонентами YouTube, Assistant, Books, поиском видео, ссылками, веб-документами, инфраструктурой сканирования, системой внутреннего календаря и People API. Весь код хранится в одном месте и любая машина в сети может быть частью любой системы Google.

Какие сведения по ранжированию стали известны:

у Google действительно есть общий авторитет домена, функция под названием «siteAuthority». Неизвестно, как рассчитывается этот авторитет;
в Navboost есть модуль, полностью ориентированный на сигналы кликов. Система учитывает этот ПФ;
в документации модуля PerDocData указан атрибут hostAge, который используется для сортировки — это означает, что песочница существует;
два модуля имеют атрибуты, связанные с Chrome. Один из них позволяет измерять просмотры на уровне сайта, а другой считает сгенерированные дополнительные ссылки;
Траулер — система сканирования страниц;
Александрия — основная система индексации;
SegIndexer — система, которая помещает документы уровней в уровни индекса;
TeraGoogle — вторичная система индексирования документов, которые долго хранятся на диске;
HtmlrenderWebkitHeadless — система рендеринга страниц JavaScript;
LinkExtractor — система, которая извлекает ссылки со страниц;
WebMirror — система, которая управляет канонизацией и дублированием;
Mustang — основная система подсчета очков, ранжирования и обслуживания;
Ascorer — основной алгоритм ранжирования, который ранжирует страницы перед любыми корректировками повторного ранжирования;
NavBoost — система повторного ранжирования на основе журналов кликов о поведении пользователей;
FreshnessTwiddler — система изменения рейтинга документов на основе свежести;
WebChooserScorer — система, которая определяет имена функций, используемые при оценке фрагментов;
GWS — сервер, с которым взаимодействует интерфейс Google;
SuperRoot — это мозг Google Search, который отправляет сообщения на серверы Google и управляет системой постобработки для повторного ранжирования и представления результатов;
SnippetBrain — система, которая генерирует фрагменты результатов;
Glue — система объединения универсальных результатов на основе поведения пользователя;
Cookbook — система генерации сигналов;
Twiddlers — функции переранжирования, которые выполняются после основного алгоритма поиска Ascorer. Они работают аналогично тому, как работают фильтры и действия в WordPress, где отображаемое настраивается непосредственно перед представлением пользователю. Twiddlers могут настроить оценку поиска информации в документе или изменить рейтинг документа;
Google использует шаблоны намерений пользователей, такие как повторные поиски и клики, для корректировки ранжирования;
платформа EWOK — Google использует платформу оценки качества, на которой оценку сайтам дают люди. Эти оценки могут напрямую влиять на ранжирование в поисковой выдаче, так как используются в поисковых системах Google в качестве обучающих данных или прямых сигналов ранжирования;
Google отдает предпочтение известным, популярным брендам при ранжировании в поисковой выдаче. E‑E‑A‑T могут не иметь такого прямого влияния, важнее бренды и вовлечённость пользователей;
уровень индексирования влияет на ценность ссылки;
Google имеет возможность измерять скорость распространения спама по ссылкам;
Google использует только последние 20 изменений для URL‑адреса при анализе ссылок;
размер шрифта терминов и ссылок имеет значение;
Google решает, как оценить ссылку, исходя из того, насколько система доверяет домашней странице;
PageRank домашней страницы учитывается для всех страниц;
Google подсчитывает количество токенов и соотношение общего количества слов в тексте к количеству уникальных токенов;
короткий контент оценивается за оригинальность;
заголовки страниц также оцениваются по запросам;
длинные заголовки страниц неоптимальны для увеличения количества кликов, но они хороши для повышения рейтинга;
даты очень важны, так как Google сосредоточен на свежих результатах;
информация о регистрации домена хранится на страницах;
если более 50 % страниц сайта содержат видео, сайт считается ориентированным на видео — это имеет значение;
У Google есть классификаторы, которые генерируют оценки для YMYL Health и YMYL News;
Google специально векторизует страницы и сайты и сравнивает встраивания страниц с встраиваниями сайтов, чтобы увидеть, относится ли страница к теме;
у Google есть специальный сигнал: он указывает, что ресурс — «небольшой персональный сайт»;
Google сохраняет авторов, связанных с документом, система также пытается определить, действительно ли объект на странице — её автор.

В документации обсуждается ряд алгоритмических понижений:

несоответствие привязки. Если ссылка не соответствует целевому сайту, на который она ссылается, ссылка понижается при расчетах. Google ищет релевантность по обе стороны ссылки;
понижение результатов выдачи. Сигнал указывает на понижение на основе факторов, наблюдаемых в результатах выдачи, и предполагает потенциальное недовольство пользователя страницей (возможно, измеряется кликами);
понижение уровня навигации. Предположительно, это понижение уровня навигации, применяемое к страницам, демонстрирующим плохую навигацию или проблемы с пользовательским интерфейсом;
понижение уровня доменов с точным соответствием;
понижение уровня обзора продукта;
понижение местоположения. Есть признаки того, что «глобальные» и «суперглобальные» страницы могут быть понижены. Google пытается связать страницы с местоположением и соответствующим образом ранжировать их;
понижение контента для взрослых.

Google обновил документацию по ИИ‑обзорам

Отключить их полностью по‑прежнему нельзя, так как это такая же основная функция, как и Knowledge Panels. Вместо этого компания предложила фильтр «Веб‑поиск».

В Справке появилось два новых раздела:

о фильтре «Веб‑поиск»: он отображает только текстовые ссылки без таких функций, как обзоры AI;
об обратной связи: теперь можно оставить отзыв о работе искусственного интеллекта — если сгенерированный ответ небезопасен, бесполезен, неточен или плох по какой‑либо другой причине.

Как можно сообщить о неправильной работе искусственного интеллекта:

В правом верхнем углу обзора нажать «Меню» — три точки.
Нажать кнопку «Отзыв».
Выбрать тот элемент обзора ИИ, о котором идёт речь в отзыве.
Выбрать категорию отзыва.
Добавить описание (по желанию).
Нажать «Отправить».

Ранее СМИ сообщили о странных ответах AI.

В мобильном поиске появилась кнопка «Посетить»

У некоторых пользователей она отображается под дополнительными ссылками. SEO‑специалисты отмечают, что не заметить её сложно.

Кнопка «Посетить» в мобильной выдаче. Источник: SER

Ранее Google тестировал расширенные фрагменты результатов с Reddit.

Пользователи заметили, что GSC отображает меньше внешних ссылок

Отчёт о ссылках в консоли поиска Google показывает значительно меньше ссылок, чем месяцем ранее — об этом сообщают как SEO‑специалисты, так и владельцы сайтов. У некоторых показатели упали более чем на 30 %.

В компании пока не прокомментировали ситуацию, поэтому пользователи строят догадки, в чём причина и будут ли на сайт наложены какие‑то санкции. При этом страницы доступны для индексации.

Google также не подтвердил информацию об алгоритмических действиях, направленных на новостные каналы.

Функция в Google Images позволяет просмотреть точные совпадения

У Google появился новый способ поиска точных совпадений на фотографиях через Google Lens. Таким образом можно найти те сайты, которые незаконно используют чужие изображения.

Как это выглядит:

Функция «Найти точные изображения». Источник: SER

Пользователи отмечают, что эта функция существует давно, но называлась по‑другому — «Найти источник изображения».

Google Search Console иногда отображает некоторые страницы как дубликаты

При этом они не дублируют другую страницу: в отчёте появляется ошибка. На LinkedIn Гэри Иллис объяснил, почему так происходит.

Он написал:

«Иногда это происходит из‑за ошибки, в результате которой страницы имеют абсолютно одинаковое содержание. Например, это может быть временная ошибка в службе, из‑за которой страницы выглядят одинаково. Причиной также может быть проблема с рендерингом. Если происходит что‑то подобное, вам следует проверить страницы после рендеринга и убедиться, что они действительно отличаются. Если это действительно так, вы можете повторно отправить его на индексацию и проверить, устранит ли это дублирующийся статус».

Проверку после рендеринга можно провести в:

инструменте проверки URL‑адресов в GSC;
сканерах (например, Screaming Frog), они также позволяют просмотреть HTML‑код полученных страниц.

Ранее Гэри Иллис заявил, что код, опубликованный Google на Github, уже некоторое время используется поисковой системой.

Теги:

#google