В сеть попала внутренняя инженерная документация Google Search
Произошла утечка «Хранилища контента API».
Стали известны сведения об алгоритмах Google Поиска
Внутренняя версия документации была случайно опубликована в репозитории кода клиентской библиотеки.
В ней SEO‑специалисты обнаружили 2596 модулей с 14 014 атрибутами (функциями). Как это выглядит:
Модули связаны с компонентами YouTube, Assistant, Books, поиском видео, ссылками, веб-документами, инфраструктурой сканирования, системой внутреннего календаря и People API. Весь код хранится в одном месте и любая машина в сети может быть частью любой системы Google.
Какие сведения по ранжированию стали известны:
- у Google действительно есть общий авторитет домена, функция под названием «siteAuthority». Неизвестно, как рассчитывается этот авторитет;
- в Navboost есть модуль, полностью ориентированный на сигналы кликов. Система учитывает этот ПФ;
- в документации модуля PerDocData указан атрибут hostAge, который используется для сортировки — это означает, что песочница существует;
- два модуля имеют атрибуты, связанные с Chrome. Один из них позволяет измерять просмотры на уровне сайта, а другой считает сгенерированные дополнительные ссылки;
- Траулер — система сканирования страниц;
- Александрия — основная система индексации;
- SegIndexer — система, которая помещает документы уровней в уровни индекса;
- TeraGoogle — вторичная система индексирования документов, которые долго хранятся на диске;
- HtmlrenderWebkitHeadless — система рендеринга страниц JavaScript;
- LinkExtractor — система, которая извлекает ссылки со страниц;
- WebMirror — система, которая управляет канонизацией и дублированием;
- Mustang — основная система подсчета очков, ранжирования и обслуживания;
- Ascorer — основной алгоритм ранжирования, который ранжирует страницы перед любыми корректировками повторного ранжирования;
- NavBoost — система повторного ранжирования на основе журналов кликов о поведении пользователей;
- FreshnessTwiddler — система изменения рейтинга документов на основе свежести;
- WebChooserScorer — система, которая определяет имена функций, используемые при оценке фрагментов;
- GWS — сервер, с которым взаимодействует интерфейс Google;
- SuperRoot — это мозг Google Search, который отправляет сообщения на серверы Google и управляет системой постобработки для повторного ранжирования и представления результатов;
- SnippetBrain — система, которая генерирует фрагменты результатов;
- Glue — система объединения универсальных результатов на основе поведения пользователя;
- Cookbook — система генерации сигналов;
- Twiddlers — функции переранжирования, которые выполняются после основного алгоритма поиска Ascorer. Они работают аналогично тому, как работают фильтры и действия в WordPress, где отображаемое настраивается непосредственно перед представлением пользователю. Twiddlers могут настроить оценку поиска информации в документе или изменить рейтинг документа;
- Google использует шаблоны намерений пользователей, такие как повторные поиски и клики, для корректировки ранжирования;
-
платформа EWOK — Google использует платформу оценки качества, на которой оценку сайтам дают люди. Эти оценки могут напрямую влиять на ранжирование в поисковой выдаче, так как используются в поисковых системах Google в качестве обучающих данных или прямых сигналов ранжирования;
- Google отдает предпочтение известным, популярным брендам при ранжировании в поисковой выдаче. E‑E‑A‑T могут не иметь такого прямого влияния, важнее бренды и вовлечённость пользователей;
- уровень индексирования влияет на ценность ссылки;
- Google имеет возможность измерять скорость распространения спама по ссылкам;
- Google использует только последние 20 изменений для URL‑адреса при анализе ссылок;
- размер шрифта терминов и ссылок имеет значение;
- Google решает, как оценить ссылку, исходя из того, насколько система доверяет домашней странице;
- PageRank домашней страницы учитывается для всех страниц;
- Google подсчитывает количество токенов и соотношение общего количества слов в тексте к количеству уникальных токенов;
- короткий контент оценивается за оригинальность;
- заголовки страниц также оцениваются по запросам;
- длинные заголовки страниц неоптимальны для увеличения количества кликов, но они хороши для повышения рейтинга;
- даты очень важны, так как Google сосредоточен на свежих результатах;
-
информация о регистрации домена хранится на страницах;
- если более 50 % страниц сайта содержат видео, сайт считается ориентированным на видео — это имеет значение;
- У Google есть классификаторы, которые генерируют оценки для YMYL Health и YMYL News;
- Google специально векторизует страницы и сайты и сравнивает встраивания страниц с встраиваниями сайтов, чтобы увидеть, относится ли страница к теме;
- у Google есть специальный сигнал: он указывает, что ресурс — «небольшой персональный сайт»;
- Google сохраняет авторов, связанных с документом, система также пытается определить, действительно ли объект на странице — её автор.
В документации обсуждается ряд алгоритмических понижений:
- несоответствие привязки. Если ссылка не соответствует целевому сайту, на который она ссылается, ссылка понижается при расчетах. Google ищет релевантность по обе стороны ссылки;
- понижение результатов выдачи. Сигнал указывает на понижение на основе факторов, наблюдаемых в результатах выдачи, и предполагает потенциальное недовольство пользователя страницей (возможно, измеряется кликами);
- понижение уровня навигации. Предположительно, это понижение уровня навигации, применяемое к страницам, демонстрирующим плохую навигацию или проблемы с пользовательским интерфейсом;
- понижение уровня доменов с точным соответствием;
- понижение уровня обзора продукта;
- понижение местоположения. Есть признаки того, что «глобальные» и «суперглобальные» страницы могут быть понижены. Google пытается связать страницы с местоположением и соответствующим образом ранжировать их;
- понижение контента для взрослых.
Google обновил документацию по ИИ‑обзорам
Отключить их полностью по‑прежнему нельзя, так как это такая же основная функция, как и Knowledge Panels. Вместо этого компания предложила фильтр «Веб‑поиск».
В Справке появилось два новых раздела:
- о фильтре «Веб‑поиск»: он отображает только текстовые ссылки без таких функций, как обзоры AI;
- об обратной связи: теперь можно оставить отзыв о работе искусственного интеллекта — если сгенерированный ответ небезопасен, бесполезен, неточен или плох по какой‑либо другой причине.
Как можно сообщить о неправильной работе искусственного интеллекта:
- В правом верхнем углу обзора нажать «Меню» — три точки.
- Нажать кнопку «Отзыв».
- Выбрать тот элемент обзора ИИ, о котором идёт речь в отзыве.
- Выбрать категорию отзыва.
- Добавить описание (по желанию).
- Нажать «Отправить».
Ранее СМИ сообщили о странных ответах AI.
В мобильном поиске появилась кнопка «Посетить»
У некоторых пользователей она отображается под дополнительными ссылками. SEO‑специалисты отмечают, что не заметить её сложно.
Ранее Google тестировал расширенные фрагменты результатов с Reddit.
Пользователи заметили, что GSC отображает меньше внешних ссылок
Отчёт о ссылках в консоли поиска Google показывает значительно меньше ссылок, чем месяцем ранее — об этом сообщают как SEO‑специалисты, так и владельцы сайтов. У некоторых показатели упали более чем на 30 %.
В компании пока не прокомментировали ситуацию, поэтому пользователи строят догадки, в чём причина и будут ли на сайт наложены какие‑то санкции. При этом страницы доступны для индексации.
Google также не подтвердил информацию об алгоритмических действиях, направленных на новостные каналы.
Функция в Google Images позволяет просмотреть точные совпадения
У Google появился новый способ поиска точных совпадений на фотографиях через Google Lens. Таким образом можно найти те сайты, которые незаконно используют чужие изображения.
Как это выглядит:
Пользователи отмечают, что эта функция существует давно, но называлась по‑другому — «Найти источник изображения».
Google Search Console иногда отображает некоторые страницы как дубликаты
При этом они не дублируют другую страницу: в отчёте появляется ошибка. На LinkedIn Гэри Иллис объяснил, почему так происходит.
Он написал:
«Иногда это происходит из‑за ошибки, в результате которой страницы имеют абсолютно одинаковое содержание. Например, это может быть временная ошибка в службе, из‑за которой страницы выглядят одинаково. Причиной также может быть проблема с рендерингом. Если происходит что‑то подобное, вам следует проверить страницы после рендеринга и убедиться, что они действительно отличаются. Если это действительно так, вы можете повторно отправить его на индексацию и проверить, устранит ли это дублирующийся статус».
Проверку после рендеринга можно провести в:
- инструменте проверки URL‑адресов в GSC;
- сканерах (например, Screaming Frog), они также позволяют просмотреть HTML‑код полученных страниц.
Ранее Гэри Иллис заявил, что код, опубликованный Google на Github, уже некоторое время используется поисковой системой.