Секреты алгоритма Google: что известно после утечки внутренней документации компании

Перевели и адаптировали нашумевшее исследование IPullRank по последней утечке данных Google. Рассказываем, как на самом деле работает поисковая система.

Секреты алгоритма Google: что известно после утечки внутренней документации компании
  • Что за новая утечка данных
  • Какие данные использовались в исследовании 
  • Возможные недочёты исследования
  • Ограниченное время и контекст 
  • Нет функций подсчёта
  • Эта статья лишь первая из нескольких 
  • Но похоже, что это всё‑таки актуальная информация 
  • Какие заявления Google опровергает утечка данных 
  • «Мы не используем показатель авторитета домена»
  • «Мы не используем клики для ранжирования»
  • «Песочницы сайтов не существует»
  • «Мы не используем данные из Chrome для ранжирования»
  • Архитектура системы ранжирования Google
  • Сканирование
  • Индексация
  • Рендеринг
  • Обработка
  • Ранжирование
  • Обслуживание
  • Что такое твиддлеры
  • Самые главные сведения из утечки, которые нужно знать SEO‑специалистам
  • Как работает алгоритм Panda
  • Страницы авторов
  • Понижения рейтингов сайтов
  • Ссылки всё еще очень важны
  • Уровень индексирования влияет на ценность ссылок
  • Скорость распространения ссылочного спама
  • При анализе ссылок Google использует только последние 20 изменений для конкретного URL‑адреса
  • PageRank домашней страницы учитывается для всех страниц
  • Доверие к домашней странице
  • Значение размера шрифта терминов и ссылок
  • Penguin уничтожает внутренние ссылки
  • Нет ни одного упоминания Disavow
  • Документы становятся короче
  • Оригинальность короткого контента
  • Заголовки страниц по‑прежнему учитываются в запросах
  • Не существует инструментов подсчёта символов
  • Даты публикаций очень важны
  • Информация о регистрации домена хранится отдельно
  • К сайтам, ориентированным на видео, относятся по‑другому
  • Для YMYL предусмотрены специальные оценки
  • Эмбеддинг используется для определения соответствия теме
  • Google может специально «подставлять» небольшие сайты
  • Вопросы, которые возникают после утечки 
  • Обновление «Полезного контента» связано с Baby Panda?
  • NSR — это Neural Semantic Retrieval (нейросемантический поиск)?
  • Что делать с полученной информацией
  • Выводы
  • Ещё по теме 🤓
  • Совсем недавно произошла утечка внутренней документации по API хранилища контента Google Search.

    Внутренние микросервисы компании, похоже, зеркально отражают то, что предлагает Google Cloud Platform, и внутренняя версия документации по устаревшему хранилищу Document AI Warehouse была случайно опубликована в открытом доступе в репозитории кода для клиентской библиотеки.

    Документация по этому коду также была перехвачена внешним автоматизированным сервисом документации.

    ❗️ Это перевод и адаптация статьи Майка Кинга для IPullRank. 

    Что за новая утечка данных

    Судя по истории изменений документа, ошибка с репозиторием кода была исправлена 7 мая, но автоматизированная документация всё ещё активна. 

    Утечка данных Google
    Утечка данных Google

    В целях исключения потенциальной ответственности автор не даёт ссылки на неё. Но поскольку весь код в этом репозитории был опубликован под лицензией Apache 2.0, любой, кто с ним столкнется, получит целый набор прав, включая возможность использовать, изменять и распространять его в любом порядке.

    Автор статьи изучил справочные документы по API и сопоставил их с некоторыми другими предыдущими утечками Google, а также с показаниями антимонопольного комитета Минюста США. Он совместил это с обширным исследованием патентов и технических документов, проведенным для его предстоящей книги «Наука SEO». 

    В документации нет никаких подробностей о функциях Google по подсчёту баллов для ранжирования сайтов. Но там есть множество информации о данных, которые хранятся для контента, ссылок и взаимодействия с пользователями. Есть также различные описания функций, которыми злоупотребляют SEO‑специалисты.

    Возникает соблазн назвать всё это факторами ранжирования, но это было бы неточно. Некоторые из них, даже большинство, являются факторами ранжирования, но многие не являются.

    В этой статье — о некоторых наиболее интересных системах и особенностях ранжирования на основе исследований и того, о чём Google рассказывала/сообщала нам на протяжении многих лет.

    Какие данные использовались в исследовании 

    В документации API представлено 2 596 модулей с 14 014 атрибутами (функциями), которые выглядят следующим образом:

    Утечка данных Google
    Утечка данных Google

    Модули связаны с компонентами YouTube, Ассистента, Книг, поиска видео, ссылок, веб‑документов, краулинга, внутренней системы календаря и API People. 

    Системы Google работают на основе монолитного репозитория (или «монорепо»), а вычислительные системы работают в общей среде. 

    ❗️ Это означает, что весь код хранится в одном месте и любой компьютер в сети может быть частью любой из систем Google.

    Схема работы хранилища Google 
    Схема работы хранилища Google 

    Утечка документации содержит описание каждого модуля API и разбивает их на сводки, типы, функции и атрибуты. В основном мы видим определения свойств различных протокольных буферов (или протобуферов), к которым обращаются системы ранжирования для создания результатов поиска (Search Engine Result Pages — то, что Google показывает поисковикам после выполнения ими запроса).

    Схема работы Google
    Схема работы Google

    К сожалению, во многих отчётах есть Go links — URL‑адреса в корпоративной внутренней сети Google, которые содержат дополнительные сведения о различных аспектах системы. 

    Не имея соответствующих учётных данных Google для входа на эти страницы (а для этого почти наверняка нужно быть действующим сотрудником Google в поисковом отделе), при расшифровке мы предоставлены сами себе.

    Возможные недочёты исследования

    Давайте разберёмся с правилами, прежде чем перейдём к главному.

    Ограниченное время и контекст 

    У автора было ограниченное время на работу над исследованием. 

    Кроме того, как и в случае с утечкой из Яндекса, у него нет полной картины. Если в отношении Яндекса у автора был исходный код для разбора и ни одной мысли, связанной с ним, то в данном случае есть некоторые мысли, лежащие в основе тысяч функций и модулей, но нет исходного кода.

    Нет функций подсчёта

    Никто не знает, как оцениваются характеристики в различных функциях подсчёта. Также никто не знает, используются ли все доступные функции. Известно, что некоторые функции устарели. Если нет явных указаний, то неизвестно, как используются те или иные функции. Неизвестно, где всё происходит в пайплайне. 

    Есть ряд известных систем ранжирования, которые слабо согласуются с тем, как Google объясняет их, какие результаты наблюдают SEO‑специалисты при ранжировании в естественных условиях, как объясняются патентные заявки и литература IR. 

    ❗️ В конечном счёте благодаря этой утечке мы теперь имеем более чёткое представление о том, на что следует обращать внимание, а что игнорировать в SEO в дальнейшем.

    Эта статья лишь первая из нескольких 

    Это первый взгляд автора на то, что он изучил. Он может опубликовать ещё материалы по мере того, как будет продолжать изучать детали. Скорее всего, эта статья приведёт к тому, что SEO‑сообщество бросится разбирать эти документы — и все вместе будут открывать и переосмысливать их в течение последующих месяцев.

    Но похоже, что это всё‑таки актуальная информация 

    Эта утечка представляет собой текущую, действующую архитектуру хранилища поискового контента Google по состоянию на март 2024 года. 

    ❗️ Пиарщик Google заявил при этом, что автор статьи ошибается и всё не так. 

    Судя по истории изменений, соответствующий код был размещён 27 марта 2024 года и удалён только 7 мая 2024 года.

    Слитая документация Google
    Слитая документация Google

    Какие заявления Google опровергает утечка данных 

    Представители Google постоянно заявляют о многих аспектах работы своих систем, пытаясь контролировать поведение SEO‑специалистов. В публичных заявлениях Google, вероятно, не намеренно лжёт, а скорее обманывает потенциальных спамеров (а также многих честных SEO‑специалистов), чтобы сбить всех с толку и исключить внешнее влияние на результаты поиска.

    Ниже приведены утверждения сотрудников Google наряду с фактами из документации с ограниченными комментариями, чтобы вы могли судить сами, что правда, а что ложь.

    «Мы не используем показатель авторитета домена»

    Говоря, что не использует авторитет домена, Google может иметь в виду, что конкретно не использует параметр Moz под названием «Авторитет домена». 

    Domain Authority (DA) — собственная метрика от Moz, которая показывает авторитет домена. Показатель можно бесплатно проверить на сайте Moz, который недоступен в России.

    Google также может говорить, что не измеряет авторитетность или важность конкретной темы (или домена) применительно к веб‑сайту. Эта путаница в семантике позволяет Google никогда не отвечать прямо на вопрос о том, рассчитывает ли компания параметры авторитетности всего сайта.

    Гэри Ийеш (Gary Ilyes), аналитик из поисковой команды Google, который занимается публикацией информации для помощи создателям сайтов, неоднократно заявлял об этом: 

    Твиты Гэри Ийеша
    Твиты Гэри Ийеша

    Перевод

    Эндрю Роджерс спрашивает: «Ссылка на URL с картинкой Будет так же эффективна для алгоритма, как обычная ссылка? Как это скажется на общем авторитете домена сайта?» 

    Гэри Ийеш отвечает: «У нас на самом деле нет „общего авторитета домена“. Но ссылка с текстовым анкором лучше».

    Что такое анкорные ссылки и чем они отличаются от безанкорных 

    И не только Гэри Ийеш так говорил. Джон Мюллер тоже.

    На самом деле, как часть всех показателей качества, хранящихся по каждому документу, в Google есть параметр, называемый siteAuthority:

    SiteAuthority в слитых документах  
    SiteAuthority в слитых документах  

    Мы не знаем, как именно вычисляется этот показатель и как он используется в последующих функциях оценки, но теперь точно знаем, что он существует и используется в системе ранжирования.

    ❗️ Выходит, что у Google действительно есть общий авторитет домена. 

    Как выбрать домен правильно 

    «Мы не используем клики для ранжирования»

    Показания Панду Наяка в антимонопольном слушании Минюста США недавно раскрыли существование систем ранжирования Glue и NavBoost. 

    NavBoost — это система, использующая показатели кликов для повышения, понижения или иного усиления рейтинга в поиске. Наяк отметил, что NavBoost работает примерно с 2005 года и всегда использовал данные о кликах за 18 месяцев. 

    Недавно система была обновлена и теперь использует данные за 13 месяцев и ориентирована на результаты поиска в интернете. В то время как система под названием Glue связана с другими результатами универсального поиска. 

    Но ещё до этого было несколько патентов, включая патент 2007 года на ранжирование по времени, которые конкретно указывают на то, как данные о кликах могут быть использованы для изменения результатов поиска.

    Использование кликов в качестве показателя успешности является лучшей практикой в области получения информации. Известно, что Google перешёл на алгоритмы машинного обучения, а оно требует переменных откликов для улучшения своей работы. Несмотря на эти ошеломляющие доказательства, в SEO‑сообществе всё ещё царит путаница.

    Гэри Ийеш неоднократно обращался к вопросу учёта кликов. В частности, он подтвердил слова инженера Google Search Пола Хаара, сказанные им в 2016 году на SMX West, заявив:

    «Непосредственное использование кликов в ранжировании было бы ошибкой».

    Ответ Гэри Ийеша
    Ответ Гэри Ийеша

    Позже он прославился тем, что в одной из дискуссий на Reddit попытался дискредитировать Рэнда Фишкина (основателя и генерального директора Moz и давнего SEO‑практика), заявив:

    «Время пребывания, CTR, любая новая теория Фишкина — полный бред».

    Высказывание Гэри Ийеша
    Высказывание Гэри Ийеша

    ❗️ На самом деле в NavBoost есть специальный модуль, полностью ориентированный на показатели кликов.

    В описании этого механизма говорится о показателях кликов и впечатлений (impressions) для одной из рейтинговых систем — Craps. Все клики рассматриваются как параметры. Согласно патенту Google Scoring local search results based on location prominence, сквошинг — это функция, которая не позволяет одному большому показателю превалировать над остальными. 

    Другими словами, системы нормализуют данные о кликах, чтобы исключить возможность злоупотребления показателем клика.

    Представители Google утверждают, что системы, описанные в патентах и технических документах, не обязательно используются в работе, но NavBoost было бы нелепо создавать и включать в систему, если бы она не была важной частью информационно‑поисковых систем Google.

    Показатели, основанные на кликах
    Показатели, основанные на кликах 

    Многие из этих показателей, основанных на кликах, можно найти и в другом модуле, связанном с показателями индексации. Один из показателей — дата «последнего удачного клика» на определённый документ. 

    Это позволяет предположить, что снижение посещаемости (или потеря трафика с течением времени) также является функцией того, что ранжируемая страница не набирает ожидаемого количества кликов для своей позиции в поисковой выдаче.

    Кроме того, в документации пользователи представлены как избиратели, а их клики хранятся как их голоса. Система подсчитывает количество неудачных кликов и структурирует данные по странам и устройствам.

    Google также хранит информацию о том, на какой результат был сделан самый длинный клик в течение сессии. Таким образом, недостаточно просто выполнить поиск и щёлкнуть по результату: пользователи должны также провести значительное количество времени на странице. Длительные клики являются показателем успешности поисковой сессии, как и время пребывания на странице, но в этой документации нет конкретной функции под названием «Пребывание на сайте». Тем не менее длина клика — это фактически один и тот же показатель, что противоречит заявлениям Google по этому поводу.

    Различные источники утверждают, что NavBoost «уже является одним из самых сильных показателей ранжирования Google». В утекшей документации Navboost упоминается 84 раза, а пять модулей содержат Navboost в названии. Есть также свидетельства того, что они рассматривают его оценку на уровне поддомена, корневого домена и URL. Это явно указывает на то, что к разным уровням сайта применяется разный подход.

    Итак: да, Google не называет CTR или длину клика именно такими словами в документации, но из слов Рэнда всё становится понятно. Доказательства достаточно убедительны, и можно не сомневаться, что Google использует клики и поведение после клика в своих алгоритмах ранжирования.

    ❗️ Что точно является фактором ранжирования, а что нет, можно узнать в книге «Факторы ранжирования» от Search Engine Journal, которую команда Топвизора перевела и адаптировала под российские реалии.

    Получить книгу можно в нашем боте «Робот из Топвизора». Подпишитесь на канал Журнала в Телеграме, затем введите в боте команду /library или нажмите «Открыть библиотеку»:

    Как работать с ботом Топвизора
    Как работать с ботом Топвизора

    Бот даст вам доступ к книге.

    «Песочницы сайтов не существует»

    Представители Google утверждают, что песочницы, в которую попадают сайты по возрасту или по показателям доверия, не существует.

    В ныне удалённом твите Джон Мюллер ответил на вопрос о том, сколько времени требуется для получения права на ранжирование, заявив, что «песочницы не существует»:

    Твиты Виджея Кумара и Джона Мюллера
    Твиты Виджея Кумара и Джона Мюллера

    Перевод

    Виджей Кумар спрашивает: «Обычно как долго нужно, чтобы сайт вышел из песочницы для сайтов‑новичков?» 

    Джон Мюллер отвечает: «Нет никакой песочницы сайтов».

    В модуле PerDocData тем временем указан атрибут hostAge, который используется специально «для отсеивания свежего спама».

    ❗️ Песочница сайтов всё‑таки существует. 

    «Мы не используем данные из Chrome для ранжирования»

    Мэтт Каттс ранее заявлял, что Google не использует данные Chrome в органическом поиске. Совсем недавно Джон Мюллер подтвердил это заявление.

    Один из модулей, связанных с оценкой качества страниц, содержит показатель просмотров из Chrome на уровне сайта.

    Данные о Chrome в слитой документации  
    Данные о Chrome в слитой документации 

    В другом модуле, который, по‑видимому, связан с генерацией ссылок на сайт, также есть атрибут, связанный с Chrome.

    Утечка внутренней презентации системы RealTime Boost от мая 2016 года также указывает на то, что данные о Chrome попадают в поиск. 

    Данные о Chrome в слитой документации
    Данные о Chrome в слитой документации  

    ❗️ Понятно, что все представители Google, которых здесь процитировали, делают всё возможное, чтобы оказать поддержку и принести пользу SEO‑сообществу в рамках дозволенного. 

    Однако слитые документы ясно дают понять, что нужно продолжать воспринимать то, что они говорят, как один из вариантов, а не единственную истину. SEO‑сообществу нужно продолжать экспериментировать, чтобы увидеть, что действительно работает, а что нет.

    Архитектура системы ранжирования Google

    Концептуально вы можете думать об алгоритме Google как о чём‑то едином, например о гигантском уравнении с рядом взвешенных факторов ранжирования. На самом деле это набор микросервисов, в которых множество функций предварительно обрабатываются и становятся доступными во время выполнения, чтобы сформировать поисковую выдачу. Судя по различным системам, упоминаемым в документации, их может быть более сотни. 

    Если предположить, что речь идёт не обо всех системах, то, возможно, каждая из них представляет собой «показатель ранжирования», и, возможно, именно так Google приходит к 200 факторам ранжирования, о которых они часто говорят.

    В докладе «Создание программных систем в Google и усвоенные уроки» Джефф Дин упомянул, что ранние итерации Google отправляли каждый запрос на 1 000 машин, которые обрабатывали его и отвечали за время менее 250 миллисекунд. Он также изобразил диаграмму ранней версии концепции архитектуры системы. На этой диаграмме видно, что Super Root — это мозг Google Search, который отправляет запросы и собирает все воедино в конце.

    Схема архитектуры Google
    Схема архитектуры Google

    Исследователь Марк Найорк в своей недавней презентации Generative Information Retrieval продемонстрировал абстрактную модель Google Search с его системой RAG (она же Search Generative Experience / AI Overviews). Эта диаграмма демонстрирует ряд различных хранилищ данных и серверов, которые обрабатывают множество слоев информации, получаемой в результате поиска.

    Схема архитектуры Google
    Ещё одна схема архитектуры Google

    Разоблачитель Google Зак Ворхис выложил в сеть слайд, на котором показаны взаимосвязи различных систем внутри Google по их внутренним названиям. Некоторые из них упоминаются в документации:

    Схема архитектуры Google
     И ещё одна схема

    Используя эти три высокоуровневые модели, мы можем задуматься о том, как некоторые из этих компонентов работают вместе. 

    Из документации автор оригинальной статьи понял, что этот API работает на базе Spanner от Google. Spanner — это архитектура, которая позволяет бесконечно масштабировать хранилище контента и вычислительные системы, расценивая ряд компьютеров, объединённых в глобальную сеть, как единое целое.

    Конечно, на основе одной лишь документации сложно выстроить взаимосвязь между всеми компонентами. Но резюме Пола Хаара даёт ценное представление о том, что делают некоторые из упомянутых систем ранжирования. Выделим основные.

    Сканирование

    Trawler — система для сбора информации о веб‑страницах. В ней есть очередь сканирования, она поддерживает скорость сканирования и понимает, как часто меняются страницы.

    Индексация

    Alexandria — основная система индексации.

    SegIndexer — система, которая размещает документы по уровням в индексе.

    TeraGoogle — система вторичного индексирования для документов, которые хранятся на диске в течение длительного времени.

    Рендеринг

    HtmlrenderWebkitHeadless — система рендеринга для страниц JavaScript. 

    Странно, что она названа в честь WebKit, а не Chromium. В документации есть упоминание о Chromium, так что, скорее всего, Google изначально использовала WebKit и перешла на него после появления Headless Chrome.

    Обработка

    LinkExtractor — извлечение ссылок из страниц.

    WebMirror — система управления канонизацией и дублированием.

    Ранжирование

    Mustang — основная система оценки, ранжирования и обслуживания

    Ascorer — первичный алгоритм ранжирования, который ранжирует страницы до внесения изменений в рейтинг.

    NavBoost — система повторного ранжирования, основанная на данных о кликах и поведении пользователей.

    FreshnessTwiddler — система ранжирования документов на основе их «свежести» (новизны).

    WebChooserScorer — определяет названия функций, используемых при подсчете расширенных описаний.

    Обслуживание

    Google Web Server (GWS) — это сервер, с которым взаимодействует фронтенд Google. Он получает информацию для отображения пользователю.

    SuperRoot — «мозг» Google Search, который отправляет сообщения на серверы Google и управляет системой постобработки для повторного ранжирования и представления результатов.

    SnippetBrain — система, генерирующая расширенные описания для результатов.

    Glue — система для объединения универсальных результатов с учетом поведения пользователей.

    Cookbook — система для генерации сигналов. Есть данные, что сигналы генерируются во время выполнения.

    В этих документах описано гораздо больше систем, но не до конца понятно, что они делают. Например, SAFT и Drishti из приведённой выше диаграммы также представлены в этих документах, но их функции остаются неизвестными.

    🔥 Очень подробно и просто процессы работы ПС — сканирование, фильтрацию, индексацию и прочее — мы описали в модуле 2 нашего бесплатного курса по SEO.

    Что такое твиддлеры

    В сети мало информации о твиддлерах. Но нужно понять их суть, чтобы лучше осознавать контекст различных систем Boost, с которыми мы столкнулись в документации.

    Твиддлеры — это функции повторного ранжирования, которые работают после основного алгоритма поиска Ascorer. 

    Они работают аналогично фильтрам и действиям в WordPress, то есть то, что отображается, корректируется непосредственно перед тем, как быть показанным пользователю. 

    Твиддлеры могут корректировать оценку эффективности поиска информации по документу или изменять его место в рейтинге. Многие реализованные эксперименты и известные нам системы реализованы именно таким образом. Как показывает этот пользователь X, они очень важны для различных систем Google:

    Твит Deedy про твиддлеры в Google
    Твит Deedy про твиддлеры в Google

    Перевод

    Deedy пишет в ответ на предложение Aveta делиться историями о пропущенных факапах на проде: «Однажды я внёс изменения в определение API superroot, сервиса, который поддерживает поиск Google, чтобы отключить твиддлеры, не понимая, что от этого зависит весь поиск на Youtube. В итоге я отключил поиск на Youtube на пару часов».

    Твиддлеры могут предлагать ограничения по категориям, что означает, что разнообразие может поддерживаться путём специального ограничения типа результатов. Например, автор может решить, что в данном поисковом запросе будет только 3 записи из блога. Например, из‑за формата страницы сайт может плохо ранжироваться.

    Когда Google говорит, что Panda не является частью ядра алгоритма, это, скорее всего, означает, что она была запущена в качестве твиддлера для повышения или понижения рейтинга, а затем перенесена в основную функцию подсчёта оценок. Думайте об этом так же, как о разнице между рендерингом на сервере и на стороне клиента.

    Предположительно, любая из функций с суффиксом Boost работает на основе фреймворка Twiddler. Вот некоторые из Boost'ов, описанных в документации:

    • NavBoost, 

    • QualityBoost, 

    • RealTimeBoost, 

    • WebImageBoost. 

    Судя по названиям, все они не требуют пояснений.

    Существует также внутренний документ о твиддлерах, где об этом говорится более подробно. Но не будем углубляться в это настолько сильно.

    Самые главные сведения из утечки, которые нужно знать SEO‑специалистам

    Что Google делает такого, чего мы не знали или в чём не были уверены, и как это может повлиять на нашу SEO‑активность?

    Как работает алгоритм Panda

    Когда появилась Panda, было много путаницы. Используется ли в ней машинное обучение? Использует ли она показатели пользователей? Зачем нужно обновление для восстановления? Действует ли она на весь сайт? Почему мой сайт потерял часть трафика для определённого подкаталога?

    Panda была выпущена под руководством Амита Сингхала. Сингхал был категорически против машинного обучения из‑за ограниченности контроля. На самом деле существует ряд патентов, посвящённых качеству сайтов для Panda. Но остановимся на одном из них, который не содержит описания «Ранжирование результатов поиска». 

    Патент поясняет, что Panda гораздо проще, чем мы думали. Речь идет в основном о создании модификатора оценки на основе распределённых показателей, связанных с поведением пользователей и внешними ссылками. Этот модификатор может применяться на уровне домена, поддомена или сабдиректории.

    «Система генерирует коэффициент изменения для группы ресурсов на основе количества независимых ссылок и количества ссылочных запросов (шаг 306).

    Например, коэффициент модификации может представлять собой отношение количества независимых ссылок для группы к количеству ссылочных запросов для группы. 

    То есть коэффициент модификации (M) может быть выражен как:

    M=IL/RQ,

    где IL — количество независимых ссылок, подсчитанных для группы ресурсов, а RQ — количество ссылочных запросов».

    Независимые ссылки — это, по сути, то, что мы считаем связующими корневыми доменами, а вот ссылочные запросы немного сложнее. Вот как они определяются в патенте:

    «Ссылочный запрос для определённой группы ресурсов может быть ранее отправленным поисковым запросом, который был отнесён к категории ссылающихся на ресурс в определённой группе ресурсов. 

    Классификация конкретного, ранее представленного поискового запроса как относящегося к конкретному ресурсу в конкретной группе ресурсов включает выявление того, что этот запрос включает один или более терминов, которые были определены как относящиеся к ресурсу в конкретной группе ресурсов».

    Теперь, когда у нас есть доступ к этой документации, становится ясно, что ссылочные запросы — это запросы из NavBoost.

    Информация о NavBoost в документации
    Информация о NavBoost в документации

    Это позволяет предположить, что обновления Panda были просто апдейтами скользящего окна результатов подобно тому, как функционируют расчёты Core Web Vitals.

    Другой патент Panda, Site quality score, также предполагает оценку, которая представляет собой соотношение между ссылочными запросами и пользовательскими выборами или кликами.

    ❗️ Суть в том, что вам нужно делать больше успешных кликов по более широкому набору запросов и получать больше разнообразных ссылок, если вы хотите продолжать ранжироваться. Только очень сильный контент будет справляться с этой задачей. 

    Фокус на привлечении более квалифицированного трафика и улучшении пользовательского опыта послужит показателем для Google, что ваша страница заслуживает ранжирования. Вам следует сосредоточиться на этом аспекте, чтобы восстановиться после обновления «Полезного контента».

    Всё об алгоритме Google: как думает поисковая система 

    Страницы авторов

    Многое уже было сказано об E‑E‑A‑T. Многие SEO‑специалисты не верят в эту идею из‑за того, что экспертность и авторитетность — довольно размытые понятия. До информации о векторных эмбеддингах казалось, что авторство не является достаточно жизнеспособным показателем в масштабах сети.

    «Авторская разметка»
    «Авторская разметка»

    Тем не менее Google явно учитывает авторов, связанных с документом, в виде текста:

    Информация об авторах как о факторе ранжирования в документации Google
    Информация об авторах как о факторе ранжирования в документации Google

    Они также смотрят, является ли субъект на странице автором этой страницы.

    Информация об авторах страниц как о факторе ранжирования в документации Google
    Информация об авторах страниц как о факторе ранжирования в документации Google

    ❗️ В сочетании с подробным отображением субъектов и эмбеддингов, показанных в этих документах, становится ясно: существует некое всеобъемлющее описание авторов.

    Понижения рейтингов сайтов

    В документации обсуждается ряд алгоритмических понижений. Они описаны очень скудно, но их стоит упомянуть. Мы уже обсудили Panda, но остальные понижения таковы:

    • Несоответствие анкоров — когда ссылка не соответствует целевому сайту, на который она ссылается, ссылка понижается в расчётах. Google ищет релевантность с обеих сторон ссылки.

    • Понижение в поисковой выдаче — показатель, указывающий на понижение в выдаче. Он говорит о потенциальной неудовлетворённости пользователей страницей, которая, вероятно, измеряется кликами.

    • Навигационное понижение — предположительно, это понижение, применяемое к страницам, демонстрирующим плохую навигацию или проблемы с удобством использования.

    Что такое юзабилити и как его улучшить 

    • Понижение доменов с точным соответствием — в конце 2012 года Мэтт Каттс объявил, что домены с точным соответствием не будут иметь такого большого значения, как раньше. Существует специальная функция для их понижения.

    Прим. ред.: Домены с точным соответствием или с точным вхождением ключей (EMD, Exact Match Domain) — это такие домены, которые соответствуют термину, который пользователь пытается найти. 

    Например, у нас журнал про SEO. Доменом точного соответствия было бы что‑то вроде journalaboutseo.com.

    • Понижение отзывов о товарах — конкретной информации по этому вопросу нет, но он указан и, вероятно, связан с недавним обновлением отзывов о товарах в 2023 году.

    • Понижение позиций — есть признаки того, что «международные» страницы могут быть понижены в рейтинге. Это говорит о том, что Google пытается ассоциировать страницы с местоположением и ранжировать их соответствующим образом.

    • Понижение в выдаче за порнографию — тут всё довольно очевидно.

    • Понижение позиций по другим ссылкам — об этом поговорим в следующем разделе.

    Все эти потенциальные понижения могут служить основой для стратегии. Но главное — создавать лучший контент с высоким уровнем удобства для пользователей и продвигать свой бренд.

    Ссылки всё еще очень важны

    В документации нет никаких доказательств, опровергающих недавние заявления о том, что ссылки теряют свою важность. Опять же, скорее всего, это связано с самими функциями подсчёта, а не с тем, как хранится информация. Тем не менее было уделено большое внимание извлечению и разработке функций для глубокого понимания ссылочного поля.

    Уровень индексирования влияет на ценность ссылок

    Параметр под названием sourceType показывает нечёткую связь между местом индексации страницы и её ценностью. 

    Для справки

    Индекс Google разделен на уровни, где наиболее важный, регулярно обновляемый и доступный контент хранится во флэш‑памяти. Менее важный контент хранится на твердотельных накопителях, а нерегулярно обновляемый — на обычных жёстких дисках.

    Информация об уровнях индексирования Google
    Информация об уровнях индексирования Google

    По сути, это означает, что чем выше уровень, тем ценнее ссылка. Страницы, которые относятся к категории «свежих», также считаются высококачественными. 

    Вам нужно, чтобы ваши ссылки шли со страниц, которые либо свежие, либо по каким‑то другим причинам находятся в верхнем слое. Это частично объясняет, почему ссылки с высокорейтинговых и новостных страниц дают лучшие показатели ранжирования.

    Приёмы линкбилдинга и получения ссылок 

    Скорость распространения ссылочного спама

    В документации существует целая серия параметров, связанных с выявлением скачков спамерского анкорного текста. Отмечая функцию phraseAnchorSpamDays, Google фактически имеет возможность измерять скорость распространения спама в ссылках.

    Информация о ссылочном спаме в слитых документах Google
    Информация о ссылочном спаме в слитых документах Google

    Это может быть легко использовано для определения того, когда на сайте происходит спам, и свести на нет негативные SEO‑атаки.

    При анализе ссылок Google использует только последние 20 изменений для конкретного URL‑адреса

    Файловая система Google способна сохранять версии страниц с течением времени, как Wayback Machine. 

    Прим. ред.: Wayback Machine — своего рода «архив» интернета, сайт, где можно посмотреть, как выглядела та или иная страница в разные периоды времени.

    Google хранит проиндексированные страницы вечно. Это одна из причин, по которой вы не можете просто перенаправить страницу на неактуальную цель и ожидать, что ссылочный капитал будет расти.

    Схема анализа ссылок Google
    Схема анализа ссылок Google 

    Эта идея подкрепляется документами, в которых говорится, что Google хранит все изменения, которые когда‑либо были замечены на странице.

    Информация о сроках хранения в документации Google
    Информация о сроках хранения в документации Google

    Сравнивая данные с помощью DocInfo, они учитывают только 20 последних версий страницы.

    Информация о сроках хранения в документации Google
    Информация о сроках хранения в документации Google

    ❗️ Благодаря этому вы можете понять, сколько раз вам нужно изменить страницы и проиндексировать их, чтобы получить «чистый лист» в Google.

    PageRank домашней страницы учитывается для всех страниц

    Каждый документ имеет свой PageRank домашней страницы. Вероятно, она используется как прокси для новых страниц, пока они не получат свой собственный PageRank.

    Информация о PageRank в документации Google
    Информация о PageRank в документации Google

    Доверие к домашней странице

    Google решает, как оценивать ссылку, основываясь на том, насколько он доверяет главной странице.

    Информация о доверии к домашней странице в документации Google
    Caption

    ❗️ Как всегда, вам следует сосредоточиться на качестве и актуальности ваших ссылок, а не на их количестве.

    Значение размера шрифта терминов и ссылок

    На заре SEO текст выделяли жирным шрифтом, подчёркивали его или делали определенные фрагменты более крупными, чтобы они казались более важными. 

    В последнее время это прекратилось, но из документации видно, что Google отслеживает средний размер шрифта терминов в документах.

    Информация о значении размера шрифта в документации Google
    Информация о значении размера шрифта в документации Google

    То же самое они делают и для анкорного текста ссылок.

    Информация о значении размера шрифта для ссылок в документации Google
    Информация о значении размера шрифта для ссылок в документации Google

    Penguin уничтожает внутренние ссылки

    Во многих модулях, связанных с анкорами, концепция «локального» подразумевает один и тот же сайт. Показатель droppedLocalAnchorCount предполагает, что некоторые внутренние ссылки не учитываются.

    Нет ни одного упоминания Disavow

    Хотя данные Disavow могут храниться в другом месте, в этом API их нет. Скорее всего, это связано с тем, что данные о показателях качества доступны непосредственно в этом API. Это говорит о том, что данные Disavow не связаны с основными системами ранжирования.

    Информация о Disavow в документации Google
    Информация о Disavow в документации Google

    Автор оригинальной статьи давно предполагал, что Disavow — это попытка создать классификацию спама за счёт краудсорсинга. То, что данные не попали в «онлайн», говорит о том, что это может быть правдой.

    ❗️ Сейчас самое время пересмотреть свои программы по линкбилдингу, основываясь на всём, что вы только что прочитали.

    Как продвигаться ссылками, мы подробно описали в модуле 7 нашего бесплатного курса по SEO.

    Документы становятся короче

    Google подсчитывает количество лексем (слов) и отношение общего количества слов в тексте к количеству уникальных лексем. 

    В документах указано, что существует максимальное количество лексем, которое учитывается в документе именно в системе Mustang, тем самым подкрепляя, что авторы должны продолжать размещать наиболее важный контент в начале.

    Информация о количестве лексем в документации Google
    Информация о количестве лексем в документации Google

    Оригинальность короткого контента

    OriginalContentScore предполагает, что короткий контент оценивается по оригинальности. Возможно, именно поэтому смысловая нагрузка контента не всегда зависит от длины.

    Информация о коротком контенте в документации Google
    Информация о коротком контенте в документации Google

    И наоборот: есть показатель заспамленности ключевыми словами.

    Заголовки страниц по‑прежнему учитываются в запросах

    В документации указано, что существует показатель titlematchScore. Судя по описанию, то, насколько хорошо заголовок страницы соответствует запросу, по‑прежнему является тем, чему Google активно придает значение.

    Информация о заголовках в документации Google
    Информация о заголовках в документации Google

    Размещение целевых ключевых слов на первом месте по‑прежнему актуально.

    🔥 Проверить сразу все title на своём сайте можно с помощью Анализа сайта от Топвизора.

    Добавьте страницы в сервис, нажав «Настроить URL». После завершения проверки перейдите в «Страницы» — «Контент». Там показаны title каждой страницы.

    Анализ сайта от Топвизора
    Анализ сайта от Топвизора

    Ещё анализ сайта соберет ключевые технические данные сайта и подскажет, как исправить ошибки и предупреждения, которые мешают ему получить максимум от SEO‑продвижения.

    Не существует инструментов подсчёта символов

    Гэри Ийеш заявил, что SEO‑специалисты сами придумали оптимальное количество символов для метаданных. Это, похоже, правда.

    В наборе утекших данных нет ни одного показателя, который бы подсчитывал длину заголовков страниц или описаний. Единственная мера подсчёта символов, которую автор нашел в документации, — это snippetPrefixCharCount, который, похоже, устанавливается для определения того, что может быть использовано в качестве части расширенного описания.

    Информация о количестве символов в документации Google
    Информация о количестве символов в документации Google

    Это подтверждает то, что мы уже неоднократно проверяли: длинные заголовки страниц неоптимальны для привлечения кликов, но прекрасно подходят для ранжирования.

    🤩 У Google инструмента подсчёта слов нет, а у нас в Анализе сайта есть. Откройте Анализ сайта, вкладку «Страницы» и «Контент». Прокрутите страницу вправо — и увидите длину текста на каждой странице.

    Длина текстов в Анализе сайта от Топвизора
    Длина текстов в анализе сайта от Топвизора

    Даты публикаций очень важны

    Google уделяет большое внимание свежим результатам, и документы иллюстрируют его многочисленные попытки связать даты со страницами.

    bylineDate — дата, установленная на странице.

    Информация о дате публикации в документации Google
    Информация о дате публикации в документации Google

    syntacticDate — дата, извлеченная из URL или заголовка.

    Информация о дате публикации в документации Google
    Информация о дате публикации в документации Google

    semanticDate — дата, полученная из содержимого страницы.

    Информация о дате публикации в документации Google
    Информация о дате публикации в документации Google

    ❗️ Лучше всего указывать дату и быть последовательным в структурированных данных, заголовках страниц, XML‑карт. Помещение в URL дат, которые противоречат датам в других местах на странице, скорее всего, приведёт к снижению эффективности контента.

    Информация о регистрации домена хранится отдельно

    Давно существует теория заговора, согласно которой статус Google как регистратора влияет на алгоритм. Некоторые считают, что Google хранит последнюю регистрационную информацию на уровне отдельных документов.

    Информация о регистрации домена в документации Google
    Информация о регистрации домена в документации Google

    Как уже говорилось ранее, это, скорее всего, используется для создания «песочницы» для нового контента. Она также может использоваться для «песочницы» ранее зарегистрированного домена, который сменил владельца. 

    Скорее всего, что в последнее время на это обратили особое внимание в связи с введением политики борьбы со спамом на доменах с истекшим сроком действия.

    К сайтам, ориентированным на видео, относятся по‑другому

    Если более 50 % страниц сайта содержат видео, сайт считается видеоориентированным и будет рассматриваться по‑другому.

    Информация о сайтах для видео в документации Google

    Для YMYL предусмотрены специальные оценки

    В документации указано, что в Google есть специалисты, которые генерируют оценки для разделов «Здоровье» и «Новости».

    Информация о YMYL в документации Google
    Информация о YMYL в документации Google

    Они также делают прогноз для «пограничных запросов» или тех, которые не были замечены ранее, чтобы определить, являются ли они YMYL или нет.

    Информация о YMYL в документации Google
    Информация о YMYL в документации Google

    Эмбеддинг используется для определения соответствия теме

    Google специально векторизует страницы и сайты и сравнивает эмбеддинг страницы с эмбеддингом сайта, чтобы понять, насколько страница не по теме.

    Информация об эмбеддинге в документации Google
    Информация об эмбеддинге в документации Google

    Показатель siteFocusScore определяет, насколько сайт придерживается одной темы. Радиус сайта показывает, насколько далеко страница выходит за пределы основной темы на основе векторов site2vec, сгенерированных для сайта.

    Google может специально «подставлять» небольшие сайты

    У Google есть специальный флажок, указывающий на то, что сайт является «небольшой авторской страницей». Определения для таких сайтов нет, но, исходя из всего, что мы знаем, для них не составит труда добавить твиддлер, повышающий такие сайты или понижающий их.

    Информация о небольших сайтах в документации Google
    Информация о небольших сайтах в документации Google

    Учитывая обратную реакцию и малый бизнес, который пострадал от обновления «Полезного контента», удивительно, что они пользуются этой функцией.

    Вопросы, которые возникают после утечки 

    На данный момент есть несколько открытых вопросов, о которых нужно подумать.

    Обновление «Полезного контента» связано с Baby Panda?

    Есть две ссылки на нечто, называемое Baby Panda. Baby Panda — это твиддлер, который вносит коррективы после первоначального ранжирования.

    Baby Panda в слитой документации
    Caption

    В документации есть упоминание о том, что он работает в дополнение к Panda, но больше ничего нет.

    Baby Panda в слитой документации
    Baby Panda в слитой документации

    Обновление «Полезный контент» имеет многие из тех же характеристик, что и Panda. Если оно построено на основе системы, использующей ссылочные запросы, ссылки и клики, то это то, на чём нужно сосредоточиться после улучшения контента.

    NSR — это Neural Semantic Retrieval (нейросемантический поиск)?

    Существует множество ссылок на модули и атрибуты с NSR в названии. Многие из них связаны с фрагментами и эмбеддингами сайта. Ранее Google уже говорил о «нейронной оптимизации» как о важной области, требующей усовершенствования. 

    Предположение автора статьи заключается в том, что NSR означает Neural Semantic Retrieval, и все эти функции связаны с семантическим поиском. Однако в некоторых случаях они упоминаются рядом с «ранжированием сайта».

    Что делать с полученной информацией

    1. Поблагодарите Рэнда Фишкина 

    Рэнд Фишкин — SEO‑энтузиаст. Он делал много SEO‑исследований и пытался разобраться, как работает Google. За это он получал много упрёков со стороны компании (см. комментарии Гэри Ийеша выше) и со стороны SEO‑сообщества. 

    При этом Рэнд не ошибался в выводах, сделанных в ходе экспериментов с кликами, неоднократно пытался доказать существование «песочницы» Google, исследовал примеры, показывающие, что Google по‑разному ранжирует поддомены, и долгое время считал, что Google использует показатели авторитетности на сайте. Во многом он был прав; вероятно, так будет и со следующими исследованиями и утечками. 

    Блог Фишкина в X (бывший Twitter)

    Блог SparkToro (Фишкин — основатель) — недоступен в России

    1. Создавайте качественный контент и хорошо его продвигайте

    После анализа всех характеристик, дающих Google преимущества, становится совершенно очевидно, что создание высококачественного контента и его продвижение среди аудитории, которой он интересен, — наилучшая стратегия.

    Показатели ссылочной массы и контента, конечно, помогут вам далеко продвинуться, но если вы действительно хотите выиграть в долгосрочной перспективе, придётся делать то, что будет хорошо ранжироваться.

    Как провести анализ контента сайта 

    1. Вернитесь к исследованиям 

    Теперь мы гораздо лучше понимаем многие характеристики, которые Google использует для построения рейтингов. Благодаря комбинации данных о кликах и извлечению характеристик мы можем достичь большего, чем раньше. Пришло время вернуть корреляционные исследования по вертикали.

    1. Тестируйте и развивайтесь 

    Эта утечка — ещё один признак того, что с данными нужно экспериментировать, чтобы понять, что будет работать именно для вашего сайта. Недостаточно ознакомиться с отдельными моментами и предположить, что Google работает именно так. Если у вашей организации нет программы тестирования в области SEO, сейчас самое время начать.

    Выводы

    Самый важный вывод из всего этого:

    SEO‑специалисты знают, что делают.

    Хотя в этих документах есть интересные нюансы работы Google, в них нет ничего, что заставило бы специалиста по продвижению изменить свою SEO‑стратегию.

    Как разработать стратегию продвижения сайта для SEO: инструкция с примерами 

    Для тех, кто вникнет в суть, эти документы в первую очередь подтвердят то, за что давно выступают опытные SEO‑специалисты:

    Поймите свою аудиторию, определите, чего она хочет, сделайте лучшее из возможного, оптимизируйте сайт и продвигайте его до тех пор, пока он не займет своё место.

    Всем, кто не уверен в том, что делает: продолжайте проводить тесты, учиться и развивать бизнес. Google не сможет делать то, что делает, без нас.

    SEO — это непрерывно усложняющаяся головоломка. И хотя помогать брендам зарабатывать миллиарды долларов благодаря нашим усилиям очень круто, есть что‑то очень приятное в том, чтобы тешить своё любопытство, разбираясь в том, как работает Google. 

    Ещё по теме 🤓

    SEO‑специалисты анализируют информацию из утечки данных Google

    7 документов по ранжированию выдачи Google в рамках антимонопольного дела 

    Полное руководство по SEO в 2024