Секреты алгоритма Google: что известно после утечки внутренней документации компании
Перевели и адаптировали нашумевшее исследование IPullRank по последней утечке данных Google. Рассказываем, как на самом деле работает поисковая система.
Совсем недавно произошла утечка внутренней документации по API хранилища контента Google Search.
Внутренние микросервисы компании, похоже, зеркально отражают то, что предлагает Google Cloud Platform, и внутренняя версия документации по устаревшему хранилищу Document AI Warehouse была случайно опубликована в открытом доступе в репозитории кода для клиентской библиотеки.
Документация по этому коду также была перехвачена внешним автоматизированным сервисом документации.
❗️ Это перевод и адаптация статьи Майка Кинга для IPullRank.
Что за новая утечка данных
Судя по истории изменений документа, ошибка с репозиторием кода была исправлена 7 мая, но автоматизированная документация всё ещё активна.
В целях исключения потенциальной ответственности автор не даёт ссылки на неё. Но поскольку весь код в этом репозитории был опубликован под лицензией Apache 2.0, любой, кто с ним столкнется, получит целый набор прав, включая возможность использовать, изменять и распространять его в любом порядке.
Автор статьи изучил справочные документы по API и сопоставил их с некоторыми другими предыдущими утечками Google, а также с показаниями антимонопольного комитета Минюста США. Он совместил это с обширным исследованием патентов и технических документов, проведенным для его предстоящей книги «Наука SEO».
В документации нет никаких подробностей о функциях Google по подсчёту баллов для ранжирования сайтов. Но там есть множество информации о данных, которые хранятся для контента, ссылок и взаимодействия с пользователями. Есть также различные описания функций, которыми злоупотребляют SEO‑специалисты.
Возникает соблазн назвать всё это факторами ранжирования, но это было бы неточно. Некоторые из них, даже большинство, являются факторами ранжирования, но многие не являются.
В этой статье — о некоторых наиболее интересных системах и особенностях ранжирования на основе исследований и того, о чём Google рассказывала/сообщала нам на протяжении многих лет.
Какие данные использовались в исследовании
В документации API представлено 2 596 модулей с 14 014 атрибутами (функциями), которые выглядят следующим образом:
Модули связаны с компонентами YouTube, Ассистента, Книг, поиска видео, ссылок, веб‑документов, краулинга, внутренней системы календаря и API People.
Системы Google работают на основе монолитного репозитория (или «монорепо»), а вычислительные системы работают в общей среде.
❗️ Это означает, что весь код хранится в одном месте и любой компьютер в сети может быть частью любой из систем Google.
Утечка документации содержит описание каждого модуля API и разбивает их на сводки, типы, функции и атрибуты. В основном мы видим определения свойств различных протокольных буферов (или протобуферов), к которым обращаются системы ранжирования для создания результатов поиска (Search Engine Result Pages — то, что Google показывает поисковикам после выполнения ими запроса).
К сожалению, во многих отчётах есть Go links — URL‑адреса в корпоративной внутренней сети Google, которые содержат дополнительные сведения о различных аспектах системы.
Не имея соответствующих учётных данных Google для входа на эти страницы (а для этого почти наверняка нужно быть действующим сотрудником Google в поисковом отделе), при расшифровке мы предоставлены сами себе.
Возможные недочёты исследования
Давайте разберёмся с правилами, прежде чем перейдём к главному.
Ограниченное время и контекст
У автора было ограниченное время на работу над исследованием.
Кроме того, как и в случае с утечкой из Яндекса, у него нет полной картины. Если в отношении Яндекса у автора был исходный код для разбора и ни одной мысли, связанной с ним, то в данном случае есть некоторые мысли, лежащие в основе тысяч функций и модулей, но нет исходного кода.
Нет функций подсчёта
Никто не знает, как оцениваются характеристики в различных функциях подсчёта. Также никто не знает, используются ли все доступные функции. Известно, что некоторые функции устарели. Если нет явных указаний, то неизвестно, как используются те или иные функции. Неизвестно, где всё происходит в пайплайне.
Есть ряд известных систем ранжирования, которые слабо согласуются с тем, как Google объясняет их, какие результаты наблюдают SEO‑специалисты при ранжировании в естественных условиях, как объясняются патентные заявки и литература IR.
❗️ В конечном счёте благодаря этой утечке мы теперь имеем более чёткое представление о том, на что следует обращать внимание, а что игнорировать в SEO в дальнейшем.
Эта статья лишь первая из нескольких
Это первый взгляд автора на то, что он изучил. Он может опубликовать ещё материалы по мере того, как будет продолжать изучать детали. Скорее всего, эта статья приведёт к тому, что SEO‑сообщество бросится разбирать эти документы — и все вместе будут открывать и переосмысливать их в течение последующих месяцев.
Но похоже, что это всё‑таки актуальная информация
Эта утечка представляет собой текущую, действующую архитектуру хранилища поискового контента Google по состоянию на март 2024 года.
❗️ Пиарщик Google заявил при этом, что автор статьи ошибается и всё не так.
Судя по истории изменений, соответствующий код был размещён 27 марта 2024 года и удалён только 7 мая 2024 года.
Какие заявления Google опровергает утечка данных
Представители Google постоянно заявляют о многих аспектах работы своих систем, пытаясь контролировать поведение SEO‑специалистов. В публичных заявлениях Google, вероятно, не намеренно лжёт, а скорее обманывает потенциальных спамеров (а также многих честных SEO‑специалистов), чтобы сбить всех с толку и исключить внешнее влияние на результаты поиска.
Ниже приведены утверждения сотрудников Google наряду с фактами из документации с ограниченными комментариями, чтобы вы могли судить сами, что правда, а что ложь.
«Мы не используем показатель авторитета домена»
Говоря, что не использует авторитет домена, Google может иметь в виду, что конкретно не использует параметр Moz под названием «Авторитет домена».
Domain Authority (DA) — собственная метрика от Moz, которая показывает авторитет домена. Показатель можно бесплатно проверить на сайте Moz, который недоступен в России.
Google также может говорить, что не измеряет авторитетность или важность конкретной темы (или домена) применительно к веб‑сайту. Эта путаница в семантике позволяет Google никогда не отвечать прямо на вопрос о том, рассчитывает ли компания параметры авторитетности всего сайта.
Гэри Ийеш (Gary Ilyes), аналитик из поисковой команды Google, который занимается публикацией информации для помощи создателям сайтов, неоднократно заявлял об этом:
Перевод
Эндрю Роджерс спрашивает: «Ссылка на URL с картинкой Будет так же эффективна для алгоритма, как обычная ссылка? Как это скажется на общем авторитете домена сайта?»
Гэри Ийеш отвечает: «У нас на самом деле нет „общего авторитета домена“. Но ссылка с текстовым анкором лучше».
Что такое анкорные ссылки и чем они отличаются от безанкорных
И не только Гэри Ийеш так говорил. Джон Мюллер тоже.
На самом деле, как часть всех показателей качества, хранящихся по каждому документу, в Google есть параметр, называемый siteAuthority:
Мы не знаем, как именно вычисляется этот показатель и как он используется в последующих функциях оценки, но теперь точно знаем, что он существует и используется в системе ранжирования.
❗️ Выходит, что у Google действительно есть общий авторитет домена.
«Мы не используем клики для ранжирования»
Показания Панду Наяка в антимонопольном слушании Минюста США недавно раскрыли существование систем ранжирования Glue и NavBoost.
NavBoost — это система, использующая показатели кликов для повышения, понижения или иного усиления рейтинга в поиске. Наяк отметил, что NavBoost работает примерно с 2005 года и всегда использовал данные о кликах за 18 месяцев.
Недавно система была обновлена и теперь использует данные за 13 месяцев и ориентирована на результаты поиска в интернете. В то время как система под названием Glue связана с другими результатами универсального поиска.
Но ещё до этого было несколько патентов, включая патент 2007 года на ранжирование по времени, которые конкретно указывают на то, как данные о кликах могут быть использованы для изменения результатов поиска.
Использование кликов в качестве показателя успешности является лучшей практикой в области получения информации. Известно, что Google перешёл на алгоритмы машинного обучения, а оно требует переменных откликов для улучшения своей работы. Несмотря на эти ошеломляющие доказательства, в SEO‑сообществе всё ещё царит путаница.
Гэри Ийеш неоднократно обращался к вопросу учёта кликов. В частности, он подтвердил слова инженера Google Search Пола Хаара, сказанные им в 2016 году на SMX West, заявив:
«Непосредственное использование кликов в ранжировании было бы ошибкой».
Позже он прославился тем, что в одной из дискуссий на Reddit попытался дискредитировать Рэнда Фишкина (основателя и генерального директора Moz и давнего SEO‑практика), заявив:
«Время пребывания, CTR, любая новая теория Фишкина — полный бред».
❗️ На самом деле в NavBoost есть специальный модуль, полностью ориентированный на показатели кликов.
В описании этого механизма говорится о показателях кликов и впечатлений (impressions) для одной из рейтинговых систем — Craps. Все клики рассматриваются как параметры. Согласно патенту Google Scoring local search results based on location prominence, сквошинг — это функция, которая не позволяет одному большому показателю превалировать над остальными.
Другими словами, системы нормализуют данные о кликах, чтобы исключить возможность злоупотребления показателем клика.
Представители Google утверждают, что системы, описанные в патентах и технических документах, не обязательно используются в работе, но NavBoost было бы нелепо создавать и включать в систему, если бы она не была важной частью информационно‑поисковых систем Google.
Многие из этих показателей, основанных на кликах, можно найти и в другом модуле, связанном с показателями индексации. Один из показателей — дата «последнего удачного клика» на определённый документ.
Это позволяет предположить, что снижение посещаемости (или потеря трафика с течением времени) также является функцией того, что ранжируемая страница не набирает ожидаемого количества кликов для своей позиции в поисковой выдаче.
Кроме того, в документации пользователи представлены как избиратели, а их клики хранятся как их голоса. Система подсчитывает количество неудачных кликов и структурирует данные по странам и устройствам.
Google также хранит информацию о том, на какой результат был сделан самый длинный клик в течение сессии. Таким образом, недостаточно просто выполнить поиск и щёлкнуть по результату: пользователи должны также провести значительное количество времени на странице. Длительные клики являются показателем успешности поисковой сессии, как и время пребывания на странице, но в этой документации нет конкретной функции под названием «Пребывание на сайте». Тем не менее длина клика — это фактически один и тот же показатель, что противоречит заявлениям Google по этому поводу.
Различные источники утверждают, что NavBoost «уже является одним из самых сильных показателей ранжирования Google». В утекшей документации Navboost упоминается 84 раза, а пять модулей содержат Navboost в названии. Есть также свидетельства того, что они рассматривают его оценку на уровне поддомена, корневого домена и URL. Это явно указывает на то, что к разным уровням сайта применяется разный подход.
Итак: да, Google не называет CTR или длину клика именно такими словами в документации, но из слов Рэнда всё становится понятно. Доказательства достаточно убедительны, и можно не сомневаться, что Google использует клики и поведение после клика в своих алгоритмах ранжирования.
❗️ Что точно является фактором ранжирования, а что нет, можно узнать в книге «Факторы ранжирования» от Search Engine Journal, которую команда Топвизора перевела и адаптировала под российские реалии.
Получить книгу можно в нашем боте «Робот из Топвизора». Подпишитесь на канал Журнала в Телеграме, затем введите в боте команду /library или нажмите «Открыть библиотеку»:
Бот даст вам доступ к книге.
«Песочницы сайтов не существует»
Представители Google утверждают, что песочницы, в которую попадают сайты по возрасту или по показателям доверия, не существует.
В ныне удалённом твите Джон Мюллер ответил на вопрос о том, сколько времени требуется для получения права на ранжирование, заявив, что «песочницы не существует»:
Перевод
Виджей Кумар спрашивает: «Обычно как долго нужно, чтобы сайт вышел из песочницы для сайтов‑новичков?»
Джон Мюллер отвечает: «Нет никакой песочницы сайтов».
В модуле PerDocData тем временем указан атрибут hostAge, который используется специально «для отсеивания свежего спама».
❗️ Песочница сайтов всё‑таки существует.
«Мы не используем данные из Chrome для ранжирования»
Мэтт Каттс ранее заявлял, что Google не использует данные Chrome в органическом поиске. Совсем недавно Джон Мюллер подтвердил это заявление.
Один из модулей, связанных с оценкой качества страниц, содержит показатель просмотров из Chrome на уровне сайта.
В другом модуле, который, по‑видимому, связан с генерацией ссылок на сайт, также есть атрибут, связанный с Chrome.
Утечка внутренней презентации системы RealTime Boost от мая 2016 года также указывает на то, что данные о Chrome попадают в поиск.
❗️ Понятно, что все представители Google, которых здесь процитировали, делают всё возможное, чтобы оказать поддержку и принести пользу SEO‑сообществу в рамках дозволенного.
Однако слитые документы ясно дают понять, что нужно продолжать воспринимать то, что они говорят, как один из вариантов, а не единственную истину. SEO‑сообществу нужно продолжать экспериментировать, чтобы увидеть, что действительно работает, а что нет.
Архитектура системы ранжирования Google
Концептуально вы можете думать об алгоритме Google как о чём‑то едином, например о гигантском уравнении с рядом взвешенных факторов ранжирования. На самом деле это набор микросервисов, в которых множество функций предварительно обрабатываются и становятся доступными во время выполнения, чтобы сформировать поисковую выдачу. Судя по различным системам, упоминаемым в документации, их может быть более сотни.
Если предположить, что речь идёт не обо всех системах, то, возможно, каждая из них представляет собой «показатель ранжирования», и, возможно, именно так Google приходит к 200 факторам ранжирования, о которых они часто говорят.
В докладе «Создание программных систем в Google и усвоенные уроки» Джефф Дин упомянул, что ранние итерации Google отправляли каждый запрос на 1 000 машин, которые обрабатывали его и отвечали за время менее 250 миллисекунд. Он также изобразил диаграмму ранней версии концепции архитектуры системы. На этой диаграмме видно, что Super Root — это мозг Google Search, который отправляет запросы и собирает все воедино в конце.
Исследователь Марк Найорк в своей недавней презентации Generative Information Retrieval продемонстрировал абстрактную модель Google Search с его системой RAG (она же Search Generative Experience / AI Overviews). Эта диаграмма демонстрирует ряд различных хранилищ данных и серверов, которые обрабатывают множество слоев информации, получаемой в результате поиска.
Разоблачитель Google Зак Ворхис выложил в сеть слайд, на котором показаны взаимосвязи различных систем внутри Google по их внутренним названиям. Некоторые из них упоминаются в документации:
Используя эти три высокоуровневые модели, мы можем задуматься о том, как некоторые из этих компонентов работают вместе.
Из документации автор оригинальной статьи понял, что этот API работает на базе Spanner от Google. Spanner — это архитектура, которая позволяет бесконечно масштабировать хранилище контента и вычислительные системы, расценивая ряд компьютеров, объединённых в глобальную сеть, как единое целое.
Конечно, на основе одной лишь документации сложно выстроить взаимосвязь между всеми компонентами. Но резюме Пола Хаара даёт ценное представление о том, что делают некоторые из упомянутых систем ранжирования. Выделим основные.
Сканирование
Trawler — система для сбора информации о веб‑страницах. В ней есть очередь сканирования, она поддерживает скорость сканирования и понимает, как часто меняются страницы.
Индексация
Alexandria — основная система индексации.
SegIndexer — система, которая размещает документы по уровням в индексе.
TeraGoogle — система вторичного индексирования для документов, которые хранятся на диске в течение длительного времени.
Рендеринг
HtmlrenderWebkitHeadless — система рендеринга для страниц JavaScript.
Странно, что она названа в честь WebKit, а не Chromium. В документации есть упоминание о Chromium, так что, скорее всего, Google изначально использовала WebKit и перешла на него после появления Headless Chrome.
Обработка
LinkExtractor — извлечение ссылок из страниц.
WebMirror — система управления канонизацией и дублированием.
Ранжирование
Mustang — основная система оценки, ранжирования и обслуживания
Ascorer — первичный алгоритм ранжирования, который ранжирует страницы до внесения изменений в рейтинг.
NavBoost — система повторного ранжирования, основанная на данных о кликах и поведении пользователей.
FreshnessTwiddler — система ранжирования документов на основе их «свежести» (новизны).
WebChooserScorer — определяет названия функций, используемых при подсчете расширенных описаний.
Обслуживание
Google Web Server (GWS) — это сервер, с которым взаимодействует фронтенд Google. Он получает информацию для отображения пользователю.
SuperRoot — «мозг» Google Search, который отправляет сообщения на серверы Google и управляет системой постобработки для повторного ранжирования и представления результатов.
SnippetBrain — система, генерирующая расширенные описания для результатов.
Glue — система для объединения универсальных результатов с учетом поведения пользователей.
Cookbook — система для генерации сигналов. Есть данные, что сигналы генерируются во время выполнения.
В этих документах описано гораздо больше систем, но не до конца понятно, что они делают. Например, SAFT и Drishti из приведённой выше диаграммы также представлены в этих документах, но их функции остаются неизвестными.
🔥 Очень подробно и просто процессы работы ПС — сканирование, фильтрацию, индексацию и прочее — мы описали в модуле 2 нашего бесплатного курса по SEO.
Что такое твиддлеры
В сети мало информации о твиддлерах. Но нужно понять их суть, чтобы лучше осознавать контекст различных систем Boost, с которыми мы столкнулись в документации.
Твиддлеры — это функции повторного ранжирования, которые работают после основного алгоритма поиска Ascorer.
Они работают аналогично фильтрам и действиям в WordPress, то есть то, что отображается, корректируется непосредственно перед тем, как быть показанным пользователю.
Твиддлеры могут корректировать оценку эффективности поиска информации по документу или изменять его место в рейтинге. Многие реализованные эксперименты и известные нам системы реализованы именно таким образом. Как показывает этот пользователь X, они очень важны для различных систем Google:
Перевод
Deedy пишет в ответ на предложение Aveta делиться историями о пропущенных факапах на проде: «Однажды я внёс изменения в определение API superroot, сервиса, который поддерживает поиск Google, чтобы отключить твиддлеры, не понимая, что от этого зависит весь поиск на Youtube. В итоге я отключил поиск на Youtube на пару часов».
Твиддлеры могут предлагать ограничения по категориям, что означает, что разнообразие может поддерживаться путём специального ограничения типа результатов. Например, автор может решить, что в данном поисковом запросе будет только 3 записи из блога. Например, из‑за формата страницы сайт может плохо ранжироваться.
Когда Google говорит, что Panda не является частью ядра алгоритма, это, скорее всего, означает, что она была запущена в качестве твиддлера для повышения или понижения рейтинга, а затем перенесена в основную функцию подсчёта оценок. Думайте об этом так же, как о разнице между рендерингом на сервере и на стороне клиента.
Предположительно, любая из функций с суффиксом Boost работает на основе фреймворка Twiddler. Вот некоторые из Boost'ов, описанных в документации:
-
NavBoost,
-
QualityBoost,
-
RealTimeBoost,
-
WebImageBoost.
Судя по названиям, все они не требуют пояснений.
Существует также внутренний документ о твиддлерах, где об этом говорится более подробно. Но не будем углубляться в это настолько сильно.
Самые главные сведения из утечки, которые нужно знать SEO‑специалистам
Что Google делает такого, чего мы не знали или в чём не были уверены, и как это может повлиять на нашу SEO‑активность?
Как работает алгоритм Panda
Когда появилась Panda, было много путаницы. Используется ли в ней машинное обучение? Использует ли она показатели пользователей? Зачем нужно обновление для восстановления? Действует ли она на весь сайт? Почему мой сайт потерял часть трафика для определённого подкаталога?
Panda была выпущена под руководством Амита Сингхала. Сингхал был категорически против машинного обучения из‑за ограниченности контроля. На самом деле существует ряд патентов, посвящённых качеству сайтов для Panda. Но остановимся на одном из них, который не содержит описания «Ранжирование результатов поиска».
Патент поясняет, что Panda гораздо проще, чем мы думали. Речь идет в основном о создании модификатора оценки на основе распределённых показателей, связанных с поведением пользователей и внешними ссылками. Этот модификатор может применяться на уровне домена, поддомена или сабдиректории.
«Система генерирует коэффициент изменения для группы ресурсов на основе количества независимых ссылок и количества ссылочных запросов (шаг 306).
Например, коэффициент модификации может представлять собой отношение количества независимых ссылок для группы к количеству ссылочных запросов для группы.
То есть коэффициент модификации (M) может быть выражен как:
M=IL/RQ,
где IL — количество независимых ссылок, подсчитанных для группы ресурсов, а RQ — количество ссылочных запросов».
Независимые ссылки — это, по сути, то, что мы считаем связующими корневыми доменами, а вот ссылочные запросы немного сложнее. Вот как они определяются в патенте:
«Ссылочный запрос для определённой группы ресурсов может быть ранее отправленным поисковым запросом, который был отнесён к категории ссылающихся на ресурс в определённой группе ресурсов.
Классификация конкретного, ранее представленного поискового запроса как относящегося к конкретному ресурсу в конкретной группе ресурсов включает выявление того, что этот запрос включает один или более терминов, которые были определены как относящиеся к ресурсу в конкретной группе ресурсов».
Теперь, когда у нас есть доступ к этой документации, становится ясно, что ссылочные запросы — это запросы из NavBoost.
Это позволяет предположить, что обновления Panda были просто апдейтами скользящего окна результатов подобно тому, как функционируют расчёты Core Web Vitals.
Другой патент Panda, Site quality score, также предполагает оценку, которая представляет собой соотношение между ссылочными запросами и пользовательскими выборами или кликами.
❗️ Суть в том, что вам нужно делать больше успешных кликов по более широкому набору запросов и получать больше разнообразных ссылок, если вы хотите продолжать ранжироваться. Только очень сильный контент будет справляться с этой задачей.
Фокус на привлечении более квалифицированного трафика и улучшении пользовательского опыта послужит показателем для Google, что ваша страница заслуживает ранжирования. Вам следует сосредоточиться на этом аспекте, чтобы восстановиться после обновления «Полезного контента».
Всё об алгоритме Google: как думает поисковая система
Страницы авторов
Многое уже было сказано об E‑E‑A‑T. Многие SEO‑специалисты не верят в эту идею из‑за того, что экспертность и авторитетность — довольно размытые понятия. До информации о векторных эмбеддингах казалось, что авторство не является достаточно жизнеспособным показателем в масштабах сети.
Тем не менее Google явно учитывает авторов, связанных с документом, в виде текста:
Они также смотрят, является ли субъект на странице автором этой страницы.
❗️ В сочетании с подробным отображением субъектов и эмбеддингов, показанных в этих документах, становится ясно: существует некое всеобъемлющее описание авторов.
Понижения рейтингов сайтов
В документации обсуждается ряд алгоритмических понижений. Они описаны очень скудно, но их стоит упомянуть. Мы уже обсудили Panda, но остальные понижения таковы:
-
Несоответствие анкоров — когда ссылка не соответствует целевому сайту, на который она ссылается, ссылка понижается в расчётах. Google ищет релевантность с обеих сторон ссылки.
-
Понижение в поисковой выдаче — показатель, указывающий на понижение в выдаче. Он говорит о потенциальной неудовлетворённости пользователей страницей, которая, вероятно, измеряется кликами.
-
Навигационное понижение — предположительно, это понижение, применяемое к страницам, демонстрирующим плохую навигацию или проблемы с удобством использования.
Что такое юзабилити и как его улучшить
-
Понижение доменов с точным соответствием — в конце 2012 года Мэтт Каттс объявил, что домены с точным соответствием не будут иметь такого большого значения, как раньше. Существует специальная функция для их понижения.
Прим. ред.: Домены с точным соответствием или с точным вхождением ключей (EMD, Exact Match Domain) — это такие домены, которые соответствуют термину, который пользователь пытается найти.
Например, у нас журнал про SEO. Доменом точного соответствия было бы что‑то вроде journalaboutseo.com.
-
Понижение отзывов о товарах — конкретной информации по этому вопросу нет, но он указан и, вероятно, связан с недавним обновлением отзывов о товарах в 2023 году.
-
Понижение позиций — есть признаки того, что «международные» страницы могут быть понижены в рейтинге. Это говорит о том, что Google пытается ассоциировать страницы с местоположением и ранжировать их соответствующим образом.
-
Понижение в выдаче за порнографию — тут всё довольно очевидно.
-
Понижение позиций по другим ссылкам — об этом поговорим в следующем разделе.
Все эти потенциальные понижения могут служить основой для стратегии. Но главное — создавать лучший контент с высоким уровнем удобства для пользователей и продвигать свой бренд.
Ссылки всё еще очень важны
В документации нет никаких доказательств, опровергающих недавние заявления о том, что ссылки теряют свою важность. Опять же, скорее всего, это связано с самими функциями подсчёта, а не с тем, как хранится информация. Тем не менее было уделено большое внимание извлечению и разработке функций для глубокого понимания ссылочного поля.
Уровень индексирования влияет на ценность ссылок
Параметр под названием sourceType показывает нечёткую связь между местом индексации страницы и её ценностью.
Для справки
Индекс Google разделен на уровни, где наиболее важный, регулярно обновляемый и доступный контент хранится во флэш‑памяти. Менее важный контент хранится на твердотельных накопителях, а нерегулярно обновляемый — на обычных жёстких дисках.
По сути, это означает, что чем выше уровень, тем ценнее ссылка. Страницы, которые относятся к категории «свежих», также считаются высококачественными.
Вам нужно, чтобы ваши ссылки шли со страниц, которые либо свежие, либо по каким‑то другим причинам находятся в верхнем слое. Это частично объясняет, почему ссылки с высокорейтинговых и новостных страниц дают лучшие показатели ранжирования.
Приёмы линкбилдинга и получения ссылок
Скорость распространения ссылочного спама
В документации существует целая серия параметров, связанных с выявлением скачков спамерского анкорного текста. Отмечая функцию phraseAnchorSpamDays, Google фактически имеет возможность измерять скорость распространения спама в ссылках.
Это может быть легко использовано для определения того, когда на сайте происходит спам, и свести на нет негативные SEO‑атаки.
При анализе ссылок Google использует только последние 20 изменений для конкретного URL‑адреса
Файловая система Google способна сохранять версии страниц с течением времени, как Wayback Machine.
Прим. ред.: Wayback Machine — своего рода «архив» интернета, сайт, где можно посмотреть, как выглядела та или иная страница в разные периоды времени.
Google хранит проиндексированные страницы вечно. Это одна из причин, по которой вы не можете просто перенаправить страницу на неактуальную цель и ожидать, что ссылочный капитал будет расти.
Эта идея подкрепляется документами, в которых говорится, что Google хранит все изменения, которые когда‑либо были замечены на странице.
Сравнивая данные с помощью DocInfo, они учитывают только 20 последних версий страницы.
❗️ Благодаря этому вы можете понять, сколько раз вам нужно изменить страницы и проиндексировать их, чтобы получить «чистый лист» в Google.
PageRank домашней страницы учитывается для всех страниц
Каждый документ имеет свой PageRank домашней страницы. Вероятно, она используется как прокси для новых страниц, пока они не получат свой собственный PageRank.
Доверие к домашней странице
Google решает, как оценивать ссылку, основываясь на том, насколько он доверяет главной странице.
❗️ Как всегда, вам следует сосредоточиться на качестве и актуальности ваших ссылок, а не на их количестве.
Значение размера шрифта терминов и ссылок
На заре SEO текст выделяли жирным шрифтом, подчёркивали его или делали определенные фрагменты более крупными, чтобы они казались более важными.
В последнее время это прекратилось, но из документации видно, что Google отслеживает средний размер шрифта терминов в документах.
То же самое они делают и для анкорного текста ссылок.
Penguin уничтожает внутренние ссылки
Во многих модулях, связанных с анкорами, концепция «локального» подразумевает один и тот же сайт. Показатель droppedLocalAnchorCount предполагает, что некоторые внутренние ссылки не учитываются.
Нет ни одного упоминания Disavow
Хотя данные Disavow могут храниться в другом месте, в этом API их нет. Скорее всего, это связано с тем, что данные о показателях качества доступны непосредственно в этом API. Это говорит о том, что данные Disavow не связаны с основными системами ранжирования.
Автор оригинальной статьи давно предполагал, что Disavow — это попытка создать классификацию спама за счёт краудсорсинга. То, что данные не попали в «онлайн», говорит о том, что это может быть правдой.
❗️ Сейчас самое время пересмотреть свои программы по линкбилдингу, основываясь на всём, что вы только что прочитали.
Как продвигаться ссылками, мы подробно описали в модуле 7 нашего бесплатного курса по SEO.
Документы становятся короче
Google подсчитывает количество лексем (слов) и отношение общего количества слов в тексте к количеству уникальных лексем.
В документах указано, что существует максимальное количество лексем, которое учитывается в документе именно в системе Mustang, тем самым подкрепляя, что авторы должны продолжать размещать наиболее важный контент в начале.
Оригинальность короткого контента
OriginalContentScore предполагает, что короткий контент оценивается по оригинальности. Возможно, именно поэтому смысловая нагрузка контента не всегда зависит от длины.
И наоборот: есть показатель заспамленности ключевыми словами.
Заголовки страниц по‑прежнему учитываются в запросах
В документации указано, что существует показатель titlematchScore. Судя по описанию, то, насколько хорошо заголовок страницы соответствует запросу, по‑прежнему является тем, чему Google активно придает значение.
Размещение целевых ключевых слов на первом месте по‑прежнему актуально.
🔥 Проверить сразу все title на своём сайте можно с помощью Анализа сайта от Топвизора.
Добавьте страницы в сервис, нажав «Настроить URL». После завершения проверки перейдите в «Страницы» — «Контент». Там показаны title каждой страницы.
Ещё анализ сайта соберет ключевые технические данные сайта и подскажет, как исправить ошибки и предупреждения, которые мешают ему получить максимум от SEO‑продвижения.
Не существует инструментов подсчёта символов
Гэри Ийеш заявил, что SEO‑специалисты сами придумали оптимальное количество символов для метаданных. Это, похоже, правда.
В наборе утекших данных нет ни одного показателя, который бы подсчитывал длину заголовков страниц или описаний. Единственная мера подсчёта символов, которую автор нашел в документации, — это snippetPrefixCharCount, который, похоже, устанавливается для определения того, что может быть использовано в качестве части расширенного описания.
Это подтверждает то, что мы уже неоднократно проверяли: длинные заголовки страниц неоптимальны для привлечения кликов, но прекрасно подходят для ранжирования.
🤩 У Google инструмента подсчёта слов нет, а у нас в Анализе сайта есть. Откройте Анализ сайта, вкладку «Страницы» и «Контент». Прокрутите страницу вправо — и увидите длину текста на каждой странице.
Даты публикаций очень важны
Google уделяет большое внимание свежим результатам, и документы иллюстрируют его многочисленные попытки связать даты со страницами.
bylineDate — дата, установленная на странице.
syntacticDate — дата, извлеченная из URL или заголовка.
semanticDate — дата, полученная из содержимого страницы.
❗️ Лучше всего указывать дату и быть последовательным в структурированных данных, заголовках страниц, XML‑карт. Помещение в URL дат, которые противоречат датам в других местах на странице, скорее всего, приведёт к снижению эффективности контента.
Информация о регистрации домена хранится отдельно
Давно существует теория заговора, согласно которой статус Google как регистратора влияет на алгоритм. Некоторые считают, что Google хранит последнюю регистрационную информацию на уровне отдельных документов.
Как уже говорилось ранее, это, скорее всего, используется для создания «песочницы» для нового контента. Она также может использоваться для «песочницы» ранее зарегистрированного домена, который сменил владельца.
Скорее всего, что в последнее время на это обратили особое внимание в связи с введением политики борьбы со спамом на доменах с истекшим сроком действия.
К сайтам, ориентированным на видео, относятся по‑другому
Если более 50 % страниц сайта содержат видео, сайт считается видеоориентированным и будет рассматриваться по‑другому.
Для YMYL предусмотрены специальные оценки
В документации указано, что в Google есть специалисты, которые генерируют оценки для разделов «Здоровье» и «Новости».
Они также делают прогноз для «пограничных запросов» или тех, которые не были замечены ранее, чтобы определить, являются ли они YMYL или нет.
Эмбеддинг используется для определения соответствия теме
Google специально векторизует страницы и сайты и сравнивает эмбеддинг страницы с эмбеддингом сайта, чтобы понять, насколько страница не по теме.
Показатель siteFocusScore определяет, насколько сайт придерживается одной темы. Радиус сайта показывает, насколько далеко страница выходит за пределы основной темы на основе векторов site2vec, сгенерированных для сайта.
Google может специально «подставлять» небольшие сайты
У Google есть специальный флажок, указывающий на то, что сайт является «небольшой авторской страницей». Определения для таких сайтов нет, но, исходя из всего, что мы знаем, для них не составит труда добавить твиддлер, повышающий такие сайты или понижающий их.
Учитывая обратную реакцию и малый бизнес, который пострадал от обновления «Полезного контента», удивительно, что они пользуются этой функцией.
Вопросы, которые возникают после утечки
На данный момент есть несколько открытых вопросов, о которых нужно подумать.
Обновление «Полезного контента» связано с Baby Panda?
Есть две ссылки на нечто, называемое Baby Panda. Baby Panda — это твиддлер, который вносит коррективы после первоначального ранжирования.
В документации есть упоминание о том, что он работает в дополнение к Panda, но больше ничего нет.
Обновление «Полезный контент» имеет многие из тех же характеристик, что и Panda. Если оно построено на основе системы, использующей ссылочные запросы, ссылки и клики, то это то, на чём нужно сосредоточиться после улучшения контента.
NSR — это Neural Semantic Retrieval (нейросемантический поиск)?
Существует множество ссылок на модули и атрибуты с NSR в названии. Многие из них связаны с фрагментами и эмбеддингами сайта. Ранее Google уже говорил о «нейронной оптимизации» как о важной области, требующей усовершенствования.
Предположение автора статьи заключается в том, что NSR означает Neural Semantic Retrieval, и все эти функции связаны с семантическим поиском. Однако в некоторых случаях они упоминаются рядом с «ранжированием сайта».
Что делать с полученной информацией
-
Поблагодарите Рэнда Фишкина
Рэнд Фишкин — SEO‑энтузиаст. Он делал много SEO‑исследований и пытался разобраться, как работает Google. За это он получал много упрёков со стороны компании (см. комментарии Гэри Ийеша выше) и со стороны SEO‑сообщества.
При этом Рэнд не ошибался в выводах, сделанных в ходе экспериментов с кликами, неоднократно пытался доказать существование «песочницы» Google, исследовал примеры, показывающие, что Google по‑разному ранжирует поддомены, и долгое время считал, что Google использует показатели авторитетности на сайте. Во многом он был прав; вероятно, так будет и со следующими исследованиями и утечками.
Блог Фишкина в X (бывший Twitter)
Блог SparkToro (Фишкин — основатель) — недоступен в России
-
Создавайте качественный контент и хорошо его продвигайте
После анализа всех характеристик, дающих Google преимущества, становится совершенно очевидно, что создание высококачественного контента и его продвижение среди аудитории, которой он интересен, — наилучшая стратегия.
Показатели ссылочной массы и контента, конечно, помогут вам далеко продвинуться, но если вы действительно хотите выиграть в долгосрочной перспективе, придётся делать то, что будет хорошо ранжироваться.
Как провести анализ контента сайта
-
Вернитесь к исследованиям
Теперь мы гораздо лучше понимаем многие характеристики, которые Google использует для построения рейтингов. Благодаря комбинации данных о кликах и извлечению характеристик мы можем достичь большего, чем раньше. Пришло время вернуть корреляционные исследования по вертикали.
-
Тестируйте и развивайтесь
Эта утечка — ещё один признак того, что с данными нужно экспериментировать, чтобы понять, что будет работать именно для вашего сайта. Недостаточно ознакомиться с отдельными моментами и предположить, что Google работает именно так. Если у вашей организации нет программы тестирования в области SEO, сейчас самое время начать.
Выводы
Самый важный вывод из всего этого:
SEO‑специалисты знают, что делают.
Хотя в этих документах есть интересные нюансы работы Google, в них нет ничего, что заставило бы специалиста по продвижению изменить свою SEO‑стратегию.
Как разработать стратегию продвижения сайта для SEO: инструкция с примерами
Для тех, кто вникнет в суть, эти документы в первую очередь подтвердят то, за что давно выступают опытные SEO‑специалисты:
Поймите свою аудиторию, определите, чего она хочет, сделайте лучшее из возможного, оптимизируйте сайт и продвигайте его до тех пор, пока он не займет своё место.
Всем, кто не уверен в том, что делает: продолжайте проводить тесты, учиться и развивать бизнес. Google не сможет делать то, что делает, без нас.
SEO — это непрерывно усложняющаяся головоломка. И хотя помогать брендам зарабатывать миллиарды долларов благодаря нашим усилиям очень круто, есть что‑то очень приятное в том, чтобы тешить своё любопытство, разбираясь в том, как работает Google.
Ещё по теме 🤓
SEO‑специалисты анализируют информацию из утечки данных Google
7 документов по ранжированию выдачи Google в рамках антимонопольного дела