Раскрытые алгоритмы Google. Как работает поисковая система согласно слитым документам

Что можно узнать из документов, слитых в ходе процесса по антимонопольному делу Google? Разбираемся, что у поисковой системы внутри, и чем это может быть полезно для SEO-специалиста.

Раскрытые алгоритмы Google. Как работает поисковая система согласно слитым документам

После недавней утечки документов по антимонопольному иску против Google у SEO‑специалистов появилась уникальная возможность изучить его алгоритмы. Некоторые из них уже были известны; но не внутренняя информация, которую ПС ранее не раскрывала.

В статье рассмотрим, как эти технологии обрабатывают наши поисковые запросы и определяют результаты выдачи, которые мы видим.

❗️ Это перевод и адаптация статьи Натзира Туррадо для analistaseo.es.

Какие алгоритмы Google были раскрыты

В первую очередь мы сконцентрируемся на исследовании всех алгоритмов, указанных в двух документах:

  1. Первый касается показаний Панду Наяка (вице‑президента компании Alphabet).

  2. Второй — опровержений показаний профессора Дугласа У. Орда относительно мнений, высказанных экспертом Google, профессором Эдвардом А. Фоксом, в своем отчёте от 3 июня 2022 г.

В последнем документе обсуждался знаменитый и противоречивый «Отчет Фокса», в котором Google манипулировал экспериментальными данными, пытаясь продемонстрировать, что пользовательские данные не представляют для них особой важности.

Автор оригинальной статьи постарался объяснить каждый алгоритм, опираясь на официальные данные.

6 алгоритмов, которые используются Google

6 алгоритмов, которые используются Google

Рассмотрим подробнее каждый из этих алгоритмов.

Navboost

Один из важнейших факторов и ключевой для Google. Информация о нём всплыла после утечки документов «Project Veritas» в 2019 году благодаря тому, что Пол Хаар указал её в своем резюме.

Выдержка из резюме Пола Хаара
Выдержка из резюме Пола Хаара

Navboost собирает данные о том, как пользователи взаимодействуют с результатами поиска, путем анализа кликов на различные запросы.

Данная система подсчитывает клики и использует алгоритмы, которые изучают созданные человеком рейтинги качества, чтобы улучшить ранжирование результатов. Идея заключается в том, что если результат для конкретного запроса часто выбирается (и имеет положительную оценку), он, вероятно, должен иметь более высокий рейтинг.

Любопытно, что много лет назад Google экспериментировал с удалением Navboost и пришёл к выводу, что результаты ухудшились.

О Navboost
О Navboost

RankBrain

Запущенный в 2015 году RankBrain представляет собой ИИ Google и систему машинного обучения, которые играют важную роль в обработке результатов поиска. Благодаря машинному обучению он постоянно улучшает свои способности понимания языка и намерений, которые стоят за запросами.

Rankbrain особенно эффективен в интерпретации неоднозначных или сложных запросов. Он является третьим по важности фактором ранжирования Google — сразу после контента и ссылок. В нем используется тензорный процессор (TPU), что значительно повышает его вычислительные возможности и энергоэффективность.

Об алгоритме Rankbrain
Об алгоритме Rankbrain

Автор оригинальной статьи сделал вывод, что QBST и Term Weighting являются компонентами RankBrain. Поэтому они тоже включены сюда.

QBST

QBST фокусируется на наиболее важных терминах в запросе и соответствующих документах, чтобы использовать эту информацию для влияния на ранжирование результатов поиска. Это значит, что поисковик может быстро распознать самые важные аспекты запроса пользователя и отдать предпочтение релевантным результатам. Это особенно полезно для неоднозначных и сложных запросов.

В свидетельских показаниях QBST упоминается в контексте ограничений BERT. Автор статьи приводит следующую цитату из показаний Дугласа У. Орда:

«BERT не включает в себя такие крупные системы запоминания, как Navboost, QBST, и т.д.».

Несмотря на то, что BERT высоко эффективен в понимании и обработке естественного языка, у него есть ограничения — например, в том, чтобы обрабатывать или заменять крупномасштабные системы запоминания, такие как QBST.

Об алгоритме QBST
Об алгоритме QBST

Term Weighting

Term Weighting корректирует относительную важность отдельных терминов внутри запроса, основываясь на пользовательском поведении. Это помогает определить степень релевантности конкретных терминов в контексте запроса.

Этот алгоритм также эффективно обрабатывает очень частые или, наоборот, редкие термины в базе данных поисковой системы, тем самым балансируя результаты.

Об алгоритме Term Weighting
Об алгоритме Term Weighting

DeepRank

Этот алгоритм идёт на шаг дальше в понимании естественного языка, позволяя поисковым системам лучше понимать намерения пользователей и контекст запросов. Этого удалось добиться благодаря BERT.

Фактически DeepRank — это и есть внутреннее название для BERT. Путём предварительного обучения на большом объёме данных документов и корректировки с учётом кликов и оценок людей, DeepRank может настраивать результаты поиска, чтобы они были более интуитивными и релевантными запросу.

Об алгоритме DeepRank
Об алгоритме DeepRank

RankEmbed

RankEmbed, вероятно, фокусируется на внедрении соответствующих функций для ранжирования сайтов. Но информации о нём не очень много.

Несмотря на то, что в документе не приведены конкретные данные о его функциях и возможностях, можно сделать вывод, что речь идёт о системе глубокого обучения, разработанной с целью улучшения процесса классификации поиска Google.

RankEmbed‑BERT

RankEmbed‑BERT это улучшенная версия RankEmbed, в которую встроен алгоритм и структура BERT. Данная интеграция призвана значительно улучшить возможности понимания языка.

Эффективность модели может снизиться, если не провести переобучение с учетом последних данных. Для обучения используется только малая доля трафика. Тем самым подчёркивается, что нет необходимости использовать все доступные данные.

RankEmbed‑BERT вносит свой вклад в итоговый показатель ранжирования в поисковой системе Google, но будет работать после получения первых результатов (речь о повторном ранжировании). Обучается на данных о кликах и запросах, точно настраивается с помощью данных, полученных от оценщиков и требует больше вычислительных затрат, чем модели с прямой связью — например, RankBrain.

Об алгоритме RankEmbed‑BERT
Об алгоритме RankEmbed‑BERT

MUM

Этот алгоритм примерно в 1000 раз мощнее, чем BERT, и представляет собой серьёзное достижение в области поиска Google.

Запущенная в июне 2021 года модель не только понимает 75 языков, но также мультимодальна. То есть, она позволяет Google интерпретировать и обрабатывать информацию в разных форматах. Благодаря этому MUM способна давать более комплексные и полные ответы, сокращая необходимость множественных поисков. Однако её применение весьма избирательно из‑за высокой вычислительной требовательности.

Об алгоритме MUM

Об алгоритме MUM

Как Google внедряет в поиск ИИ, чтобы не отставать от конкурентов

Tangram и Glue

Эти системы работают вместе. Tangram отвечает за сборку поисковой выдачи — с данными из ;Glue. Это не только вопрос ранжирования результатов, а организация их удобным и доступным для пользователей образом — так в поиске появляются карусели изображений, прямые ответы и другие нетекстовые элементы.

Об алгоритмах Tangram и Glue

Об алгоритмах Tangram и Glue

Наконец, Freshness Node и Instant Glue гарантируют актуальность результатов, отдавая предпочтение свежей (новой) информации, что особенно важно для пользователей при поиске новостей или текущих событий.

О Freshness Node Tangram и Instant Glue
О Freshness Node Tangram и Instant Glue

В ходе судебного разбирательства участники ссылаются на теракт в Ницце. Тогда главное намерение запроса изменилось непосредственно в день теракта. Это привело к тому, что Instant Glue начал подавлять изображения на Tangram и вместо этого показывать текущие новости и изображения из Ниццы («красивые фото» vs «фото из Ниццы»: на английском «красивый» и «Ницца» звучат и пишутся одинаково — nice):

О свежести контента
О свежести контента

При всём этом, Google объединяет эти алгоритмы для:

  • понимания запроса: расшифровки намерений, стоящих за словами и фразами, которые пользователи вводят в строку поиска;

  • определения релевантности: ранжирования результатов на основе соответствия содержимого запросу с использованием сигналов от прошлых взаимодействий и рейтингов качества;

  • приоритета актуальности: обеспечения того, чтобы наиболее свежая и актуальная информация поднималась в рейтинге, когда это нужно;

  • персонализации результатов: адаптации результатов поиска не только к запросу, но и к контексту пользователя — местоположению и используемому устройству.

❗️ Из всего, что SEO‑экспертам удалось узнать на текущий момент, получается, что Tangram, Glue, и RankEmbed‑BERT — единственные новые данные, просочившиеся в сеть. Все остальные были известны.

Эти новые алгоритмы основаны на различных метриках, которые мы разберём дальше — снова основываясь на информации из судебного дела.

Руководство по системам ранжирования в поиске Google — перевод

Метрики, которые Google использует для оценки качества поиска

В рамках данного раздела мы вновь сфокусируемся на «Опровержении показаний Профессора Дугласа У. Орда» и включим информацию из предыдущей утечки данных «Project Veritas».

1. IS Score

Оценщики играют важную роль в развитии и усовершенствовании поисковых продуктов Google. В результате их работы была создана метрика, известная как «IS score» (Рейтинг удовлетворенности информацией в диапазоне от 0 до 100). Она получена на основе оценок экспертов и используется в качестве основного показателя качества в Google.

Оценивание происходит анонимно, а эксперты не знают, что именно они тестируют: Google или Bing. Так сравниваются показатели производительности Google с его основным конкурентом.

Метрика IS не только отражает воспринимаемое качество, но и используется для обучения различных моделей в поисковой системе Google — RankBrain и RankEmbed BERT.

Согласно документам, с 2021 года Google использует IS4, который считается приблизительным показателем полезности для пользователя. Его описывают как, возможно, самый важный показатель ранжирования, но при этом подчёркивают, что он является примерным и подвержен ошибкам.

О метрике IS
О метрике IS

Упоминается также производная от этой метрики — IS4@5. Метрика IS4@5 используется в Google для измерения качества результатов поиска, где особое внимание уделяется первым пяти позициям. Данный показатель включает в себя специальную функцию поиска — OneBoxes («синие ссылки»).

Существует вариант этой метрики под названием IS4@5 web, который фокусируется исключительно на оценке первых пяти веб‑результатов, исключая другие элементы — например, рекламу в результатах поиска.

Об IS4@5
Об IS4@5

Хотя IS4@5 полезен для быстрой оценки качества и релевантности первых результатов поиска, область его применения ограничена. Он не охватывает все аспекты качества поиска, в частности, не включает в результаты рекламу. Поэтому метрика даёт лишь частичное представление о качестве поиска.

Ограничения оценщиков

Оценщики сталкиваются с рядом проблем, такими как понимание технических запросов, оценка популярности продуктов или интерпретация запросов. Кроме того, языковые модели — MUM, например — могут понять язык и глобальные знания так же, как и эксперты, что создает как возможности, так и проблемы оценки релевантности в будущем.

Несмотря на всю важность оценщиков, их мнение может значительно отличаться от мнения реальных пользователей. Оценщикам может не хватать специальных знаний или предшествующего опыта, которые могут быть у пользователей. Всё это потенциально влияет на оценку релевантности и качества результатов поиска.

Основываясь на слитых документах с 2018 по 2021 гг., автор статьи смог составить список всех ошибок, которые признаёт за собой Google в своих внутренних презентациях.

1. Временные несоответствия

Расхождения могут возникать из‑за того, что запросы, оценки и документы относятся к разному времени. Это приводит к оценкам, которые неточно отражают текущую актуальность документов.

2. Повторное использование оценок

Практика повторного использования оценок для быстрого оценивания и контроля затрат может привести к тому, что оценки не будут отражать текущую актуальность контента.

3. Понимание технических запросов

Оценщики могут не понимать технических запросов, что приводит к трудностям в оценке актуальности специализированных или нишевых тем.

4. Оценка популярности

Экспертам присущи трудности с оценкой популярности конкурирующих интерпретаций запросов или конкурирующих продуктов, что может повлиять на точность их оценок.

5. Разнообразие оценщиков

Отсутствие разнообразия среди специалистов по оценке в некоторых регионах и тот факт, что все они взрослые, не отражает разнообразия пользовательской базы Google, поскольку в неё входят и несовершеннолетние.

6. Пользовательский контент

Оценщики, как правило, строго относятся к пользовательскому контенту, что может привести к недооценке его ценности и значимости, несмотря на то, что он полезен и актуален.

7. Обучение узлов свежести контента

Они сигнализируют о проблемах с настройкой моделей свежести из‑за отсутствия адекватных учебных меток. Эксперты зачастую не уделяют должного внимания аспекту свежести релевантности или отсутствию временного контекста для запроса. Это приводит к недооценке последних результатов для запросов, стремящихся к новизне.

Если мы посмотрим на изменения в последних руководствах по качеству, то сможем увидеть, что они наконец скорректировали определение «Показатели удовлетворения потребностей» и включили новый пример для оценщиков. Даже если результат не является авторитетным и не содержит искомую пользователями информацию, он не должен быть столь высоко оценен.

Руководство для оценщиков
Руководство для оценщиков

2. PQ (Качество страницы)

❗️ Здесь автор статьи лишь предполагает, что речь идёт о качестве страницы (Page Quality), и далее следует именно его интерпретация.

Единственные официальные данные, в которых упоминается PQ, относятся к руководству по оценке качества поиска, которое постоянно меняется. Таким образом, это ещё одна сложность и задача для оценщиков.

О качестве страницы
О качестве страницы

Эта информация также передаётся алгоритмам для создания моделей. Здесь мы видим предложение об этом, утёкшее в «Project Veritas»:

Слитые документы
Слитые документы

Интересно, что согласно документам, специалисты по оценке качества оценивают только страницы на мобильных устройствах.

О работе оценщиков
О работе оценщиков

3. Side‑by‑Side

Речь, вероятно, идёт об экспериментах, где два набора результатов поиска помещены рядом, так что оценщики могут сравнивать их относительное качество. Это помогает определить, какой набор результатов более релевантный или полезный для заданного поискового запроса.

Инструмент позволяет пользователям голосовать за предпочтительный набор поисковых результатов, тем самым обеспечивая прямую обратную связь об эффективности различных изменений или версий поисковых систем.

4. Живые эксперименты

Согласно официальной информации, опубликованной по работе поиска, Google проводит эксперименты с живым трафиком для оценки взаимодействия людей с новой функцией — прежде чем запустить в массы.

Сначала функция активируется для небольшого процента пользователей. Далее их поведение сравнивается с контрольной группой, не имеющей доступ к новой функции. Подробные показатели взаимодействия пользователя с результатами поиска включают:

  • Клики на результаты.

  • Количество выполненных запросов.

  • Отказ от запроса.

  • Время, необходимое пользователям, чтобы нажать на результат.

Эти данные помогают измерить, насколько положительным был опыт взаимодействия пользователей с новой функцией. Ещё они гарантируют, что изменения повысят релевантность и полезность результатов поиска.

Но документы судебного разбирательства выделяют только два показателя:

О живых экспериментах
О живых экспериментах

1. Взвешенный показатель «длинных» кликов

Оценивает продолжительность кликов и их положение на странице результатов, что отображает удовлетворенность пользователей полученными результатами.

2. Внимание

Оценка времени, проведённого на странице, дающая представление о том, как долго пользователи взаимодействуют с результатами и контентом.

Кроме того, стенограмма показаний Панду Наяка содержит информацию о том, что Google проводит многочисленные испытания алгоритмов, используя чередование вместо традиционных A/B‑тестов. Данный подход помогает проводить быстрые и достоверные эксперименты, тем самым позволяя им интерпретировать колебания при ранжировании.

5. «Свежесть» контента

«Свежесть» — важнейший аспект результатов и функций поиска. Очень важно показывать актуальной информацию, как только она становится доступной, и прекращать показ контента, когда он устаревает.

Для того, чтобы алгоритмы ранжирования могли отображать последние документы в поисковой выдаче, индексирующие и обслуживающие системы должны иметь возможность обнаруживать, индексировать и обслуживать свежие документы с низкой задержкой.

Существует риск того, что у свежего контента будет недооценена релевантность; или наоборот, контент с большим количеством доказательств релевантности станет менее релевантным из‑за изменения смысла запроса.

Пример того, как работает оценка «свежести» контента
Пример того, как работает оценка «свежести» контента

Задача Freshness Node — добавлять исправления в устаревшие оценки. Для запросов, с помощью которых люди ищут свежий контент, он способствует продвижению такого контента и понижают рейтинг устаревшего.

Не так давно в сеть просочилась информация о том, что Google Caffeine (также известный, как система индексации на базе Percolator) больше не существует. И хотя старое название продолжает использоваться внутри компании, это уже абсолютно новая система.

Новый «caffeine» фактически представляет собой набор микросервисов, связанных друг с другом. То есть, различные части системы индексирования действуют как независимые, но взаимосвязанные сервисы, каждый выполняющий определенную функцию. Данная структура может предложить большую гибкость, масштабируемость и простоту внесения обновлений и улучшений.

Частью этих микросервисов могут быть Tangram и Glue, в частности — Freshness Node и Instant Glue, о которых мы уже говорили выше. В другом просочившемся документе из «Project Veritas» автор статьи обнаружил, что в 2016 году было предложение включить «Instant Navboost» в качестве сигнала свежести, а также посещения Chrome.

О Realtime Boost Signal
О Realtime Boost Signal

К настоящему моменту они уже включили «Freshdocs‑instant» (извлекается из списка pubsub под названием freshdocs‑instant‑docs pubsub, куда попадают новости, опубликованные СМИ в течение 1 минуты с момента публикации) и корреляции всплеска поисковых запросов и генерации контента:

Схема работы Realtime Boost
Схема работы Realtime Boost

Среди показателей свежести есть несколько, которые определяются благодаря анализу коррелированных N‑грамм и коррелированных Salient Terms:

1. Коррелированные N‑граммы

Это группа слов, которые появляются вместе в статистически важной закономерности. Корреляция может внезапно возрасти во время события или актуальной темы, вызывая всплеск поисковых запросов.

2. Коррелированные Salient Terms

Это выделяющиеся термины, тесно связанные с темой или событием и чья частота встречаемости увеличивается в документах в течение короткого периода времени. Это свидетельствует о всплеске интереса или связанной с ним активности.

После обнаружения всплесков можно использовать следующие показатели свежести:

1. Униграммы (RTW)

Для каждого документа используются заголовок, анкорные тексты и первые 400 символов основного текста. Они подразделяются на униграммы, релевантные для обнаружения трендов и добавляемые в индекс Hivemind. Основной текст, как правило, содержит главное содержание статьи, за исключением повторяющихся или общих элементов (шаблонов).

2. Полчаса от эпохи Unix (TEHH)

Это показатель времени, выраженный в количестве получасов с начала Unix‑времени. С его помощью можно определить время события с точностью до получаса.

3. Объекты Графа знаний (RTKG) и Ячейки S2

Ссылки на объекты в Графе знаний Google, который представляет собой базу данных реальных объектов (людей, мест, вещей) и их взаимосвязей. Помогает обогатить поиск семантическим пониманием и контекстом.

4. Оценка статьи Freshbox (RTF)

Это геометрическое деление поверхности Земли, используемое для географической индексации на картах. Они облегчают связь веб‑контента с точным географическим местоположением.

5. NSR документа (RTN)

Это может относиться к новостной актуальности документа и, по‑видимому, является показателем, который определяет, насколько релевантен и надёжен документ по отношению к текущим сюжетам или трендовым событиям.

Этот показатель также может помочь отфильтровать некачественный контент или спам, гарантируя, что проиндексированные и выделенные документы будут высокого качества и важны для поиска в режиме реального времени.

6. Географические аспекты

Функции, определяющие географическое положение события или темы, упомянутой в документе. Сюда могут входить координаты, топонимы или идентификаторы, такие как ячейки S2.

Важность кликов пользователя для Google

В этом разделе мы сфокусируемся на:

В ходе этого процесса мы видим неоспоримую важность кликов для понимания поведения и потребностей пользователя. Иными словами, Google нуждается в наших данных. Любопытно, что именно тему кликов сотрудники Google отказались комментировать.

Рекомендации для сотрудников Google, что не стоит комментировать
Рекомендации для сотрудников Google, что не стоит комментировать

Прежде чем мы приступим к разбору, важно подчеркнуть, что основные документы, в которых обсуждаются клики, были созданы до 2016 года, и с тех пор Google претерпел значительные изменения.

Несмотря на эту эволюцию, в основе их подхода все также лежит анализ пользовательского поведения, который рассматривается как качественный сигнал для ПС. Клики входят в модель «Clicks, Attention and Satisfaction», которая служит фактором ранжирования.

О модели Click, Attention and Satisfaction
О модели Click, Attention and Satisfaction

О модели CAS — английский язык

Чем больше поисковых запросов и кликов делает пользователь, тем больше информации получает Google. Это способствует постоянному совершенствованию ПС. Подобный цикл обратной связи позволяет Google подстраиваться и узнавать о поисковых предпочтениях людей, тем самым создавая иллюзию понимания потребностей пользователей.

Условная схема работы Google
Условная схема работы Google

Ежедневно Google анализирует свыше миллиарда новых особенностей пользовательского поведения в рамках системы, разработанной для постоянной адаптации и совершенствования будущих прогнозов на основании прошлых данных. До 2016 года возможности систем искусственного интеллекта были весьма ограничены, и требовали ручной работы, а также корректировок со стороны RankLab.

RankLab — это лаборатория, в которой тестируются вес сигналов и факторы ранжирования, а также их последующее влияние на результаты выдачи. Они также могут стоять за внутренним инструментом «Twiddler», цель которого — ручная модификация значений IR‑score для конкретных результатов.

Или, иными словами, способность делать следующее:

Схема работы Twiddler
Схема работы Twiddler

Хотя рейтинги оценщиков дают базовое представление о пользователях, на основе кликов можно получить более детальную панораму поискового поведения пользователей.

Вот сравнение того, как сколько информации дают рейтинги оценщиков:

Информация, которую дают данные оценщиков
Информация, которую дают данные оценщиков

И сколько — клики:

Информация, которую дают данные о кликах
Информация, которую дают данные о кликах

Это выявляет сложные закономерности и способствует изучению эффектов второго и третьего порядков.

  • Эффекты второго порядка отражают новые закономерности

Если большинство пользователей предпочитает и выбирает подробные статьи вместо кратких списков, то Google заметит эту закономерность. С течением времени он настроит свои алгоритмы отдавать предпочтение более подробным статьям в связанных запросах.

  • Эффекты третьего порядка представляют более широкие, долгосрочные изменения

Если тенденции кликов говорят, что подробные статьи — это хорошо, создатели контента адаптируются к ним. Они начинают делать больше подробных статей и меньше коротких, таким образом меняя характер доступного в сети контента.

В проанализированных документах представлен конкретный случай того, как релевантность поисковых результатов была изменена посредством анализа кликов. Google определил разницу в предпочтениях пользователей: среди 15 тысяч документов люди чаще кликали на те, которые в итоге оказались более подходящими по запросу. Это открытие подчёркивает важность кликов пользователей как ценного инструмента для обнаружения скрытых релевантных документов среди большого объема информации.

Выводы Google о кликах
Выводы Google о кликах

Google исследует прошлые данные, чтобы спрогнозировать будущие тенденции и избежать необходимости переобучения системы. Благодаря постоянной оценке и обновлению данных модели не теряют своей актуальности и релевантности. Ключевым аспектом стратегии является персонализация локализации. Это гарантирует уместность результатов для разных пользователей в разных регионах.

Что касается персонализации, в последних документах Google утверждает, что она ограничена и редко оказывает влияние на ранжирование результатов.

Персонализация никогда не применяется в «Top Stories», а используется только тогда, когда нужно лучше понять поисковый запрос. Например, при использовании контекста предыдущих поисков и создании вариантов автозаполнения. Google признает, что может немного повысить уровень видеопровайдера, которым часто пользуются пользователи, но все увидят практически одинаковые результаты. ПС подчёркивает, что запрос представляет большую ценность нежели данные пользователей.

❗️ Важно помнить, что подход, сосредоточенный на кликах, сталкивается с определенными сложностями, особенно когда речь идёт о новом или редком контенте. Оценивание качества поисковых результатов — это сложный процесс, выходящий далеко за рамки простого подсчёта кликов.

После разбора этого раздела у автора статьи появилось следующее видение того, как отобразить все элементы ПС на схеме:

Возможный принцип работы и архитектура Google
Возможный принцип работы и архитектура Google

Как посмотреть сайт «глазами» поискового робота с помощью Google Chrome

Как Google и Chrome борются за статус ПС и браузера по умолчанию

В последнем разделе автор фокусируется на:

Как сообщает Джим Колотурос во внутренней переписке, Chrome — это не просто браузер, а ключевой элемент головоломки в господстве Google на рынке поисковых систем.

Среди данных, которые собирает Google, — шаблоны поиска, клики на результаты поиска, поведение пользователей на разных сайтах. Всё это крайне важно для совершенствования алгоритмов Google, повышения точности результатов поиска и эффективности таргетированной рекламы.

По мнению Антонио Рангеля, доминирование Chrome на рынке превосходит его популярность. Он служит в качестве шлюза для экосистемы Google, влияя на то, как пользователи получают доступ к информации и онлайн‑сервисам.

Интеграция Chrome с Google Search, который является поисковой системой по умолчанию, даёт Google значительное преимущество в контроле над потоком информации и цифровой рекламы.

Как Google шёл к господству по умолчанию
Как Google шёл к господству по умолчанию

Несмотря на популярность Google, Bing ничуть не уступает ему. Тем не менее многие пользователи предпочитают Google из‑за удобства конфигураций по умолчанию.

Влияние поисковых систем по умолчанию сильнее на мобильных устройствах, поскольку для их смены потребуется больше манипуляций. Чтобы изменить поисковую систему по умолчанию, пользователю необходимо сделать до 12 кликов!

Как развивалось господство Google в устройствах по умолчанию
Как развивалось господство Google в устройствах по умолчанию

Предпочтения по умолчанию также оказывают влияние на защиту персональных данных потребителей. Настройки конфиденциальности по умолчанию в Google вызывают недовольство у пользователей, которые предпочитают более ограниченный сбор данных. Изменение настроек по умолчанию требует изучения необходимых шагов для изменений, а это часто сложно.

Показания Антонио Рангеля напрямую перекликаются с разоблачением внутренних анализов Google. В документе говорится, что настройки домашней страницы браузера имеют значительное влияние на долю поисковых систем на рынке и поведение пользователей. В частности, большой процент пользователей, использующих Google в качестве стартовой страницы, выполняют на 50 % больше поисковых запросов именно в Google, чем те, у кого установлены другие поисковики по умолчанию.

Статистика настроек по умолчанию
Статистика настроек по умолчанию

Это говорит о сильной связи между стартовой страницей по умолчанию и предпочтительной ПС. Помимо этого, влияние данных настроек варьируется в зависимости от региона, и более выражено в Европе, странах Ближнего Востока, Африке и Латинской Америке, и менее — в Азиатско‑Тихоокеанском регионе и Северной Америке.

Результаты анализа также говорят о том, что Google менее уязвим к изменениям в настройках домашней страницы по сравнению с такими конкурентами, как Yahoo и MSN, которые могут нести серьёзные убытки в случае потери этой настройки.

Статистика Google по сравнению с Yahoo и MSN
Статистика Google по сравнению с Yahoo и MSN

Настройки домашней страницы считаются ключевым стратегическим инструментом для Google, который не только позволяет удерживать ведущие позиции на рынке, но и является слабым местом потенциальных конкурентов. Более того, он подчёркивает тенденцию, что большинство пользователей не выбирают специально поисковую систему, а склоняются к использованию доступа по умолчанию, предоставляемого настройками их домашней страницы.

С экономической точки зрения дополнительная пожизненная стоимость для Google составляет около 3 долларов США для каждого пользователя, когда поисковик устанавливается в качестве главной страницы.

Зависимость между выгодой для Google и настройками по умолчанию
Зависимость между выгодой для Google и настройками по умолчанию

Главные выводы

  • После исследования алгоритмов и внутренних документов Google мы наглядно убедились в том, что клики пользователей играют важную роль в ранжировании результатов поиска.

  • Клики, выступающие в качестве прямого показателя предпочтения пользователя, необходимы Google для постоянной адаптации, повышения релевантности и точности ответов.

  • Вдобавок эксперты вносят важнейший вклад в оценку и понимание поведения пользователей, который даже в эпоху расцвета искусственного интеллекта остается незаменимым.

  • Сочетание автоматической обратной связи через клики и человеческого контроля — позволяет Google не только лучше понимать поисковые запросы, но и адаптироваться к изменению тенденций и информационных потребностей.

  • Chrome — это больше чем просто браузер; это важнейший компонент, который является основой цифрового доминирования. Его синергия с Google Search и внедрение по умолчанию во многих областях влияют на динамику рынка и всю цифровую среду. Неясно, чем закончится антимонопольный процесс, но уже более 10 лет Google не платит около 10 миллиардов евро штрафов за злоупотребление доминирующим положением на рынке поисковых систем.

Ещё по теме 👇

Всё об алгоритме Google: как думает поисковая система

Как посмотреть сайт «глазами» поискового робота с помощью Google Chrome

Полное руководство по JavaScript SEO — часть 1

Теги: