Насколько важны пользовательские данные в системах ранжирования Google? Данные из апелляции Элизабет Рид

В последнем документе по антимонопольному делу Министерства юстиции США против Google Мэри Хейнс нашла несколько интересных моментов. Google подал апелляцию на решение, согласно которому компания должна была предоставить конфиденциальную информацию своим конкурентам.

Насколько важны пользовательские данные в системах ранжирования Google? Данные из апелляции Элизабет Рид
Это перевод и адаптация статьи Мэри Хейнс.

Главные выводы 

  • Google обязали предоставить информацию конкурентам, чтобы избежать незаконного монополизма. Однако компания не желает раскрывать свои подробные данные о пользователях.

  • Данные Google о качестве и актуальности страниц конфиденциальные, и он не намерен их разглашать.

  • Индексируемые страницы помечаются аннотациями, включая факторы, которые помогают идентифицировать спам‑страницы.

  • Если спамеры получат доступ к такой информации, это затруднит борьбу с ними.

  • Пользовательские данные играют ключевую роль в работе системы Google GLUE, которая хранит информацию о каждом запросе, о том, что пользователь видел и как он взаимодействовал с результатами поиска.

  • Эти данные также необходимы для обучения RankEmbed BERT — одной из систем глубокого обучения, на которых основан поиск.

У Google есть запатентованные факторы, которые определяют качество и актуальность страниц

И это неудивительно. Однако интересно, что именно эти факторы являются главным секретом Google.

Выборка Google
Выборка страниц в индексе Google — это результат более чем 25 лет упорной работы, постоянных вложений, исчерпывающих и трудозатратных идей инженеров и разработчиков. Google опирается на собственную оценку качества и факторы актуальности, чтобы сфокусироваться на информации, которая вероятнее всего будет полезна пользователям 

Вот ещё немного полезной информации о запатентованных факторах, которые Google использует для оценки свежести контента:

Как Google использует данные
Это позволит конкурентам лучше понять, как работают факторы свежести и актуальности от Google. Данные, касающиеся процесса сканирования, могут помочь конкурентам получить информацию о запатентованных факторах свежести и структуре индексации

Все проиндексированные страницы отмечаются «специальными аннотациями для понимания страницы»

Эти аннотации помогают Google лучше понять содержание страницы, используя факторы для выявления спама и дубликатов. Ранее Мэри Хейнс уже упоминала, что каждая страница в индексе получает оценку spam score.

Google размечает просканированные страницы специальными аннотациями, используя механизмы для выявления спама и дубликатов
Google размечает просканированные страницы специальными аннотациями, используя механизмы для выявления спама и дубликатов

Эти оценки могут быть использованы для анализа систем ранжирования

Однако Google не стремится делиться этой информацией со своими конкурентами.

Раскрытие информации о работе механизмов Google для определения спама каждой веб‑страницы
Раскрытие информации о работе механизмов Google для определения спама каждой веб‑страницы предоставит конкурентам конфиденциальную информацию. Конкуренты могут в своих целях использовать информацию о spam score для получения дополнительных собственных аналитических данных

Если бы о spam score появилось больше информации, это могло бы привести к увеличению количества спама и усложнить борьбу Google с этой проблемой.

Если спамеры или другие недобросовестные авторы получат доступ к spam scores, они смогут обойти защиту от спама и затруднят работу Google по борьбе с этой проблемой
Если спамеры или другие недобросовестные авторы получат доступ к spam scores, они смогут обойти защиту от спама и затруднят работу Google по борьбе с этой проблемой

Используя размеченные страницы, Google создаёт собственный индекс

Страницы, к которым были добавлены специальные аннотации, группируются в зависимости от того, насколько часто, по мнению Google, к ним будут обращаться и насколько свежим должен быть этот контент.

Google создаёт индекс
Google создаёт индекс, используя специально размеченные страницы. Индекс Google работает на основе системы ранжирования, которая структурирует страницы по предположению о том, как часто пользователи захотят увидеть определённый контент и насколько свежим он должен быть

Обязательно ли продвигаться и в Яндексе, и в Google? 

В индекс Google попадает лишь небольшая часть страниц

По словам Google, предоставление конкурентам списка проиндексированных URL‑адресов позволит им «избавиться от необходимости сканировать и анализировать большую часть интернета, сосредоточив усилия только на тех страницах, которые Google включил в свой индекс».

Однако создание этого индекса требует значительных затрат времени и ресурсов, поэтому компания не готова делать это бесплатно.

Результат сканирования и индексирования Google: Спам, дубликаты и низкокачественный контент Индексированные страницы = [...] миллиардов из [...] триллионов просканированных страниц
Результат сканирования и индексирования Google: 


Спам, дубликаты и низкокачественный контент

Индексированные страницы = [...] миллиардов из [...] триллионов просканированных страниц

Роль пользовательских данных в системах ранжирования 

Это самая интересная часть. Мы не уделяем достаточно внимания тому, как именно Google использует данные о пользователях.

Пользовательские данные служат основой для работы моделей GLUE и RankEmbed

Google GLUE по сути представляет собой огромную таблицу с информацией об активности пользователей. В неё включаются текст поисковых запросов, язык, местоположение и тип устройства пользователя, а также данные о том, что показывалось в результатах поиска, куда пользователь кликал или наводил курсор, как долго оставался на странице и многое другое.

С RankEmbed BERT ситуация ещё интереснее. Это одна из систем глубокого обучения, используемых в поиске. Из показаний Панду Наяка стало известно, что RankEmbed BERT применяется для переранжирования результатов, возвращаемых обычными системами ранжирования. Обучение RankEmbed BERT основано на данных о кликах и запросах реальных пользователей.

Системы ИИ, лежащие в основе поиска, постоянно развиваются, чтобы показывать пользователям более точные результаты. Google анализирует действия пользователей, отслеживая, на какие результаты они кликают и возвращаются ли к выдаче.

В рамках экспериментов в реальном времени Google также изучает, какие результаты пользователи предпочитают и остаются ли они на странице. Эти данные помогают в обучении RankEmbed BERT, после чего систему дополнительно настраивают с помощью экспертов по оценке качества.

Из документа Лиз Рид видно, что пользовательские данные играют ключевую роль в обучении, создании и работе моделей RankEmbed.

Пользовательские данные для разработки и последующей работы модели GLUE… Пользовательские данные для обучения, настройки и работы моделей RankEmbed…
Пользовательские данные для разработки и последующей работы модели GLUE… Пользовательские данные для обучения, настройки и работы моделей RankEmbed…

Секреты алгоритма Google: что известно после утечки внутренней документации компании 

Пользовательские данные, используемые для обучения этих моделей, включают в себя запрос, местоположение, время поиска и то, как пользователь взаимодействовал с тем, что ему было показано.

Пользовательские данные
…включая, но не ограничиваясь запросом пользователя, местоположением, временем поиска и тем, как пользователь взаимодействовал с отображаемой информацией

Речь идёт о действиях, которые пользователи совершают в результатах поиска Google. Действительно интересно, насколько значительна роль данных Chrome в этом процессе. Наблюдает ли Google за тем, как люди взаимодействуют со страницами, заполняют ли ваши формы, готовят ли ваши рецепты и так далее? Скорее всего, да. В кратком изложении судебного решения по этому делу есть намёк на то, что данные Chrome используются в системах ранжирования, но подробности не раскрываются.

Два представителя полагают
Два представителя полагают, что популярность зависит от «данных о посещении Chrome». Вышеупомянутое, вероятно, является разновидностью данных о взаимодействии пользователя, связанных c Chrome 

Если у кого‑то появятся пользовательские данные GLUE и RankEmbed, они могут использовать их для обучения LLM

Эти пользовательские данные являются ключом к успеху Google.

Конкуренты также могут использовать полученную ими информацию о GLUE и RankEmbed в качестве обучающих данных для своих LLM
Конкуренты также могут использовать полученную ими информацию о GLUE и RankEmbed в качестве обучающих данных для своих LLM

Если у вас есть свободное время, то стоит прочитать всю апелляцию от Лиз Рид.

Ещё по теме

Всё об алгоритме Google: как думает поисковая система

Раскрытые алгоритмы Google. Как работает поисковая система согласно слитым документам

AI Overviews от Google — год. Как изменился поиск за это время