Главные выводы
-
Google обязали предоставить информацию конкурентам, чтобы избежать незаконного монополизма. Однако компания не желает раскрывать свои подробные данные о пользователях.
-
Данные Google о качестве и актуальности страниц конфиденциальные, и он не намерен их разглашать.
-
Индексируемые страницы помечаются аннотациями, включая факторы, которые помогают идентифицировать спам‑страницы.
-
Если спамеры получат доступ к такой информации, это затруднит борьбу с ними.
-
Пользовательские данные играют ключевую роль в работе системы Google GLUE, которая хранит информацию о каждом запросе, о том, что пользователь видел и как он взаимодействовал с результатами поиска.
-
Эти данные также необходимы для обучения RankEmbed BERT — одной из систем глубокого обучения, на которых основан поиск.
У Google есть запатентованные факторы, которые определяют качество и актуальность страниц
И это неудивительно. Однако интересно, что именно эти факторы являются главным секретом Google.
Вот ещё немного полезной информации о запатентованных факторах, которые Google использует для оценки свежести контента:
Все проиндексированные страницы отмечаются «специальными аннотациями для понимания страницы»
Эти аннотации помогают Google лучше понять содержание страницы, используя факторы для выявления спама и дубликатов. Ранее Мэри Хейнс уже упоминала, что каждая страница в индексе получает оценку spam score.
Эти оценки могут быть использованы для анализа систем ранжирования
Однако Google не стремится делиться этой информацией со своими конкурентами.
Если бы о spam score появилось больше информации, это могло бы привести к увеличению количества спама и усложнить борьбу Google с этой проблемой.
Используя размеченные страницы, Google создаёт собственный индекс
Страницы, к которым были добавлены специальные аннотации, группируются в зависимости от того, насколько часто, по мнению Google, к ним будут обращаться и насколько свежим должен быть этот контент.
Обязательно ли продвигаться и в Яндексе, и в Google?
В индекс Google попадает лишь небольшая часть страниц
По словам Google, предоставление конкурентам списка проиндексированных URL‑адресов позволит им «избавиться от необходимости сканировать и анализировать большую часть интернета, сосредоточив усилия только на тех страницах, которые Google включил в свой индекс».
Однако создание этого индекса требует значительных затрат времени и ресурсов, поэтому компания не готова делать это бесплатно.
Спам, дубликаты и низкокачественный контент
Индексированные страницы = [...] миллиардов из [...] триллионов просканированных страниц
Роль пользовательских данных в системах ранжирования
Это самая интересная часть. Мы не уделяем достаточно внимания тому, как именно Google использует данные о пользователях.
Пользовательские данные служат основой для работы моделей GLUE и RankEmbed
Google GLUE по сути представляет собой огромную таблицу с информацией об активности пользователей. В неё включаются текст поисковых запросов, язык, местоположение и тип устройства пользователя, а также данные о том, что показывалось в результатах поиска, куда пользователь кликал или наводил курсор, как долго оставался на странице и многое другое.
С RankEmbed BERT ситуация ещё интереснее. Это одна из систем глубокого обучения, используемых в поиске. Из показаний Панду Наяка стало известно, что RankEmbed BERT применяется для переранжирования результатов, возвращаемых обычными системами ранжирования. Обучение RankEmbed BERT основано на данных о кликах и запросах реальных пользователей.
Системы ИИ, лежащие в основе поиска, постоянно развиваются, чтобы показывать пользователям более точные результаты. Google анализирует действия пользователей, отслеживая, на какие результаты они кликают и возвращаются ли к выдаче.
В рамках экспериментов в реальном времени Google также изучает, какие результаты пользователи предпочитают и остаются ли они на странице. Эти данные помогают в обучении RankEmbed BERT, после чего систему дополнительно настраивают с помощью экспертов по оценке качества.
Из документа Лиз Рид видно, что пользовательские данные играют ключевую роль в обучении, создании и работе моделей RankEmbed.
Секреты алгоритма Google: что известно после утечки внутренней документации компании
Пользовательские данные, используемые для обучения этих моделей, включают в себя запрос, местоположение, время поиска и то, как пользователь взаимодействовал с тем, что ему было показано.
Речь идёт о действиях, которые пользователи совершают в результатах поиска Google. Действительно интересно, насколько значительна роль данных Chrome в этом процессе. Наблюдает ли Google за тем, как люди взаимодействуют со страницами, заполняют ли ваши формы, готовят ли ваши рецепты и так далее? Скорее всего, да. В кратком изложении судебного решения по этому делу есть намёк на то, что данные Chrome используются в системах ранжирования, но подробности не раскрываются.
Если у кого‑то появятся пользовательские данные GLUE и RankEmbed, они могут использовать их для обучения LLM
Эти пользовательские данные являются ключом к успеху Google.
Если у вас есть свободное время, то стоит прочитать всю апелляцию от Лиз Рид.
Ещё по теме
Всё об алгоритме Google: как думает поисковая система
Раскрытые алгоритмы Google. Как работает поисковая система согласно слитым документам
AI Overviews от Google — год. Как изменился поиск за это время