Новая модель индексации на основе Machine Learning от Google
Как Google собирается использовать машинное обучение для ранжирования сайтов.
Все слышали о том, что поисковые системы могут использовать машинное обучение, но до сих пор не понятно, как именно. Патент, который Google получил в декабре 2020 года, кое-что объясняет.
Патент называется «Searchable Index» и описывает как работает индекс поиска на основе машинного обучения.
Подробно об этом написал Билл Славски. Мы перевели только главную суть работы нового индекса. А для тех, кто захочет почитать полную версию с рассуждениями автора, вот текст.
Отличие поиска на основе машинного обучения от обычного
Начнём с разницы. Патент объясняет, чем отличается информационный поиск по релевантности запроса от поиска на основе машинного обучения:
Так как информационная модель менее точная, она может исключать из выдачи некоторые сайты, которые в случае использования машинного обучения получили бы высокий рейтинг».
Как работает машинное обучение
Новые техники индексации работают на моделях машинного обучения. Чтобы понимать запросы пользователей, эти модели тоже должны как-то обучиться. Делается это с помощью помеченных данных.
Машинное обучение работает так: берёт какие-то данные (непомеченные или, по-другому, неинформативные) и дополняет их информативными пометками (маркерами) о том, что они в себя включают. Например, берёт любую статью в Топвизор-Журнале и помечает, какая в ней тема, что изображено на фото, о ком написано, как реагируют пользователи. Так неинформативные данные становятся информативными – помеченными – и закрепляются как «правило».
Позже эта группа помеченных данных соотносится с новыми немаркерованными данными, чтобы предсказать их смысл и поставить маркеры.
Значения и результаты помеченных данных могут быть выражены числовыми значениями, процентами, количеством случаев и другой количественной оценкой.
Как работают правила в SERP
В Патенте есть несколько примеров, как работают правила машинного обучения. Они касаются видео, которые показываются в поиске в ответ на запрос пользователя.
Первое правило выглядит так:
(keyword:car, video:carmaker_1).fwdarw.0.03
Оно включает поисковый результат, набор функций и вероятность. Когда пользователь вводит ключ «car» в поисковую систему (функция) и пользователю показывается видео carmaker_1 (результат), то с вероятностью 3% он просмотрит это видео.
Вероятность рассчитывается, исходя из свода вычисленных характеристик интента и самого пользователя: где он находится, какой браузер использует, какие видео и сайты уже просмотрел, как реагировал на тот или иной контент.
Токены не обязательно должны включать в себя ключевое слово. Они могут исходить из любых данных и содержать набор символов.
Другое правило, указанное в патенте как пример, говорит, что при индексации страницы может быть создана запись с таким содержимым:
web_page_1: [text:boxcar, 4.0], [image:train, 2.0]
Этот пример показывает, что страница сайта (web_page_1, документ) содержит текстовую строку «boxcar» 4 раза и 2 картинки поездов.
Получается, модель обучения может включать в себя список документов и токенов с указанием их количества.
Исходя из этих правил, пользователь, который ввёл ключевое слово «car», посмотрит видео об определённом автопроизводителе с какой-то определённой вероятностью:
(keyword:car, video:carmaker_1).fwdarw.0.03 (keyword:car, video:carmaker_2).fwdarw.0.05
Выдача будет основана на наборе индексируемых токенов, которому соответствует каждое видео:
carmaker_1: [keyword:car, 0.03] carmaker_2: [keyword:car, 0.05]
Основные тезисы
С помощью машинного обучения, поисковая система сможет рассчитать вероятность того, что пользователь выберет то или иное видео или сайт.
Новый индекс сгенерирован на основе токенов, которые не ограничиваются только ключевыми словами. Он сможет найти в поиске все видео, для которых рассчитана вероятность соответствия запросу пользователя. Они будут ранжированы по вероятности от большей к меньшей.
Выдача может быть основана на любом факторе:
- прогноз просмотра контента или взаимодействия с ним;
- рейтинг вероятности;
- вероятность конверсии или клика и другие.
Система даёт оценку вероятности какого-то события (просмотр видео «Y») на основе группы других событий: «посетитель из США», «просматривал видео «Х», «язык браузера – англ».
Каждому событию присваивается свой вес в количественном выражении. Например:
- «посетитель из США» – 0.5;
- «просматривал видео «X» – 0.9;
- «язык браузера – англ» – 0.3.
На основе этих весов рассчитывается итоговая вероятность просмотра видео Y – 0.9. Если система посчитает эту вероятность достаточной, то видео попадёт в выдачу.
Отсутствие какого-либо фактора и характеристики может иметь значение для индекса и принимается им во внимание.