Руководство по системам ранжирования в поиске Google — перевод
Разница между системами ранжирования (алгоритмами), объяснение терминов и уточнение некоторых формулировок, которые мы привыкли видеть в Google Справке.
Google выпустил новую страницу «Руководство по системам ранжирования в поиске». Ниже перевод 👇
Google использует автоматические системы ранжирования, которые смотрят на множество факторов и сигналов о сотнях тысяч веб‑страниц и другом контенте в Поисковом индексе, чтобы выдавать максимально релевантные, полезные результаты поиска за долю секунды.
Мы постоянно улучшаем эту систему с помощью тщательного тестирования и оценивания, предоставляя уведомления об апдейтах, когда это может быть полезно для создателей контента и других людей.
Эта страница — гайд, который поможет понять наши наиболее значимые системы ранжирования. Здесь содержатся некоторые системы, которые являются частью наших основных, базовых систем ранжирования — с их помощью работает весь алгоритм поиска, а также некоторые другие системы, которые необходимы для правильного ранжирования.
Вы также можете посмотреть страницу «Как формируются результаты», чтобы понять, как наши системы ранжирования, работая в совокупности с другими процессами, помогают Google организовывать мир информации и сделать его общедоступным и полезным.
BERT
BERT (Bidirectional Encoder Representations from Transformers) система, основанная на искусственном интеллекте, которая позволяет нам понимать значения и интенты различных комбинаций слов.
Кризисные информационные системы
Google разработал эти системы, чтобы предоставлять полезную и своевременную информацию во времена кризиса, включая личные кризисные ситуации, природные бедствия или другие кризисные ситуации широкого распространения:
- Личный кризис. Наши системы работают над тем, чтобы понимать, когда люди ищут информацию о личных кризисных ситуациях. Благодаря этому мы можем выводить горячие линии или контент от проверенных, доверенных организаций для определенных запросов, связанных с суицидом, ситуаций сексуального характера, отравлений, гендерной жестокости, наркомании и т. д. Подробнее: «Как найти информацию о трудных жизненных ситуациях в Google Поиске».
- SOS‑оповещения. Во времена природных бедствий или других масштабных происшествий, наша система SOS оповещения работает, чтобы показать последние обновления от локальных, национальных или интернациональных властей, включая номера и сайты экстренных служб, карты, переводы полезных фраз, возможности пожертвования и др. Подробнее: «Что такое системы оповещения SOS».
Дедупликационные системы
Пользователи Google могут найти тысячи или даже миллионы подходящих веб‑страниц. Некоторые из них могут быть очень похожи друг на друга. В этом случае наши системы показывают только наиболее релевантные результаты, избегая бесполезных копий (дубликатов).
Дедупликация также применяется и к выделенным описаниям ( featured snippet). Если список на веб‑странице был использован в выделенном описании, мы не повторяем его позже на первой странице результатов поиска.
Система точного совпадения в домене
Наша система ранжирования рассматривает слова в доменных именах как один из многих факторов релевантности контента. Но система точного совпадения в домене помогает нам убедиться, что мы не отдаём слишком большое преимущество для домена, созданного специально под точное совпадение с конкретными запросами. Например, кто‑то мог создать доменное имя, состоящее из слов «best‑places‑to‑eat‑lunch» в надежде, что эти слова в домене продвинут контент выше. Наша система корректирует это.
Системы «свежести»
Эти системы созданы для того, чтобы показывать более свежие результаты для запросов, где это может быть необходимо. Например, если кто‑то ищет что‑то о фильме, который только что вышел, он скорее всего хочет посмотреть последние отзывы, а не старую статью, выпущенную когда фильтр только начали снимать.
Ещё пример, обычно по запросу типа «землетрясение» могут выдаваться материалы о подготовке и важные ресурсы. Но если недавно случилось землетрясение, пользователь увидит последние статьи и новый контент, который вышел в связи с этим (если вышел).
Система полезного контента
Эта система создана, чтобы убедиться, что пользователи видят оригинальный и полезный контент, написанный людьми для людей, а не контент, сделанный с ориентировкой на поисковые системы. Подробнее: «Обновление Google Поиска с ориентацией на полезный контент»
Система анализа ссылок и PageRank
У нас есть различные системы, которые понимают, как страницы ссылаются друг на друга. Среди них и PageRank, одна из основных систем ранжирования, использованная в Google с самого начала. Так мы можем определить, о чём страница и какая из них может дать наиболее полезный ответ на запрос. Если любопытно, можете почитать страницу исследования PageRank. И хотя алгоритм работы системы сильно изменился с того времени, он всё ещё продолжает быть частью основной системы ранжирования.
Системы локальных новостей
У нас есть системы, которые идентифицируют и показывают локальные источники новостей там, где это релевантно, например, в карусели «Главные новости» или «Местные новости».
MUM
MUM (Multitask Unified Model) — это система, работающая с помощью искусственного интеллекта, способная понимать и генерировать язык. Сейчас она не используется для общего ранжирования в Поиске, а скорее для некоторых специфических функций. Например, чтобы улучшить результаты поиска для запросов о вакцинации от COVID‑19 и для улучшения выделенных результатов (featured snippet).
Нейронное совпадение
Это система, работающая на искусственном интеллекте, которая используется для понимания представления об идеи запроса и страниц и сопоставления их друг с другом.
Системы оригинального контента
Эти системы помогают нам убедиться, что мы приоритетно показываем оригинальный контент в результатах поиска, оригинальные исследования, а не тех, кто просто цитирует их. Это включает и поддержку специальной каноничной микроразметки, которую создатели контента могут использовать, чтобы помочь нам лучше понимать, какая страница приоритетна, если у неё есть дубли в разных местах.
Системы, которые отвечают за понижение и удаление
У Google есть политика, согласно которой допускается удаление определённых типов контента. Если мы заметили большое количество удалений, связанных с определённым сайтом, то это сигнал для нас, что мы должны улучшить результаты поиска. А именно:
Удаление по закону. Если мы получили большое количество запросов на удаление в связи с нарушением авторских прав на данном сайте, мы можем использовать это как причину для понижения другого контента с этого сайта в результатах поиска. Таким образом, если на сайте есть другой контент, нарушающий закон, люди скорее всего его не увидят и приоритет получит уникальный контент с других сайтов. То же самое происходит, если мы получаем жалобы, касающиеся клеветы, контрафактных товаров и удалений по решению суда.
Удаление в связи с персональной информацией. Если мы заметили большое количество удалений в связи с нарушением политики о персональных данных с сайтов, требующих плату за удаление контента, мы понизим остальной контент. Мы также проверим, что этого нет на других сайтах и, если найдём, то понизим и эти сайты. Мы также можем применить понижение для сайтов, где получаем большое количество сигналов о наличии информации, позволяющей идентифицировать личность. Более того, у нас есть автоматическая защита для предотвращения высокого ранжирования фотографий и видео сексуального или интимного характера в ответ на запросы с именами.
Page experience системы
Люди предпочитают сайты, которые предлагают лучший пользовательских опыт. Поэтому у нас есть система Page experience, которая оценивает различные критерии, такие как скорость загрузки, адаптацию под мобильные устройства, навязчивые межстраничные объявления, безопасные протоколы. Система отдаёт предпочтение контенту с лучшими показателями Page experience.
Система ранжирования «пассажей»
Это система, основанная на искусственном интеллекте, которую мы используем, чтобы определить отдельные секции или «пассажи» веб‑страниц. Так мы можем лучше понять, насколько страница релевантна для пользователя.
Система ранжирования отзывов
Эта система создана, чтобы продвигать отзывы высокого качества, которые содержат личный опыт, аналитику и уникальное исследование и написаны экспертами или энтузиастами, которые хорошо разбираются в теме.
RankBrain
Система, основанная на искусственном интеллекте, которая помогает нам понимать, как слова соотносятся с идеей. Так мы можем показывать более релевантный контент, даже если он не содержит конкретных слов из запроса, просто понимая, что контент соотносится с другими словами.
Системы надежной информации
Несколько систем работают в различных направлениях, чтоб показать наиболее надёжную информацию, насколько это возможно. Например, показывать наиболее авторитетные страницы, понижать низкокачественный контент, повышать качественную журналистику. В ситуациях, когда надежных источников информации может быть недостаточно или системы не до конца уверенны в качестве имеющихся результатов, они автоматически показывают рекомендации по контенту. В них содержатся советы о способах поиска, которые могут привести к более полезным результатам.
Системы разнообразия сайтов
Благодаря этой системе мы, скорее всего, не покажем более двух веб‑страниц одного и того же сайта в ТОПе, так что ни один из сайтов не может доминировать в результатах поиска. Иногда мы можем показывать более двух страниц, если наши системы считают их особенно релевантными для определённого пользователя.
Чаще всего эти системы расценивают поддомены как часть корневого домена. Например, листинг с поддомена (subdomain.example.com) и домена (example.com) будет рассматриваться как листинг с одного и того же сайта. Но в некоторых случаях мы можем рассматривать поддомен как отдельный сайт.
Система обнаружения спама
В интернете есть огромное количество спама. Если с ним не бороться, это может помешать нам получать полезные и релевантные результаты. Мы разработали системы обнаружения спама, включая SpamBrain, чтобы справиться с контентом, который нарушает наши правила в отношении спама. Эти системы постоянно обновляются, чтобы справляться с современными угрозами спама.
Устаревшие системы
Системы ниже мы перечислим для исторических целей. Они либо были включены в более поздние системы, либо стали частью основной системы ранжирования.
Hummingbird
Это было значительное улучшение основной системы ранжирования, сделанное в Августе 2013 года. С тех пор наши системы продолжают развиваться.
Mobile‑friendly
Эта система давала приоритет в ранжировании контенту, который лучше отображался на мобильных устройствах. Сейчас она — часть системы Page experience.
Page speed
Эту систему мы анонсировали в 2018 году под названием «Speed Update», имея в виду, что при прочих равных, контент, который загружается быстрее на мобильных устройствах, будет ранжироваться лучше в мобильных результатах поиска. Позже он стал частью системы Page experience.
Panda
Была создана, чтобы убедиться, что в результатах поиска показывается высококачественный и уникальный контент. Анонсированная в 2011 году, она развивалась и стала частью основной системы ранжирования в 2015 году.
Penguin
Создана для борьбы со ссылочным спамом. Анонсирована в 2012 году. Была интегрирована в основную систему ранжирования в 2016 году.
Безопасные сайты
Анонсирована в 2014 году. Под ней мы подразумевали, что при прочих равных сайты, которые используют протокол HTTPS, получат приоритет в ранжировании. Это помогло увеличить количество безопасных сайтов в поиске. Позже стала частью системы Page experience.