TF-IDF в SEO: что это и как его использовать?

Многие методы SEO-оптимизации приходят и уходят, но TF-IDF остается качественным и востребованным инструментом, который помогает улучшить ранжирование и наполнение страниц.

TF-IDF в SEO: что это и как его использовать?

Евгений Зданевич, SEO‑лид WSS.media, и Диана Митичян, middle SEO‑специалист, рассказали, как работает TF‑IDF, где его использовать и какие ошибки подстерегают во время оптимизации. А еще — как сделать TF‑IDF‑анализ с помощью сервиса Surfer SEO.

TF‑IDF — что это и как работает

TF‑IDF, или Term Frequency х Inverse Document Frequency — это метод статистического анализа. Его используют не только в SEO, но и в веб‑аналитике, пользовательском моделировании, лингвистике. TF‑IDF оценивает относительный вес слова в документе по отношению к набору слов в коллекции.

Проще говоря, TF‑IDF показывает, насколько важно слово в документе. Для SEO документ — это веб‑страница, коллекция — все страницы в интернете, а слово — ключ.

TF — это частота термина или количество раз, которое слово упоминается в документе, например на продуктовой странице или в статье.

Если в статье на 1000 слов про правильное питание слово «питание» упоминается 15 раз, то его TF = 15/1000 = 0,15 или 1,5 %. Если статья на 3000 слов, то 0,5 %.

IDF — обратная частота документа. В SEO она показывает, как часто слово появляется на всех страницах в интернете.

Например, есть 10 млн страниц. Слово «питание» встречается только в 2000 из них. IDF будет равен десятичному логарифму 10 000 000/2 000. И вся формула TF‑IDF:

формула-TF-IDF

Как использовать TF‑IDF

Для создания новых страниц

Во‑первых, TF‑IDF — ценный инструмент для создания ТЗ на копирайтинг новых страниц. Он дает возможность проанализировать плотность ключей, которые уже используют конкуренты в ТОПе. То есть ту плотность, которую хочет видеть поисковик, чтобы вывести, предположим, статью на первую страницу выдачи.

Во‑вторых, с TF‑IDF легко подобрать тематические слова. Особенно не синонимические, а косвенные.

Например, для статьи про «Мазду» тематикообразующими словами будут «дверь», «прострочка» или «светодиодные фары» — это слова, которые помогают раскрыть тему статьи. Если добавить их на страницу, она покроет больше запросов. Так у нее больше шансов подняться в выдаче.

Евгений Зданевич, SEO‑лид WSS.media:

«Набор тематических слов упрощает составление технического задания редактору. Копирайтер, знакомый с темой, скорее всего, впишет 80 % этих слов и без ТЗ. Для начинающего или не знакомого с темой копирайтера LSI‑ключи помогают сформировать структуру и тело текста. Если есть «двери» и «фары», значит, будет блок про экстерьер».

Косвенное SEO: поиск ключевых слов для контента, которого нет у конкурентов

Для оптимизации старых страниц

В случае старых страниц TF‑IDF используется, когда:

  • веб‑страница зависла на второй странице выдачи — тут TF‑IDF поможет закрыть разрыв с топовыми конкурентами, найти недостающие ключи или повысить плотность тех, которые уже вписаны;

  • в выдаче появились новые игроки и обновились метрики эталонных значений для контента — страница начала проседать; с помощью TF‑IDF готовится ТЗ на обновление документа с учетом нового контента у конкурентов.

Так, чтобы старая страница поднялась в выдаче, с TF‑IDF корректируют плотность ключей.

Например, SEO‑специалист оптимизирует блоговую статью о новой модели «Мазды». Она уже давно висит на второй странице выдачи. Специалист берет лучших конкурентов и проводит TF‑IDF‑анализ. Результаты анализа показывают, что плотность основных ключей, связанных с «Маздой», в статье ниже, чем нужно для попадания в ТОП. Чтобы это исправить, на страницу добавляют больше ключей.

Евгений Зданевич, SEO‑лид WSS.media:

«Корректировка плотности ключевых фраз — важный элемент в оптимизации под Google и Яндекс. Поисковики используют метрику TF‑IDF, чтобы определить релевантность документа по разным запросам. В Яндексе алгоритм работает более прозрачно, чем в Google. Проверенная схема для Яндекса — по максимуму проработать и внедрить тематикообразующие слова и фразы».

Как избежать ошибок

В англоязычной SEO‑среде есть термин keyword stuffing — «напичкивание» ключевыми словами. Такую ошибку часто допускают начинающие специалисты. Не нужно вставлять на страницу все найденные TF‑IDF ключи — для начала проанализируйте их плотность.

Диана Митичян, middle SEO‑специалист WSS.media:

«Keyword stuffing — прямой путь к переспаму, который в лучшем случае приведет к низкому рейтингу. В худшем — к бану».

анализ-плотности-ключей
Пример анализа плотности ключей, Surfer SEO

Вторая основная ошибка — анализировать слишком много, мало или просто не тех конкурентов. Чтобы получить работающий результат, смотрите на 3–5 из них. Отбирайте тех, кто с высокой долей вероятности ранжируется в ТОПе именно из‑за хорошо оптимизированного текстового контента. Чтобы их найти, смотрите на DR, возраст и динамику трафика. Это не обязательно будут страницы из ТОП‑3 — они могут быть и на 9–10‑м местах. Это может быть и молодой сайт с невысоким трастом. Если его страница ранжируется наравне с высокотрастовыми сайтами, то, скорее всего, это происходит за счет хорошей оптимизации.

Как провести анализ TF‑IDF

На своём проекте

Этот вопрос мы разберем на примере блоговой статьи аккаунтинг‑проекта. Будем использовать Surfer SEO, платный инструмент для SEO‑анализа, в том числе и TF‑IDF. Цена — 49 $ в месяц.

1. Зайдите в свой профиль Surfer SEO или зарегистрируйтесь, если у вас нет аккаунта.

surferseo-главная-страница

2. Перейдите во вкладку Audit.

surferseo-аудит

3. Заполните поля:

  • URL страницы, для которой мы делаем анализ;

  • одно или несколько ключевых слов;

  • регион.

4. Нажмите Create Audit. Анализ будет готов в течение 10 минут.

surferseo-результаты-аудита

5. Surfer SEO сделает обширный анализ — на странице появится много блоков и рекомендаций по оптимизации. Чтобы увидеть результаты расчета по TF‑IDF, найдите строку Terms to Use и нажмите Show details.

surferseo-terms-to-use

TF‑IDF покажет:

  • terms — термины, которые наиболее часто встречаются у страниц в выдаче, включая и вашу страницу;

  • example — примеры использования терминов;

  • you — сколько раз термин использован на вашей странице;

  • suggested — рекомендуемое количество использования терминов;

  • relevance — релевантность термина относительно страницы;

  • search volume — частотность термина, мы рекомендуем перепроверять другими сервисами, например SemRush, Ahrefs;

  • action — рекомендации по оптимизации.

Результаты анализа можно экспортировать в Excel.

surferseo-результаты-tf-idf-анализа

В выдаче

Если же нужно проанализировать выдачу, понять релевантность запроса и найти схожие термины, можно использовать инструмент SERP Analyzer:

1. Вставьте главные ключи, по которым нужно проанализировать выдачу.

2. Выберите нужный регион.

3. Нажмите на Create SERP Analyzer.

surferseo-serp-analyzer

Если нужно понять, как ключевое слово используется в текстах конкурентов, выберите Structure → body. Пункты Popular words, Popular phrases, Common words, Common phrases, Prominent words and Phrase помогут понять, какие фразы и слова употребляют на страницах большинство конкурентов.

surferseo-результаты-serp-анализа

surferseo-популярные-слова
Блок Popular words

Как расширить семантику сайта на основе конкурентов

Как использовать результаты анализа

surferseo-рекомендации-по-плотности

В результатах анализа ключей на странице Surfer SEO дает рекомендации, сколько добавить или, наоборот, убрать. В примере на скриншоте в текущей статье содержится только 4 ключа financial year end, тогда как рекомендуемое количество — 19–61. Если добавить его 15–57 раз, на странице будет нужная плотность.

surferseo-важные-слова-и-фразы

А анализ плотности, который чаще применяется для новых страниц, показывает, сколько в среднем и какие ключи используют конкуренты. Например, слово paypal есть на всех страницах по запросу ebay fee calculator, среднее количество — 6,11, а плотность — 1,02. То, сколько раз встретится ключ у вас, зависит от объема контента, но необходимый минимум — 2 раза, а максимум — 14. Превысите число 14 — будет переспам.

Если вы никогда прежде не использовали TD‑IDF, проведите A/B‑тесты и сравните ранжирование страниц, оптимизированных с TD‑IDF и нет. Это займет немного времени. После оптимизации первые результаты появятся через неделю‑две. У статей и продуктовых страниц с низкой конкуренцией — быстрее.

Может ли проведение А/В‑теста с переадресацией негативно сказаться на посещаемости сайта

В нашем телеграм‑канале мы коротко и емко поделились секретами работы с TF‑IDF — сохраняйте и проверяйте себя. А еще читайте новости, инсайты и обновления из мира SEO.

Ещё по теме

Как получать хорошие SEO‑тексты с биржи: интервью с Алексеем Сорокиным

Как за счёт проработки контента выйти в ТОП‑10

Как использовать ChatGPT для генерации и анализа ключевых слов