Что такое лемма и лемматизация

Лемма в SEO — это исходная форма слова или, по-другому, словарная форма.

Для существительных это именительный падеж и единственное число: «мяч», «стекло». Для глаголов — форма слова, отвечающая на вопрос «что делать?»: «играть», «бегать».

Лемматизация — это процесс приведения слова к его исходной форме. Вот как это примерно выглядит:

Слова

Лемма

Рукой

Рука

Руке

Руками

Руки

Руку

Поисковым системам лемматизация нужна, чтобы хранить в поисковом индексе информацию о каждой странице и быстро находить нужные страницы по запросу пользователя.

Когда веб‑страница попадает на индексирование, поисковая система «разбирает» её на отдельные слова и выстраивает список встречающихся слов в зависимости от частоты их употребления на странице.

Так как одно и то же слово может иметь несколько разных форм, алгоритм приводит его к одной форме — лемме — и суммирует, сколько раз оно употребляется в разных формах:

Слова

Частота

Лемма

Частота

Рукой

3

Рука

27

Руке

5

Руками

9

Руки

7

Руку

3

Лемма с точки зрения лингвистики и SEO — не совсем одно и то же. В книге «Введение в корпусную лингвистику» приводится объяснение:

Основной единицей морфологической разметки является текстоформа, или токен — цепочка символов от пробела до пробела, которая в большинстве случаев соответствует обычной словоформе. Однако в некоторых случаях компьютер, работающий по принципу «от пробела до пробела», выделяет две текстоформы там, где любой школьник выделит только одну словоформу (например, аналитические формы: в рус. «буду читать», в англ. wake up). С этим связаны и основные сложности морфологической разметки.

— Доктор, доктор, я лечу!

— Я такого не лечу. (Г. Лукомников)

Ни одному лингвисту не придет в голову считать выделенные формы одной лексемой. Однако компьютер при простом поиске по буквам найдет обе глагольные формы, считая их одинаковыми текстоформами.

Компьютерные программы очень плохо справляются с омографами (совпадающими по написанию словами), считая их одной и той же единицей. В приведенном выше стишке выделены две одинаковые текстоформы, которые с точки зрения лингвистики являются омонимами:

лечу — лететь

лечу — лечить

Эта процедура автоматического приписывания текстоформы к определенной «начальной форме» получила в корпусной лингвистике название лемматизации, а сама начальная форма стала называться леммой.

Зачем нужна лемматизация в SEO

Ускоряет работу поисковых систем

Поисковый индекс — это внутренняя база данных поисковой системы. Если совсем упростить, то можно сказать, что все страницы в индексе сгруппированы по разным словам. Когда пользователь вводит запрос в поисковик, все слова из запроса также приводятся к лемме. А после этого алгоритм сопоставляет леммы из запроса с леммами в индексе и собирает список подходящих страниц.

Схема лемматизации для ускорения работы поисковиков
Схема лемматизации для ускорения работы поисковиков

На самом деле сейчас алгоритмы поисковых систем работают немного сложнее и могут понимать смысл слов, но лемматизация — это базовый процесс и он всё ещё актуален.

Помогает проводить анализ текста

При анализе текста учитываются его уникальность, ключевые слова и частота их употребления (заспамленность), неинформативные слова и т. д.

Чтобы измерить уникальность, сервис проверки уникальности переводит все слова из разных словоформ в лемму и делит их на группы от 2 до 7 последовательных слов — шинглы.

После этого алгоритм проверяет каждый шингл в поисковой системе и находит тексты, в которых он встречается именно в такой последовательности. Чем больше повторяющихся шинглов он найдёт, тем ниже будет процент уникальности текста.

Что запомнить

  • Лемма в SEO — это исходная форма слова (словарная форма);
  • Лемматизация нужна ПС, чтобы хранить в поисковом индексе информацию о каждой странице и быстро находить нужные по запросу пользователя;
  • ПС «разбирает» страницу на отдельные слова и выстраивает список встречающихся слов в зависимости от частоты их употребления на странице;
  • При анализе текста учитываются его уникальность, ключевые слова и частота их употребления (заспамленность), неинформативные слова и т. д;
  • Чем больше шинглов, тем меньше уникальность.