Что такое лемма и лемматизация
Лемма в SEO — это исходная форма слова или, по-другому, словарная форма.
Для существительных это именительный падеж и единственное число: «мяч», «стекло». Для глаголов — форма слова, отвечающая на вопрос «что делать?»: «играть», «бегать».
Лемматизация — это процесс приведения слова к его исходной форме. Вот как это примерно выглядит:
Слова |
Лемма |
Рукой |
Рука |
Руке |
|
Руками |
|
Руки |
|
Руку |
Поисковым системам лемматизация нужна, чтобы хранить в поисковом индексе информацию о каждой странице и быстро находить нужные страницы по запросу пользователя.
Когда веб‑страница попадает на индексирование, поисковая система «разбирает» её на отдельные слова и выстраивает список встречающихся слов в зависимости от частоты их употребления на странице.
Так как одно и то же слово может иметь несколько разных форм, алгоритм приводит его к одной форме — лемме — и суммирует, сколько раз оно употребляется в разных формах:
Слова |
Частота |
Лемма |
Частота |
Рукой |
3 |
Рука |
27 |
Руке |
5 |
||
Руками |
9 |
||
Руки |
7 |
||
Руку |
3 |
Лемма с точки зрения лингвистики и SEO — не совсем одно и то же. В книге «Введение в корпусную лингвистику» приводится объяснение:
Основной единицей морфологической разметки является текстоформа, или токен — цепочка символов от пробела до пробела, которая в большинстве случаев соответствует обычной словоформе. Однако в некоторых случаях компьютер, работающий по принципу «от пробела до пробела», выделяет две текстоформы там, где любой школьник выделит только одну словоформу (например, аналитические формы: в рус. «буду читать», в англ. wake up). С этим связаны и основные сложности морфологической разметки.
— Доктор, доктор, я лечу!
— Я такого не лечу. (Г. Лукомников)
Ни одному лингвисту не придет в голову считать выделенные формы одной лексемой. Однако компьютер при простом поиске по буквам найдет обе глагольные формы, считая их одинаковыми текстоформами.
Компьютерные программы очень плохо справляются с омографами (совпадающими по написанию словами), считая их одной и той же единицей. В приведенном выше стишке выделены две одинаковые текстоформы, которые с точки зрения лингвистики являются омонимами:
лечу — лететь
лечу — лечить
Эта процедура автоматического приписывания текстоформы к определенной «начальной форме» получила в корпусной лингвистике название лемматизации, а сама начальная форма стала называться леммой.
Зачем нужна лемматизация в SEO
Ускоряет работу поисковых систем
Поисковый индекс — это внутренняя база данных поисковой системы. Если совсем упростить, то можно сказать, что все страницы в индексе сгруппированы по разным словам. Когда пользователь вводит запрос в поисковик, все слова из запроса также приводятся к лемме. А после этого алгоритм сопоставляет леммы из запроса с леммами в индексе и собирает список подходящих страниц.
На самом деле сейчас алгоритмы поисковых систем работают немного сложнее и могут понимать смысл слов, но лемматизация — это базовый процесс и он всё ещё актуален.
Помогает проводить анализ текста
При анализе текста учитываются его уникальность, ключевые слова и частота их употребления (заспамленность), неинформативные слова и т. д.
Чтобы измерить уникальность, сервис проверки уникальности переводит все слова из разных словоформ в лемму и делит их на группы от 2 до 7 последовательных слов — шинглы.
После этого алгоритм проверяет каждый шингл в поисковой системе и находит тексты, в которых он встречается именно в такой последовательности. Чем больше повторяющихся шинглов он найдёт, тем ниже будет процент уникальности текста.
Что запомнить
- Лемма в SEO — это исходная форма слова (словарная форма);
- Лемматизация нужна ПС, чтобы хранить в поисковом индексе информацию о каждой странице и быстро находить нужные по запросу пользователя;
- ПС «разбирает» страницу на отдельные слова и выстраивает список встречающихся слов в зависимости от частоты их употребления на странице;
- При анализе текста учитываются его уникальность, ключевые слова и частота их употребления (заспамленность), неинформативные слова и т. д;
- Чем больше шинглов, тем меньше уникальность.