Что такое поисковый индекс

Поисковый индекс — это база данных, в которой хранится информация о всех существующих в интернете веб-страницах.

Условно поисковый индекс разделён на две составляющие:

  • прямой индекс;

  • инвертированный индекс.

Прямой индекс — это когда робот сохраняет текстовые версии страниц, очищая их от всего, что не относится к тексту: изображений, видео и так далее. В поисковиках Google и Яндекс можно увидеть такую сохраненную страницу, если нажать на стрелочку рядом со ссылкой в результате выдачи.

Как посмотреть сохранённую копию в выдаче Google
Как посмотреть сохранённую копию в выдаче Google

С инвертированным всё сложнее. Когда в процессе сканирования и индексации сайт попадает в поисковый индекс, перед добавлением документа в базу поиска происходит процесс разбора веб‑документа на компоненты — слова или, по‑другому, токены:

Примерная схема попадания страницы в индекс
Примерная схема попадания страницы в индекс

В инвертированном индексе фиксируется, какие именно слова представлены в документах, в какой форме и на каких местах. Он нужен для того, чтобы алгоритмы могли быстро находить нужные страницы по словам из поискового запроса.

То есть ПИ — это база данных, в которой условным списком представлены все проиндексированные веб‑страницы и для каждой из них указан свой набор токенов. По ним позже поисковая система отбирает подходящие страницы для результатов поиска.

Чтобы лучше понять, как работает индекс, представьте картотеку. Когда пользователь набирает запрос в браузере, поисковая система заглядывает в свою картотеку, берёт сайты, которые соответствуют словам в запросе, и показывает их в выдаче.

Задача индекса — ускорить процесс поиска страниц, соответствующих запросу пользователя. Если бы такая база не была собрана заранее, пользователям приходилось бы ждать несколько часов или даже дней, пока поисковая система просмотрит все страницы в интернете и отобразит подходящие в выдаче. А сейчас это происходит за долю секунды.

Что запомнить

  • Поисковый индекс — это база данных, в которой хранится информация о всех существующих в интернете веб-страницах;
  • Поисковый индекс разделён на две составляющие: прямой (робот сохраняет текстовые версии страниц) и инвертированный индекс (фиксация, какие именно слова представлены в документах, в какой форме и на каких местах);
  • Задача индекса — ускорить процесс поиска страниц, соответствующих запросу пользователя.