Что такое парсер
Парсер — это специальная программа, которая сканирует сайты, группирует данные и создает упорядоченный отчёт.
Процесс работы программы называется парсингом. От этого слова происходит и глагол «парсить», «спарсить» — собрать данные с помощью парсера.
Вот как это происходит:
-
Программа заходит сайт и сканирует все видимые и невидимые обычным пользователям данные: текст, заголовки, таблицы, изображения, метатеги, код.
-
Собирает в свою базу и упорядочивает те данные, которые вы задали ей собрать.
-
Создает отчёт о том, что нашёл и чего не нашёл на сайте. Например, рабочие и нерабочие страницы, заголовки, ошибки. Обычно программа выдаёт отчёты в формате XLSX, JSON, CSV.
Вот пример. Данные SEO‑парсера Screaming frog после анализа mos.ru:
А вот пример анализа сайта в Топвизоре:
Пример использования
Представим, что есть сайт с тысячей страниц. SEO‑специалист хочет узнать, нет ли на сайте нерабочих ссылок среди страниц товаров, потому что из‑за этого посетители сайта не смогут зайти на эти страницы и купить товар.
Для этого он запускает анализ сайта, например через Топвизор, и через пару минут узнаёт, что на сайте действительно есть одна страница с битой ссылкой. Теперь он может исправить это, и товар снова будет отображаться на сайте и в поисковой системе.
Такую задачу можно выполнить и без программы, но это займет больше времени. Если на сайте более 100 страниц, просмотр их вручную может занять несколько дней, а парсер сделает это за 3 минуты.
SEO‑специалисты используют парсеры не только для проверки ошибок на своих сайтах, но и для анализа сайтов конкурентов.
Свой сайт обычно анализируют, чтобы выявить недостатки и устранить их, улучшить показатели и сделать контент полезнее, а сайты конкурентов — чтобы узнать их сильные стороны и понять, благодаря чему они попали в ТОП.
Но парсеры используют не только для этого.
Зачем нужны парсеры
В SEO и маркетинге термин «парсинг» означает автоматизированный процесс сбора и анализа любых данных: о сайте, его пользователях, позициях в поисковой выдаче и так далее.
Для удобства разделим задачи парсера на две группы: для SEO и для маркетинга.
SEO‑задачи
У разных SEO‑парсеров разные возможности, но, как правило, это сбор и анализ:
-
структуры сайта;
-
keywords — ключевых слов;
-
title — заголовка страницы;
-
description — описания страницы;
-
H1 — главного заголовка контента;
-
заголовков h2‑h5;
-
дублей страниц и контента;
-
входящих и исходящих ссылок;
-
нерабочих ссылок;
-
URL;
-
meta robots;
-
alt — текстовое описание изображений и т. д.
Также SEO‑парсерами можно собирать:
-
цены, контент и ассортимент товаров конкурентов;
-
артикулы, цены и фото с сайта поставщика для интернет‑магазина.
Собранные данные помогают проанализировать сайты конкурентов, находить ошибки на своём сайте, улучшать показатели контента, сравнить товар и при необходимости добавить отсутствующие позиции.
Маркетинговые задачи
Для маркетинга парсером можно собирать:
-
контакты с сайтов объявлений, из профилей соцсетей;
-
упоминания ключевых слов или фраз;
-
постоянно меняющиеся данные: курсы валют, погоду, стоимость акций и т. д.
Преимущества программного парсинга
Экономит время. Например, нужно собрать упоминания бренда в интернете за последний месяц. Можно дать поручение сотруднику, чтобы тот искал новости, читал статьи и переносил всё в таблицу, а можно использовать парсер и делать это автоматически. Например, в Google Оповещениях или YouScan.
Обрабатывает много данных. Программа может открывать тысячи страниц в минуту, чтобы просканировать их содержимое. Например, чтобы собрать 12 000 групп ВКонтакте, у которых в статусе есть слово “seo”, парсеру TargetHunter нужно несколько минут. Топвизору тоже нужно всего несколько минут, чтобы просканировать ваш сайт на ошибки в инструменте «Аудит».
Не ошибается.
Виды парсеров
Кроме задач, парсеры можно разделить по технологиям.
Облачные
Облачные парсеры — это сервисы, с помощью которых можно парсить нужную информацию. Их не нужно устанавливать на компьютер: всё происходит в облаке, скачать нужно только результаты в виде отчёта.
Пример — goodparser.ru. Ищет данные в соцсетях, на досках объявлений и т. п.
Десктопные
Это установочные программы для настольных компьютеров, которые перед использованием нужно скачать и установить.
Пример — Screaming Frog. Классическая программа для стандартного SEO‑анализа сайтов.
Расширения для браузера
Это расширения, которые устанавливаются внутри браузера. Этот формат имеет ограничения, поэтому у браузерных парсеров самый ограниченный функционал и возможности. Работают они медленнее и с меньшим объёмом данных, чем облачные или десктоп‑версии.
Они подходят для небольших узкоспециализированных задач — например, посмотреть метатеги страниц.
Пример — Data Scraper, позволяющий собирать разные данные, таблицы и списки.
Как выбрать парсер
Всё зависит от задач, который вы хотите выполнить с его помощью.
Задача
Определите, какие данные вам нужны. Сейчас есть программы практически для всех видов SEO‑ и бизнес‑задач: парсинг соцсетей, сайтов, досок объявлений, изображений, заголовков — всё, что угодно.
Если нужно следить за ошибками на сайте, то помогут парсеры Топвизор, NetPeak, Screaming frog.
Если хотите спарсить заголовки H1‑h6 — Screaming Frog, ARSENKIN TOOLS.
Для парсинга пользователей для рекламы ВКонтакте подойдёт TargetHunter.
Парсеры существуют практически для любых задач. Это довольно простая программа. Так что если вы не нашли программу под вашу задачу, а в команде есть программист, он может создать парсер под ваши запросы.
Объём задач
Если изредка нужен один‑два отчета, можно использовать бесплатные решения. Например, Xenu’s Link Sleuth или Majento. Бесплатные, как правило, либо работают в 5–10 раз медленнее, либо собирают ограниченные данные.
-
Xenu’s Link Sleuth — работает медленнее платных программ, собирает не все нужные для SEO‑анализа данные;
-
Majento — работает медленно, но собирает почти все необходимые данные, кроме парсинга отдельных URL.
Если анализ нужен часто и для больших объёмов данных, лучше выбрать одну программу со всеми необходимыми возможностями. Например, Screaming Frog или Топвизор.
-
Screaming Frog — программа для SEO‑анализа сайтов с бесплатным пробным периодом;
-
Топвизор — сервис с расширенными возможностями. Может провести не только технический аудит сайта, но и много чего еще. Работает не по принципу подписки или покупки программы, а по балансу. Чтобы посмотреть основную информацию о странице или сайте, хватит нескольких копеек.
Формат отчёта
Большинство программ формируют отчёты в форматах XLSX, JSON и CSV. Перед выбором программы проверьте, есть ли нужный вам формат.
Что запомнить
- Парсер — это специальная программа, которая сканирует сайты, группирует данные и создает упорядоченный отчёт;
- Процесс парсинга: сканирование видимые и невидимые обычным пользователям данные, сбор базы и упорядочивание запрошенных данных, отчёт.;
- Задачи парсинга разделяются на SEO и маркетинговые;
- Преимущества: экономия времени, обработка много данных, безошибочный результат;
- Виды парсеров: облачные, декстопные, расширения для браузера;
- Выбирать парсер стоит с учётом того, какие данные необходимы, какой объём задач;
- Форматы отчёта обычно формируются в XLSX, JSON, CSV.