Serpstat использует файлы cookie для обеспечения работоспособности сервиса, улучшения навигации, предоставления возможности связаться с командой поддержки, а также маркетинговых активностей Serpstat.

Нажав кнопку "Принять и продолжить", вы соглашаетесь с Политики конфиденциальности

Принять и продолжить

Сообщить об ошибке

Отменить
35429 13 13
SEO Читать 11 минут 21 апреля 2017

Как провести кластеризацию запросов с помощью Serpstat

Кластеризация запросов с помощью Serpstat
Фото Дмитрия Мазуряна, SEO-специалиста в Netpeak Agency
Дмитрий Мазурян
SEO-специалист в Netpeak Agency
Кластеризация ключевых слов — важная часть создания семантического ядра сайта. Однако выполнение такой работы вручную через Microsoft Excel или Google Таблицы занимает много времени.
В этой статье я расскажу о своем личном алгоритме кластеризации, основанный на силе связи между фразами с учетом особенностей выдачи. Он поможет ускорить работу.

Однажды мы уже рассказывали вам как сгруппировать ключевые фразы по морфологической близости с помощью Serpstat. Сегодняшний пост будет снова описывать кластеризацию фраз — на этот раз еще более подробно.
Ссылка на статью о кластеризации в PPC
Как сгруппировать ключевые фразы по морфологической близости с помощью Serpstat


Что такое кластеризация запросов?

Кластеризация запросов — это процесс объединения связанных между собой ключевых слов в группы (кластеры). Иногда этот процесс называют группировкой ключевых слов. В идеале кластеризация ключевых слов должна происходить на основе свойств объектов, описываемых данными фразами, и контекста их использования.

Но, к сожалению, в данный момент нет открытых баз, которые бы содержали подобную информацию. Даже API Knowledge Graph не способно справиться с этой задачей. Поэтому в SEO-кластеризацию ключевых слов принято проводить на основе выдачи поисковых систем.

SERP предлагает ссылки на релевантные страницы в ответ поисковому запросу, и уже сравнивая выдачу по различным ключевым фразам можно провести точную группировку ключевых слов.


Какой алгоритм кластеризации чаще всего используют?

В современном SEO выделяют три основных алгоритма кластеризации:

  • мягкую,
  • умеренную,
  • жесткую.

При этом ряд специалистов и сервисов чаще используют исключительно жесткую кластеризацию запросов. Дальше речь пойдет о ней.
Визуализация, как выглядит кластеризация
Суть этого алгоритма состоит в следующем: Если число общих адресов в результатах выдачи больше или равно минимуму, то фразы объединяются в пару.
1
Сначала устанавливается некое минимальное число пар, по которым фразы могут быть объединены в группу.
2
Затем, отсортированные по убыванию частотности, фразы сравниваются между собой, начиная с самой частотной.
3
Если число общих адресов в результатах выдачи больше или равно минимуму, то фразы объединяются в пару.
4
Так формируются кластеры.
Более подробно про кластеризацию ключевых слов и основные алгоритмы описано на Википедии.

Если задуматься, то данный алгоритм имеет существенный недостаток — пары формируются по минимальному числу совпадений. Давайте возьмем пример из трех фраз с минимальной силой связи 3, когда алгоритм сработает некорректно.
Пример, как отбираются фразы в жесткой кластеризации
Как видим из примера, «Фраза 1» формирует с «Фразой 2» пару и они будут в одном кластере, а «Фраза 3» или попадает в кластер «Фразы 1», хотя не имеет ни одного совпадения, или формирует отдельный кластер, но без «Фразы 2». В любом случае кластеризация по этому алгоритму будет не совсем точной.

По этой причине я использую собственный алгоритм кластеризации, основанный на силе связи между фразами с учетом особенностей выдачи.

Каковы особенности этого алгоритма?

1
Каждый адрес из топ-20 выдачи имеет собственный вес. В данный момент их вес аналогичен CTR позиции, используемой в Serpstat.
Соотношение группировки фраз в топ-20 к доле клика
2
Сила связи между фразами представляет собой сумму весов совпадений, где вес совпадения является суммой весов адресов этой пары.
3
Каждый кластер состоит из двух частей: основной и дополнительной. В основную часть кластера попадают фразы, сила связи которых является максимальной, но больше 2.5. В дополнительную часть попадают фразы, вес связи которых не является максимальной, но больше 2.5.
Благодаря такому подходу можно выполнить более точную кластеризацию ключевых слов и при этом понять степень связи между каждой из фраз кластера при дальнейшей обработке. В результате выполнения алгоритма будет получена матрица сил связей, благодаря которой будут сформированы группы фраз. Матрица может выглядеть следующим образом:
Пример группировки фраз в кластеризации
Исходя из этой матрицы получим два кластера, в основе которых будут стоять «Фраза 1» и «Фраза 3». Выглядеть они будут следующим образом:
Создание кластера на основе силы связи
В основу «Кластера 1» попадут «Фраза 1» и «Фраза 2» из-за наибольшей силы связи между ними, а в дополнительную часть попадет «Фраза 4», т.к. сила связи между «Фразой 1» и «Фразой 4» не максимальная для «Фразы 4», но больше 2.5. «Кластер 2» будет состоять только из основной части, т.к. в случае с «Фразой 4» есть максимум, а «Фраза 5» имеет лучшую связь с «Фразой 4», которая уже входит в основу «Кластера 2».

Поясню детальнее на первом примере, где в скобках указан вес каждого адреса:
Обновленная группировка ключевых фраз по кластерам
В данном случае получим следующую матрицу сил связей:
Матрица силы связи ключевых фраз
В итоге имеем, что «Фраза 2» и «Фраза 3» формируют основу кластера, но «Фраза 3» все равно попадает в дополнительную часть кластера с «Фразой 1».

Благодаря использованию силы связи при кластеризации ключевых фраз учитывается не только число общих адресов, но особенности работы поисковых систем. Это позволяет получать более качественные группы фраз и проделывать более качественную работу при формировании структуры сайта, подготовке статьи или работе с контекстной рекламой.
У этого алгоритма есть два улучшения, которые могут еще больше улучшить кластеризацию:
1. Снижение веса главных страниц.

Это связано с тем, что в данный момент структура и ссылочный профиль большинства сайтов приводят к тому, что вес главных страниц значительно превышает остальные. Если взять топ-1000 сайтов по видимости Serpstat и сравнить число фраз, по которым ранжируются их главные и внутренние страницы, то можно убедится в этом утверждении.

2. Снижение силы связи между фразами, если в топ-5 попало несколько страниц одного и того же сайта.

Если лидеры ниши могут продвигать в топ разные страницы, то, вероятно, связь этих фраз не столь велика, как без этого уточнения.


Как здесь использовать Serpstat?

Несмотря на то, что в Serpstat еще нет инструмента группировки ключевых слов, в его базе хранятся десятки миллионов топов и удобное API для обработки фраз и топов.

На основе API Serpstat и вышеописанного алгоритма я создал небольшой скрипт для кластеризации ключевых слов. Вы уже, наверняка, видели этот скрипт в моей статье «Поиск дроп-доменов: как найти истекшие домены и выявить потенциальные дропы». Я просто добавил функцию кластеризации.

В конце статьи найдете ссылку на скрипт, а сейчас я приведу несколько примеров работы алгоритма.
Ссылка на статью о поиске дроп-доменов
Как найти истекшие домены и выявить потенциальные дропы
Скрипт для работы с API-Serpstat
Сначала нужно ввести входные данные.

  • Ввод — фраза, домен или страница, для которой будут доставаться фразы из базы Serpstat.

  • Тип ввода — тут выбирается с каким типом ввода будет работать скрипт. От этого зависит какая функция API Serpstat будет задействована. Например, для ввода «amazon.com» при выборе разных типов ввода будут получены разные фразы для анализа.

  • Поисковая система — поисковик, для которого будет проводиться анализ. Например, для американского Google нужно установить значение g_us. Весь перечень доступных поисковых систем можно найти на странице.

  • Лимит поиска — максимальное число фраз из органической выдачи, которые будут участвовать в анализе.

  • Размер страницы — параметр необходимый для пагинации при работе с API Serpstat, т.к. функции keywords, url_keywords и domain_keywords может выдавать максимум 1000 фраз. Если у вас стоит лимит ключей меньше 1000, то рекомендую использовать размер страницы такой же, как лимит поиска.

  • Макс. частотность — максимальная частота фраз из обоих баз, которые будут участвовать в анализе. Если нужны только НЧ, то можно установить 20. Например, для поиска блогов и саттелитов я устанавливаю максимальную частотность не больше 80.

  • API token — сюда нужно ввести свой ключ для API. Его можно узнать на странице своего профиля в сервисе.

  • Функция — данный скрипт реализует ряд функций:

    • Поиск дропов по Whois — формируется таблица доменов из ниши с данными из Whois.

    • Просто вывести домены — выводятся уникальные домены из выдачи в рамках анализируемой ниши. Нужно, если вы планируете с ними проводить другие работы.

    • Поиск форумов — слегка усовершенствованный поисковик тематических форумов из моего летнего поста про 7 способов использования API Serpstat.

    • Кластеризация — формируются кластеры. Собственно, об этой функции статья.

Процесс кластеризации занимает время. Больше минуты уходит только на сбор топов по 100 фразам. Это одна из причин, почему я не делал реализацию на Google Sheets. В результате получилось 134 кластера, представленных в виде таблиц, где строки с желтым фоном — дополнительная часть кластера.

Давайте рассмотрим самые интересные:
Кластеризация ключевых фраз с помощью API Serpstat
Например, в доп. часть кластера «Военный рюкзак» попала фраза «рюкзак тактический». Если посмотреть на кластер тактических рюкзаков, то там в доп. части есть и военные рюкзаки.

Допустим, вы хотите разместить статью про военные рюкзаки, по кластеру вы получили основные фразы, но и также подсказку о связи кластеров, следовательно, и рекомендацию о включении материалов о тактических рюкзаках в вашу статью. Аналогичный подход можно использовать при формировании структуры сайта.
Создаем структуру сайта на основе кластеров ключевых фраз
Не менее показательный пример для игры «Clash of Clans» и американской выдачи. Если бы я писал статью о стратегиях игры в «Clash of Clans» я бы точно учел рекомендацию о том, что «стратегия» и «советы» имеют приличную связь. Классические методы кластеризации вряд ли позволили об этом узнать.


Вместо заключения

Лично я почти всегда обрабатываю фразы, выгруженные из Serpstat этим скриптом. Если у вас есть аккаунт с API-ключом, то и вы тоже можете им пользоваться. И не нужно ждать пока кластеризация запросов появится в этом сервисе.

По традиции даю ссылку на веб-версию и исходник. Веб-версия расположена на обычном хостинге и не факт, что она потянет обработку десятков тысяч фраз.
Для более стабильной версии рекомендую скачать исходник и запускать у себя на сервере или виртуалке.
Важно: В скрипте нет обработки ошибки забанненого ключа. Если в результате обработки ничего не выводится, то, возможно, что-то не так заполнили, или ваш ключ забанен.

Это связано с тем, что в Serpstat есть ограничения на число IP-адресов, с которых делаются запросы к API. IP хостинга со скриптом скорее всего не совпадает с вашим и будет засчитан системой как новый IP. Поэтому учитывайте, что в день использования этого скрипта лучше не делиться своим ключом к API и не использовать его в других системах.

Я не утверждаю, что мой алгоритм и скрипт кластеризации запросов идеален. Но для быстрой обработки данных из Serpstat он полностью меня удовлетворяет и не раз спас от долгих часов работы с Excel'ем. Если вы часто работаете с базой ключевых слов в Serpstat, то советую попробовать.

Оцените статью по 5-бальной шкале

3.93 из 5 на основе 27 оценок
Нашли ошибку? Выделите её и нажмите Ctrl + Enter, чтобы сообщить нам.

Поделитесь статьей с вашими друзьями

Войти Регистрация

Вы исчерпали лимит запросов.

Или email
Забыли пароль?
Или email
Back To Login

Не волнуйтесь! Напишите свой электронный адрес и мы пришлем вам новый пароль.

Вы уверены?

Awesome!

To complete your registration you need to enter your phone number

Назад

Мы отправили код подтверждения на ваш номер телефона

Your phone Resend code Осталось запросов

Что-то пошло не так.

Свяжитесь с нашей службой поддержки
Или подтвердите регистрацию с помощью Телеграм бота Перейдите по этой ссылке
Выберите один из проектов

Знакомство с сервисом

Ознакомьтесь с основными возможностями Serpstat удобным способом!

Отправьте заявку для ознакомления с сервисом и мы свяжемся с вами в кратчайшие сроки. Наш специалист предложит подходящий вариант, который может включать персональную демонстрацию, пробный период, материалы для обучения и повышения экспертизы, личную консультацию, а также комфортные условия для начала работы с Serpstat.

Имя

Email

Телефон

Будем рады вашему комментарию
Увеличить лимиты

Улучшить тариф

Экспорт недоступен для вашего тарифного плана. Вам необходимо улучшить свой тариф до Lite или выше, чтобы получить доступ к инструменту Подробнее

Зарегистрироваться

Спасибо, мы с вами свяжемся в ближайшее время

Пригласить
Просмотр Редактирование

E-mail
Сообщение
необязательно
E-mail
Сообщение
необязательно

У вас закончились лимиты

Вы достигли лимита на количество созданных проектов и больше не можете создавать новые проекты. Увеличьте лимиты или удалите существующие проекты.

Я хочу больше лимитов