Мы используем файлы cookie для обеспечения работоспособности сервиса, улучшения навигации и маркетинговых активностей Serpstat. Нажимая "Принять и продолжить", вы соглашаетесь с нашей Политика конфиденциальности

Сообщить об ошибке

Отменить
45058 9 1
SEO Читать 11 минут

Как провести кластеризацию запросов с помощью Serpstat

Кластеризация запросов с помощью Serpstat
Фото Дмитрия Мазуряна, SEO-специалиста в Netpeak Agency
Дмитрий Мазурян
SEO-специалист в Netpeak Agency
Кластеризация ключевых слов — важная часть создания семантического ядра сайта. Однако выполнение такой работы вручную через Microsoft Excel или Google Таблицы занимает много времени.
В этой статье я расскажу о своем личном алгоритме кластеризации, основанный на силе связи между фразами с учетом особенностей выдачи. Он поможет ускорить работу.

Однажды мы уже рассказывали вам как сгруппировать ключевые фразы по морфологической близости с помощью Serpstat. Сегодняшний пост будет снова описывать кластеризацию фраз — на этот раз еще более подробно.
Ссылка на статью о кластеризации в PPC
Как сгруппировать ключевые фразы по морфологической близости с помощью Serpstat


Что такое кластеризация запросов?

Кластеризация запросов — это процесс объединения связанных между собой ключевых слов в группы (кластеры). Иногда этот процесс называют группировкой ключевых слов. В идеале кластеризация ключевых слов должна происходить на основе свойств объектов, описываемых данными фразами, и контекста их использования.

Но, к сожалению, в данный момент нет открытых баз, которые бы содержали подобную информацию. Даже API Knowledge Graph не способно справиться с этой задачей. Поэтому в SEO-кластеризацию ключевых слов принято проводить на основе выдачи поисковых систем.

SERP предлагает ссылки на релевантные страницы в ответ поисковому запросу, и уже сравнивая выдачу по различным ключевым фразам можно провести точную группировку ключевых слов.


Какой алгоритм кластеризации чаще всего используют?

В современном SEO выделяют три основных алгоритма кластеризации:

  • мягкую,
  • умеренную,
  • жесткую.

При этом ряд специалистов и сервисов чаще используют исключительно жесткую кластеризацию запросов. Дальше речь пойдет о ней.
Визуализация, как выглядит кластеризация
Суть этого алгоритма состоит в следующем: Если число общих адресов в результатах выдачи больше или равно минимуму, то фразы объединяются в пару.
1
Сначала устанавливается некое минимальное число пар, по которым фразы могут быть объединены в группу.
2
Затем, отсортированные по убыванию частотности, фразы сравниваются между собой, начиная с самой частотной.
3
Если число общих адресов в результатах выдачи больше или равно минимуму, то фразы объединяются в пару.
4
Так формируются кластеры.
Более подробно про кластеризацию ключевых слов и основные алгоритмы описано на Википедии.

Если задуматься, то данный алгоритм имеет существенный недостаток — пары формируются по минимальному числу совпадений. Давайте возьмем пример из трех фраз с минимальной силой связи 3, когда алгоритм сработает некорректно.
Пример, как отбираются фразы в жесткой кластеризации
Как видим из примера, «Фраза 1» формирует с «Фразой 2» пару и они будут в одном кластере, а «Фраза 3» или попадает в кластер «Фразы 1», хотя не имеет ни одного совпадения, или формирует отдельный кластер, но без «Фразы 2». В любом случае кластеризация по этому алгоритму будет не совсем точной.

По этой причине я использую собственный алгоритм кластеризации, основанный на силе связи между фразами с учетом особенностей выдачи.

Каковы особенности этого алгоритма?

1
Каждый адрес из топ-20 выдачи имеет собственный вес. В данный момент их вес аналогичен CTR позиции, используемой в Serpstat.
Соотношение группировки фраз в топ-20 к доле клика
2
Сила связи между фразами представляет собой сумму весов совпадений, где вес совпадения является суммой весов адресов этой пары.
3
Каждый кластер состоит из двух частей: основной и дополнительной. В основную часть кластера попадают фразы, сила связи которых является максимальной, но больше 2.5. В дополнительную часть попадают фразы, вес связи которых не является максимальной, но больше 2.5.
Благодаря такому подходу можно выполнить более точную кластеризацию ключевых слов и при этом понять степень связи между каждой из фраз кластера при дальнейшей обработке. В результате выполнения алгоритма будет получена матрица сил связей, благодаря которой будут сформированы группы фраз. Матрица может выглядеть следующим образом:
Пример группировки фраз в кластеризации
Исходя из этой матрицы получим два кластера, в основе которых будут стоять «Фраза 1» и «Фраза 3». Выглядеть они будут следующим образом:
Создание кластера на основе силы связи
В основу «Кластера 1» попадут «Фраза 1» и «Фраза 2» из-за наибольшей силы связи между ними, а в дополнительную часть попадет «Фраза 4», т.к. сила связи между «Фразой 1» и «Фразой 4» не максимальная для «Фразы 4», но больше 2.5. «Кластер 2» будет состоять только из основной части, т.к. в случае с «Фразой 4» есть максимум, а «Фраза 5» имеет лучшую связь с «Фразой 4», которая уже входит в основу «Кластера 2».

Поясню детальнее на первом примере, где в скобках указан вес каждого адреса:
Обновленная группировка ключевых фраз по кластерам
В данном случае получим следующую матрицу сил связей:
Матрица силы связи ключевых фраз
В итоге имеем, что «Фраза 2» и «Фраза 3» формируют основу кластера, но «Фраза 3» все равно попадает в дополнительную часть кластера с «Фразой 1».

Благодаря использованию силы связи при кластеризации ключевых фраз учитывается не только число общих адресов, но особенности работы поисковых систем. Это позволяет получать более качественные группы фраз и проделывать более качественную работу при формировании структуры сайта, подготовке статьи или работе с контекстной рекламой.
У этого алгоритма есть два улучшения, которые могут еще больше улучшить кластеризацию:
1. Снижение веса главных страниц.

Это связано с тем, что в данный момент структура и ссылочный профиль большинства сайтов приводят к тому, что вес главных страниц значительно превышает остальные. Если взять топ-1000 сайтов по видимости Serpstat и сравнить число фраз, по которым ранжируются их главные и внутренние страницы, то можно убедится в этом утверждении.

2. Снижение силы связи между фразами, если в топ-5 попало несколько страниц одного и того же сайта.

Если лидеры ниши могут продвигать в топ разные страницы, то, вероятно, связь этих фраз не столь велика, как без этого уточнения.


Как здесь использовать Serpstat?

Несмотря на то, что в Serpstat еще нет инструмента группировки ключевых слов, в его базе хранятся десятки миллионов топов и удобное API для обработки фраз и топов.

На основе API Serpstat и вышеописанного алгоритма я создал небольшой скрипт для кластеризации ключевых слов. Вы уже, наверняка, видели этот скрипт в моей статье «Поиск дроп-доменов: как найти истекшие домены и выявить потенциальные дропы». Я просто добавил функцию кластеризации.

В конце статьи найдете ссылку на скрипт, а сейчас я приведу несколько примеров работы алгоритма.
Ссылка на статью о поиске дроп-доменов
Как найти истекшие домены и выявить потенциальные дропы
Скрипт для работы с API-Serpstat
Сначала нужно ввести входные данные.

  • Ввод — фраза, домен или страница, для которой будут доставаться фразы из базы Serpstat.

  • Тип ввода — тут выбирается с каким типом ввода будет работать скрипт. От этого зависит какая функция API Serpstat будет задействована. Например, для ввода «amazon.com» при выборе разных типов ввода будут получены разные фразы для анализа.

  • Поисковая система — поисковик, для которого будет проводиться анализ. Например, для американского Google нужно установить значение g_us. Весь перечень доступных поисковых систем можно найти на странице.

  • Лимит поиска — максимальное число фраз из органической выдачи, которые будут участвовать в анализе.

  • Размер страницы — параметр необходимый для пагинации при работе с API Serpstat, т.к. функции keywords, url_keywords и domain_keywords может выдавать максимум 1000 фраз. Если у вас стоит лимит ключей меньше 1000, то рекомендую использовать размер страницы такой же, как лимит поиска.

  • Макс. частотность — максимальная частота фраз из обоих баз, которые будут участвовать в анализе. Если нужны только НЧ, то можно установить 20. Например, для поиска блогов и саттелитов я устанавливаю максимальную частотность не больше 80.

  • API token — сюда нужно ввести свой ключ для API. Его можно узнать на странице своего профиля в сервисе.

  • Функция — данный скрипт реализует ряд функций:

    • Поиск дропов по Whois — формируется таблица доменов из ниши с данными из Whois.

    • Просто вывести домены — выводятся уникальные домены из выдачи в рамках анализируемой ниши. Нужно, если вы планируете с ними проводить другие работы.

    • Поиск форумов — слегка усовершенствованный поисковик тематических форумов из моего летнего поста про 7 способов использования API Serpstat.

    • Кластеризация — формируются кластеры. Собственно, об этой функции статья.

Процесс кластеризации занимает время. Больше минуты уходит только на сбор топов по 100 фразам. Это одна из причин, почему я не делал реализацию на Google Sheets. В результате получилось 134 кластера, представленных в виде таблиц, где строки с желтым фоном — дополнительная часть кластера.

Давайте рассмотрим самые интересные:
Кластеризация ключевых фраз с помощью API Serpstat
Например, в доп. часть кластера «Военный рюкзак» попала фраза «рюкзак тактический». Если посмотреть на кластер тактических рюкзаков, то там в доп. части есть и военные рюкзаки.

Допустим, вы хотите разместить статью про военные рюкзаки, по кластеру вы получили основные фразы, но и также подсказку о связи кластеров, следовательно, и рекомендацию о включении материалов о тактических рюкзаках в вашу статью. Аналогичный подход можно использовать при формировании структуры сайта.
Создаем структуру сайта на основе кластеров ключевых фраз
Не менее показательный пример для игры «Clash of Clans» и американской выдачи. Если бы я писал статью о стратегиях игры в «Clash of Clans» я бы точно учел рекомендацию о том, что «стратегия» и «советы» имеют приличную связь. Классические методы кластеризации вряд ли позволили об этом узнать.


Вместо заключения

Лично я почти всегда обрабатываю фразы, выгруженные из Serpstat этим скриптом. Если у вас есть аккаунт с API-ключом, то и вы тоже можете им пользоваться. И не нужно ждать пока кластеризация запросов появится в этом сервисе.

По традиции даю ссылку на веб-версию и исходник. Веб-версия расположена на обычном хостинге и не факт, что она потянет обработку десятков тысяч фраз.
Для более стабильной версии рекомендую скачать исходник и запускать у себя на сервере или виртуалке.
Важно: В скрипте нет обработки ошибки забанненого ключа. Если в результате обработки ничего не выводится, то, возможно, что-то не так заполнили, или ваш ключ забанен.

Это связано с тем, что в Serpstat есть ограничения на число IP-адресов, с которых делаются запросы к API. IP хостинга со скриптом скорее всего не совпадает с вашим и будет засчитан системой как новый IP. Поэтому учитывайте, что в день использования этого скрипта лучше не делиться своим ключом к API и не использовать его в других системах.

Я не утверждаю, что мой алгоритм и скрипт кластеризации запросов идеален. Но для быстрой обработки данных из Serpstat он полностью меня удовлетворяет и не раз спас от долгих часов работы с Excel'ем. Если вы часто работаете с базой ключевых слов в Serpstat, то советую попробовать.

Оцените статью по 5-бальной шкале

4.02 из 5 на основе 41 оценок
Нашли ошибку? Выделите её и нажмите Ctrl + Enter, чтобы сообщить нам.