Кластеризация семантического ядра: алгоритмы и подходы популярных SEO-инструментов
Кластеризация применяется в различных областях: для сегментации рынка, анализа социальных сетей, группировки результатов поиска, медицинской визуализации, сегментации изображений и обнаружения аномалий. В этой статье, мы углубимся в алгоритмы кластеризации не только с точки зрения SEO, но и с позиций кластерного анализа, как важного метода машинного обучения.
В чем преимущества автоматической кластеризации ключевых слов?
Алгоритмы кластеризации в машинном обучении
- Общие математические подходы
- Подходы на основе систем искусственного интеллекта
- Логический подход
- Теоретико-графовый подход
Как собрать данные для своего проекта с помощью кластеризации Serpstat?
- Основные настройки кластеризации
- Особенности модуля кластеризации Serpstat
- Практический кейс-исследование
Что такое кластеризация и для чего она нужна в SEO?
Подготовка SEO-контента с помощью кластеризации, помимо основных преимуществ, делает ваш сайт более понятным для алгоритмов Google.
В широком понимании, кластеризация — это процесс разделения набора объектов на группы, называемые кластерами. Однотипные объекты должны попадать в одну группу, в то же время объекты в разных кластерах должны максимально отличаться. Кластеризация в SEO помогает определить наиболее релевантные ключевые слова и отфильтровать менее приоритетные для лучшего ранжирования.
В 2013 году Google выпустил Hummingbird и этот алгоритм начал фокусироваться на фразах, а не на отдельных ключевых словах, понимая их смысл. В 2015 году появился апдейт RankBrain, способный определять темы поисковых запросов и находить похожие ключевые слова.
Кроме всего прочего, создание кластеров дает больше возможностей для добавления внутренних ссылок на ваш сайт, что повышает вовлеченность пользователей. Перелинковка по темам внутри сайта помогает Google понять, какие страницы являются наиболее важными.
Если у вашего бизнеса есть мультипродуктовые и мультисервисные направления — вы сможете создать больше кластеров на сайте, перелинковать их. В случае продвижения одного продукта или услуги, количество выявленных кластеров будет меньше, но при соответствующих настройках автоматической кластеризации, ваше семантическое ядро можно разбить на подмножества. Изучение основных тематических направлений и расширение семантики большим количеством полезного контента может улучшить вашу конкурентоспособность.
Одним из ключевых принципов эффективного анализа семантики, является понимание мотивов посетителей вашего сайта. Для этого нужно проанализировать не только ключи, которые ваши посетители используют чтобы попасть на сайт, а и термины, которые они ищут находясь на сайте (поиск по сайту).
В SEO существует два основных типа кластеризации ключевых слов:
В чем преимущества автоматической кластеризации ключевых слов?
- Кластеризация позволяет объединять фразы по смыслу и провести более глубокий анализ вашего пула ключевых слов.
- На основе кластеризации, вы можете создать контент-план и упорядочить наиболее релевантные наборы фраз для продвижения определенных составляющих вашего контента.
- Кластеризация помогает лучше понять интент пользователя. SEO, ориентированное на тематику, предлагает более тщательный ответ на запрос пользователя, т.к. вы ориентируетесь на намерения, а не на охват одного ключевого слова.
- Полученные кластеры помогут вам определить, как должны быть связаны отдельные сегменты вашего контента. Это позволяет вам оценить семантические связи между вашими страницами в общей архитектуре сайта.
- Кластеризация ключевых слов позволит вам создавать более эффективные целевые страницы, что положительно повлияет на привлечение трафика. С помощью иерархической кластеризации можно организовать структуру своего веб-сайта с нуля.
- Кластеризация помогает облегчить общую структуру вашего веб-сайта и UX, сделать его более удобным для посетителей.
- Ключевые слова из одного кластера можно размещать на соответствующей странице без риска каннибализации трафика или появления смешанного контента на сайте.
- Некластеризованные ключевые слова можно использовать для других целей. Благодаря группировке ключевых слов вы можете повысить видимость и авторитет вашего сайта как для пользователей, так и для поисковых систем.
- Автоматическая кластеризация ключевых слов дает вам все вышеперечисленные преимущества быстро и эффективно.
Существует также метод «Hard» кластеризации, который требует связи между всеми элементами внутри кластера. Недостатком этого алгоритма является то, что при его использовании возникает часто чрезмерное количество небольших кластеров, которые можно объединить в более крупные. Высокоточная «Hard» кластеризация может игнорировать сходство между несколькими группами. Таким образом, семантически близкие ключевые слова, которые алгоритм распределил в отдельные кластеры, могут быть объединены в еще один кластер. Интеллектуальная иерархическая кластеризация объединяет кластеры в суперкластер.
В случае присутствия в списке многозначных ключевых слов, возникновении коллизии, привязка к какой-либо группе будет происходить случайным образом. В теории может получиться так, что один и тот же набор ключевых слов будет попадать в разные кластеры при каждом новом запуске кластеризации.
При использовании ручной кластеризации, вам потребуется разбить каждое ключевое слово на термины, определить их назначение и составить списки ключевых слов на основе необходимых вам параметров. Но проблема по-прежнему в словосочетаниях с разным интентом, особенно сложно перераспределить омонимы и слова с широким значением.
В этом контексте, стоит выделить ключевые слова, которые изменили свое значение в ходе истории. Такие фразы могут способствовать возникновению неожиданных результатов в выдаче, со смешанным интентом, в зависимости от персонализированной выдачи, а также региональных факторов. Примеры таких ключевых слов:
- «Тесла»;
- «Корона» (как вирус, светлое пиво или программное обеспечение);
- «Кафка» (как писатель и платформа для потоковой передачи событий);
- «Байрактар» (как и известные тактические беспилотники и турецкая фамилия, с турецкого переводится как «Знаменосец»).
Особенности взаимодействия между компьютерами и человеческим языком изучаются в области науки, называемой Natural Language Processing (NLP, обработка естественного языка). Чтобы дать компьютерам возможность понимать текст и речь почти так же, как люди, развиваются отдельные направления внутри сферы AI (искусственный интеллект; англ. artificial intelligence). Все эти меры помогают оценить, как программы и компьютеры могут обрабатывать и анализировать большие объемы данных на естественном языке. Google совершил исторический сдвиг в понимании интента пользовательского поиска, выпустив BERT (Bidirectional Encoder Representations from Transformers), алгоритм-нейросеть с возможностью предварительного обучения.
NLP сочетает в себе вычислительную лингвистику со статистическими моделями, машинным обучением и моделями глубокого обучения. Лучший пример такой модели — Siri, часть операционной системы iOS. NLP в действии: устройства Alexa и Google Home, автозаполнение в поиске Google и Gmail, программное обеспечение для языкового перевода, проверка орфографии и грамматики, спам-фильтры, поиск и чат-боты.
Цель обучения без учителя — извлечь полезную информацию из огромного количества новых данных. При обучении с учителем же алгоритм «обучается», делая прогнозы на основе обучающего набора данных и корректируя их до тех пор, пока не получит правильный ответ. Хотя модели обучения с учителем обычно более точны, они требуют прямого вмешательства человека и точной разметки данных. Например, модель контролируемого обучения может рассчитать, сколько времени потребуется, чтобы добраться до работы, в зависимости от времени суток, погодных условий и т. д.
Обучение без учителя требует мощных инструментов для работы с большими объемами неклассифицированных данных. Эти модели самостоятельно изучают внутреннюю структуру неразмеченной информации. Однако они по-прежнему требуют незначительного вмешательства человека для проверки. Например, такая модель неконтролируемого обучения может предположить, что покупатели онлайн-магазина часто покупают определенные продукты одновременно, но специалисту по обработке данных необходимо проверить, имеет ли смысл группировать эти товары и выводить в рекомендации..
Возвращаясь к кластеризации, как методу обучения без учителя, стоит упомянуть, что общепринятой и унифицированной ее классификации не существует. Можно выделить несколько подходов, но некоторые из них относятся сразу к нескольким условным группам. Методологически такие группы имеют значительные различия.
Алгоритмы кластеризации в машинном обучении
При решении задач классификации, например для перераспределения спама в отдельную папку электронной почты, алгоритмы используются с целью категоризации тестовых данных. Линейные классификаторы, опорные вектора, деревья решений и случайный лес — все это распространенные алгоритмы классификации. Модели регрессионного анализа помогают прогнозировать, к примеру будущий доход от продаж, основываясь на точечных данных.
В контексте машинного обучения кластеризация относится к обучению без учителя (Unsupervised learning), система обучается самостоятельно и без предварительно размеченных данных. Эти алгоритмы машинного обучения выявляют закономерности в данных без вмешательства человека. Такие модели создаются для обнаружения аномалий, улучшения рекомендаций, прогнозирования поведения клиентов и т. д.
Общие математические подходы
«K» — количество кластеров, заданных для набора данных. Это означает, что перед кластеризацией вы должны знать предполагаемое количество будущих групп. Этот метод можно использовать для рекомендаций, поиска спама или фейковых новостей. Такая кластеризация используется стриминговым сервисом Netflix: вам предоставляется набор фильмов и список отзывов, которые дал каждый оценщик; ваша цель — создать около сотни групп связанных фильмов. Каждая начальная точка «k» служит центральной точкой для одного из таких «k наборов».
При использовании данного алгоритма всегда необходимо указать примерное количество необходимых кластеров. Вы можете попробовать преобразовать данные ключевых слов в векторы, чтобы узнать, как этот подход работает с ранжированием Google для применения в SEO.
Результат применения K-means кластеризации на наборе данных из Serpstat, с учетом однородности (10 кластеров):
Метод k-медиан чаще всего используется для измерения среднего дохода, по сути медиана представляет собой среднюю точку. Такой подход также не имеет сфер применения в SEO.
Подходы на основе систем искусственного интеллекта
- Метод нечеткой кластеризации (C-средние). При таком подходе создают k кластеров, а затем назначают данные каждому кластеру по существующему фактору, определяющему, насколько сильно данные принадлежат этой группе.
Логический подход
Визуализацию такого подхода можно найти в сервисе Keyword Cupid.
Теоретико-графовый подход
Иерархическая кластеризация (также графовые алгоритмы кластеризации и иерархический кластерный анализ) представляет собой набор алгоритмов для создания иерархии вложенных кластеров. Иерархический подход предполагает наличие групп с вложенностями (кластеров разного порядка). Эвристическая кластеризация включает в себя разделение данных на группы на основании некоторой степени сходства с возможностью дальнейшего сужения. Второй метод, наоборот, идет от уникальных объектов и последовательно объединяет эти данные в более крупные группы.
Алгоритмы кластеризации популярных SEO-инструментов
Serpstat
Для подсчета мы строим матрицу смежности в соответствии с количеством общих URL-адресов для группы фраз. Допустим, ключевое слово «неттоп» будет иметь то же количество общих URL-адресов в выдаче, что и фраза «неттоп игровой», таких общих страниц в выдаче может быть 12. А два ключевых слова «неттоп» и «Mac Mini» будут иметь только 5 общих URL-адресов в рамках анализируемого топа 30 результатов поисковой выдачи. Теперь, мы преобразуем матрицу так, чтобы относительные числовые значения были расположены ближе друг к другу. Если присвоить каждому числовому значению цвет, мы получим классическую диаграмму Чекановского. Пример такой матрицы:
При использовании метода Чекановского более вероятно, что исследуемый метатоп, то есть набор URL-адресов, представляющих кластер, будет выступать в роли центроида. Близость ключевого слова к тематике кластера рассчитывается с учетом схожести результатов поисковой выдачи по ключевому слову и анализируемого метатопа. Serpstat разработал уникальный итерационный алгоритм, позволяющий находить и исправлять неточности кластеризации.
SEO-платформа использует специальные метрики для описания итоговых кластеров:
Однородность (%) показывает, как ключевые слова в кластере связаны друг с другом. Этот показатель оценивает SERP для каждого ключевого слова.
Сила связи, по шкале от 0 до 100, отражает сходство между метатопом и поисковой выдачей определенного ключевого слова (насколько близко ключевое слово из кластера к основной теме кластера).
Чтобы проверить, как работают разные подходы к кластеризации, мы проведем Текстовую аналитику в Serpstat на кластерах, которые удалось получить с помощью SEO-платформ, использующих одинаковый алгоритм — SERP анализ.
Текстовая аналитика в Serpstat (ТА) — это инструмент, который помогает повысить релевантность контента на основе парсинга и анализа текстового наполнения сайтов-конкурентов из ТОП-15 выдачи. Этот инструмент также покажет вхождение определенных ключевых слов в ваш контент и позволит понять, не перенасыщен ли текст отдельными фразами. Если же вы не включили некоторые релевантные ключевые слова в свой текст, вы увидите их в качестве рекомендаций. Кроме того, если вы прикрепили целевую страницу к проекту ТА, в результатах можно увидеть возможные технические проблемы, которые влияют на вашу оптимизацию и провести дальнейший аудит.
Для анализа текста, а также для улучшенного понимания интента, Serpstat использует алгоритм TF-IDF-CDF (TF — частота слова, IDF — обратная частота документа и наш собственный показатель, CDF — частота документа для кластера). Этот подход помогает определить статистические показатели для ключевых слов, определяющих тему для всего кластера:
TF — учитывает количество вхождений ключевого слова в текст;
IDF – контролирует неинформативные ключевые слова, встречающиеся в большом проценте текста, стоп-слова;
СDF — находит самые мощные ключевые слова для каждого кластера.
Благодаря текстовой аналитике, можно получить наиболее ценные ключевые слова, к примеру для будущей структуры веб-сайта. Затем, вы можете использовать эти фразы в проекте Мониторинга позиций и наблюдать за эффективностью продвижения вашего веб-ресурса.
Чтобы отследить качество кластеров, выполненных различными инструментами, мы также сравним метрики из Текстовой аналитики. Для чистоты эксперимента, один и тот же набор данных и подобные настройки кластеризации будут использоваться для всех анализируемых SEO-платформ.
Cluster army
Cluster Army потребуется произвести несколько шагов для успешной кластеризации:
Изучить импортированный список;
- Найти частотность по лемме, удалить стоп-слова;
- Найти принадлежность для каждого отдельного термина;
- Найти принадлежность для всех пар ключей;
- Найти принадлежность для трех терминов;
- Создать таблицу с начальным ключевым словом, связанным с ним высокочастотным, а затем и группами по 2-3 фразы;
- Наконец, инструмент создаст кластеры, которые вы можете использовать в своем проекте.
Spy fu
- Вы можете импортировать свои брендовые запросы, а также ключи «с длинным хвостом». Spy Fu добавит в них данные, чтобы получить полную картину по тематике.
- Затем нужно отсортировать ключевые слова, чтобы увидеть, как новые данные влияют на полученные результаты, или отфильтровать, формируя автоматические группы.
- Наконец, создается новый список ключевых слов для проверки в других платформах или добавления во встроенный инструмент внутри Spy fu.
Contadu
Процесс кластеризации в Contadu состоит из нескольких шагов:
- Сбор вариантов ключевых слов, основываясь на импортируемых данных.
- Проверка частотности, трендов, CPC и значений показателя конкуренции.
- Поиск результатов по всем вариантам ключевых слов.
- Построение матрицы сходства между ключевыми словами.
- Кластеризация на основе сходства.
Umbrellum
Для этого Umbrellum использует кластеризацию с расстоянием Левенштейна. Это расстояние можно рассчитать, как минимальное необходимое количество правок, необходимое для замены одного слова другим. Технически, это число отображает, насколько различны два ключевых слова. Чем выше этот показатель, тем больше различий между двумя словами.
Simple SEO tool
SEO Scout
В SEO Scout вы можете задавать диапазон ключевых слов с длинным хвостом, представляющих каждую группу, а также их минимальную частотность. Готовые группы можно пересмотреть и отправить копирайтеру, вместе с ТЗ и набросками запланированных публикаций.
Критерии, которые вы должны учитывать для группировки в кластеры:
- Семантическая релевантность. Ключевые слова в кластерах должны иметь схожий поисковой интент.
- Частотность и цена за клик. Основные ключевые слова в кластерах должны иметь высокую частотность и хороший потенциал конверсии (с учетом CPC).
- Сложность продвижения в органическом поиске (KD). Подбирайте только те ключевые слова, по которым ваш сайт имеет реальные шансы ранжироваться.
В отличии от лемматической, кластеризация на основе SERP-ов создает группы ключевых слов, которые могут не иметь морфологических совпадений, но соответствуют результатам в выдаче поисковой системы. Используя алгоритмы такой кластеризации, SEO-специалисты могут создавать группы ключевых слов, которые соответствуют требованиям поисковых систем.
Наше основное исследование будет сосредоточено на алгоритмах Serpstat, Keyword Cupid и Spy SERP, которые опираются на выдачу поисковых систем.
Начните тестовый период и проверьте возможности инструмента на реальных проектах!
Как собрать данные для своего проекта с помощью кластеризации Serpstat?
Существует множество, как бесплатных, так и платных инструментов внутри Serpstat, которые помогут вам найти ключевые слова для вашего сайта. Используйте отчет Трендовые запросы, чтобы отслеживать актуальные тенденции и высокочастотные ключи по городам и странам.
Обратите внимание, что существуют разные типы поисковых запросов: вы можете различать их по специфическим характеристикам (таким, как длина, ключевые слова с длинным хвостом) и по интенту пользователя (навигационные, информационные, транзакционные). Коммерческие и информационные ключи не желательно указывать на одной странице. Учитывая интенсивность конкуренции с определенными запросами, вы сможете создать более подходящее семантическое ядро.
Отчеты, которые вы можете использовать для расширения и сбора семантики:
- Подбор фраз ( ключевые слова в органической выдаче, связанные с искомой фразой),
- Похожие фразы (все поисковые запросы, семантически связанные с искомым ключевым словом);
- Поисковые подсказки и Поисковые вопросы (запросы, предлагаемые пользователям под строкой поиска и дополняющие формулировку исходного запроса; вопросы, на которое пользователи ищут ответ с учетом анализируемого слова).
Сбор семантики для проекта в Кластеризации мы начали с модуля «Поисковая аналитика» в Serpstat, дальнейшие действия описаны в пошаговой инструкции.
Дополнительные настройки внутри Кластеризации — в следующем разделе статьи.
Основные настройки кластеризации
Тип кластеризации определяет то, как ключи будут собираться в кластер. «Мягкий тип» — для создания кластера нам не нужны общие URL-адреса для ВСЕХ ключевых слов в группе. Визуализацию этого типа кластеризации, можно представить так:
Длительность кластеризации в Serpstat — от нескольких минут до нескольких часов, в зависимости от количества ключевых фраз в проекте.
Визуализацию кластеризации, которую мы получили с помощью Serpstat по однородности и размеру групп, можно изобразить следующим образом:
- Запуск проекта в мониторинге позиций, чтобы получить данные напрямую, из SERPов. В соответствии с вашими настройками, инструмент собирает данные и сопоставляет страницы из поисковой выдачи по каждому ключевому слову (от топа 3 до топ 100).
- Если одним и тем же страницам присвоены разные ключевые слова с несколькими совпадениями, бот группирует ключи по этому признаку. Есть возможность установить мощность кластеризации (минимальное количество совпадений). Чем ниже этот показатель, тем большее количество кластеров будет создано.
- Если для ключевых слов в поисковой выдаче нет совпадений, они группируются отдельно.
«Soft» кластеризация в Spy SERP — это тип группировки ключевых слов вокруг нескольких кластеров с учетом популярности ключевых слов. В «Moderate» варианте — результаты поиска сравниваются друг с другом, моделируя более тесные связи. Этот тип основан на релевантности ключевых слов.
Подход сервиса уникален из-за использования двух видов программируемых нейронных сетей. Первая сеть фокусируется на группировке импортируемых ключевых слов в очень тесные тематические кластеры, чтобы гарантировать, что дальнейшая группировка будет корректной в случае возникновения коллизий.
Вторая нейронная сеть фокусируется на группировке созданных кластеров и использует набор определенных правил, чтобы обеспечить более «гибкие» связи.
Keyword Cupid не использует алгоритм NLP, TF-IDF или показатели релевантности для кластеризации. Кроме того, сервис не считает ссылки, отвечающие за «тесность связей» в кластере. Если Google выпустит апдейт, улучшающий попадание в интент в выдаче, результаты кластеризации тоже улучшатся. Название кластера служит разметкой для группы результатов, используется как центр внутри узла (блока или темы).
Чтобы начать кластеризацию данных в Keyword Cupid, нужно подготовить файл с основными показателями по ключам: сложностью (KD), стоимостью за клик (CPC) и частотностью. В этом вам снова поможет Пакетный анализ ключевых фраз.
Для проверки качества созданных кластеров мы выбрали один случайный кластер, общий для всех инструментов. В Serpstat это было «Data science learning» — 13 ключевых слов:
Коэффициент штиля, % — указывает на силу связи ключевого слова с другими ключевыми словами в группе, основываясь на тематике.
Релевантность — это соответствие ключевого слова теме целевой страницы. По формуле TF-IDF рассчитывается важность каждого ключевого слова в заголовках конкурентов в метатопе. После этого выводится среднее значение по каждому ключевому слову.
Значимость, % — важность ключевого слова для Title/H1/Body в контексте анализируемой тематики. Эта метрика рассчитывается как отношение ключевого слова к набору ключевых слов, используемых в контенте конкурентов.
Популярность, % — показывает, сколько конкурентов используют данное ключевое слово. Метрика отражает важность используемого ключевого слова.
Покрытие — показывает, как часто используется ключевое слово в точном вхождении, есть ли вероятность того, что в вашем тексте ключ используется слишком часто, или же, что вы пока не добавили рекомендуемые слова из контента конкурентов.
Пример данных в текстовой аналитике для кластера Serpstat:
Для добавления нового кластера используйте соответствующую кнопку:
Чтобы переместить ключевые слова в новый кластер из кластеров Serpstat,можно использовать меню «Операции»:
Дальше, повторяем кластер Spy SERP и запускаем аналитику. Этот сервис не учитывал ключи «365 data science» и «data science course». Последний ключ попал в кластер не отсортированных ключей в отчете SpySERP.
Особенности модуля кластеризации Serpstat
Целевые страницы в метатопе окрашены в зеленый цвет.
Практический кейс-исследование
Какие задачи мне нужно было выполнить?
Следовать этой структуре, подбирая наиболее релевантные и высокочастотные запросы для лучшего ранжирования в Google US.
Как Serpstat помог в решении этих задач?
Полученные результаты
Выводы
Кластеризация помогает сделать сайт более удобным для пользователей, лучше ранжироваться по ключевым запросам разного типа, приумножать органический трафик за счет полезного и структурированного контента, организовывать внутреннюю перелинковку эффективней, и проще расширять семантику в определенной нише.
Кластеризация ключевых фраз — это самый простой способ оптимизировать одну страницу под нескольких ключевых запросов, объединенных поисковым интентом. С помощью Serpstat вы можете сгруппировать до 50 тысяч ключевых слов, быстро и просто разработать точное семантическое ядро сайта.
С помощью кластеризации, можно оптимизировать контент, ориентированный на десятки похожих и связанных ключевых слов, что поможет ранжироваться по целой группе запросов и организовать структуру сайта в соответствии с алгоритмами Google. Группировка ключей по поисковой выдаче, основана на совпадении целей поиска и работает благодаря алгоритмам машинного обучения.
Текстовая аналитика Serpstat поможет повысить релевантность контента, сгенерированного по кластерам, и учесть ТОП-15 выдачи поисковой системы в определенном регионе.
В этой статье мы рассмотрели значение кластеризации в контексте машинного обучения и сравнили результаты работы различных алгоритмов и подходов к разбивке семантического ядра, чтобы проверить релевантность каждого созданного кластера. Результаты свидетельствуют о том, что автоматизированная кластеризация на основе поисковой выдачи является более эффективной и простой в использовании, а также полагается на алгоритмы Google и способна улучшаться в связи с постоянными апдейтами поисковиков.
Кластеризация помогает думать масштабней о содержании сайта и адаптироваться к будущим условиям поисковой оптимизации.
Используйте лучшие SEO инструменты
Проверка обратных ссылок
Быстрая проверка обратных ссылок вашего сайта и конкурентов
API для SEO
Получите быстро большие объемы данных используя SЕО API
Анализ конкурентов
Сделайте полный анализ сайтов конкурентов для SEO и PPC
Мониторинг позиций
Отслеживайте изменение ранжирования запросов используя мониторинг позиций ключей
Рекомендуемые статьи
Кейсы, лайфхаки, исследования и полезные статьи
Не успеваешь следить за новостями? Не беда! Наш любимый редактор подберет материалы, которые точно помогут в работе. Только полезные статьи, реальные кейсы и новости Serpstat раз в неделю. Присоединяйся к уютному комьюнити :)
Нажимая кнопку, ты соглашаешься с нашей политикой конфиденциальности.