Мы используем файлы cookie для обеспечения работоспособности сервиса, улучшения навигации и маркетинговых активностей Serpstat. Нажимая "Принять и продолжить", вы соглашаетесь с нашей Политика конфиденциальности

Сообщить об ошибке

Отменить
9603 98 7
SEO Читать 12 минут

Как Google ранжирует сайты в тематике
«Финансы» — исследование

Как Google ранжирует сайты в тематике «Финансы» — исследование
Вячеслав Вареня
Вячеслав Вареня
Google Product Expert и автор канала
SEO inside
В свете последних Google Core Update-ов мы все чаще замечаем, что страдают сайты YMYL-страницы, а «наказывает» поисковик их за несоответствие параметрам E-A-T. Стало понятно, что нужно уделять больше внимания качеству контента, повышать авторитет и доверие к сайту. Но что же еще?

Я решил провести собственное исследование на примере финансово-кредитной тематики, чтобы понять, как Google классифицирует YMYL-сайты и какие показатели влияют на распределение страниц в топ-30.
Disclaimer: все сформулированные выводы и выявленные закономерности основаны на данных моей выборки. Мои результаты могут отличаться от результатов других экспертов. Все написанное носит рекомендательный характер.
Об исследовании
В последние годы в лексикон вебмастера прочно вошли такие термины, как «E-A-T» и «YMYL».

Напоминаю, что YMYL — это страницы общественно значимых тематик, таких как новости, финансы, медицина, покупки и так далее.

Что касается E-A-T — это набор критериев для оценки качества страницы и расшифровывается эта аббревиатура как Экспертиза, Авторитет, Доверие (Надежность).

Меня эта тема очень интересует и недавно я опубликовал исследование «Как Google классифицирует YMYL сайты». Исследование было проведено на выборке интернет-страниц сайтов медицинской тематики.

Результаты оказались настолько интересными, что в комментариях и в социальных сетях меня начали просить провести такое же исследование для других тематик. Один из веб-мастеров даже список сайтов финансово-кредитной тематики прислал, за что ему огромное спасибо.

В этой статье я расскажу, как при помощи Serpstat и других SEO-инструментов я провел исследование YMYL-страниц финансово-кредитной тематики, чтобы определить, какие факторы влияют на их ранжирование.
Цель исследования
Изучение качественных характеристик интернет страниц и выявление общих закономерностей, которые могут быть присущи при продвижении сайтов финансово-кредитной тематики.
Методология
По 87 доменам финансово-кредитной тематики собраны запросы и страницы из топ-30 поисковой выдачи Google. При помощи интеллектуального анализа данных и машинного обучения были выявлены основные критерии (показатели), которые больше всего влияют при продвижении сайтов финансово-кредитной тематики. Первоначальная выборка составила 15013 страниц. После очистки и форматирования данных окончательный объем выборки составил 10830 интернет-страниц.
Теперь подробнее по шагам
Используя выборку из 87 доменов финансово-кредитной тематики, мы собрали список страниц этих доменов и ключевиков, по которым они ранжируются в топ-30 выдачи. Для каждого URL получили также позиции, показатели трафика и ключевые фразы. Чтобы собрать эти данные, мы использовали API-Консоль Serpstat.
1
Заходим в API Консоль и вводим свой токен из профиля Serpstat в соответствующее поле.
2
Выбираем поисковую систему и регион. В нашем случае это Google Russia (при необходимости для поиска можно воспользоваться подсказкой сбоку).
3
Выбираем API метод. В нашем случае это Domain Keywords (да, выше мы писали, что собираем топ-30 URL и данные по ним, но чуть ниже вы поймете, почему именно этот метод).
4
В Queries вводим свой запрос. У нас — список из 87 доменов финансово-кредитной тематики.
5
В Position выставляем позиции от 1 до 30.
6
Загружаем данные (это может занять некоторое время, у меня ушло около 30 сек).
Получаем такую табличку, но это еще не все.
Переходим на вкладку SQL и выбираем «SQL Snippets→ Group by URL→ Value SQL».
Группировка данных таким образом позволит сэкономить API-лимиты. В конечном результате мы получаем такой список URL по доменам из топ-30 (15013 страниц).
Данные можно быстро выгрузить для более комфортной работы. Вот результат, который получчился у нас (пример 50 URL из 15К полученных).
Хотите узнать, как использовать API Serpstat для автоматизации
рутинных задач?

Заказывайте бесплатную персональную демонстрацию сервиса, и наши специалисты вам все расскажут! ;)
Для анализа факторов ранжирования YMYL-сайтов собираем дополнительные параметры. При помощи Netpeak Spider по каждому URL были собраны On-Page показатели.

Используя интеграцию API Majestic и Netpeak Checker получены показатели метрик Majestic для домена и страницы.

Всего в наборе данных мы получили 41 параметр для анализа факторов ранжирования YMYL-страниц. Естественно, что такой объем данных невозможно проанализировать вручную. Поэтому без автоматизации процессов анализа тут не обойтись.

Вот несколько инструментов, которые будут полезны для таких задач:
Инструмент Answerminer использовался для определения корреляции между показателями набора данных.
Программное обеспечение Orange использовалось для интеллектуального анализа данных.
BigML для машинного обучения. Эти инструменты бесплатные.
Между настоящим и будущим: как искусственный интеллект меняет SEO
Ход исследования
Я загрузил свой набор данных в Orange. Планировал кластеризовать данные при помощи метода k-means и надеялся, что полученные кластеры дадут «пищу» для анализа. К сожалению, обучение данных без учителя (кластеризация), не дало мне той информации, на основе которой, можно сделать какие-то выводы.

Учитывая это, я использовал другой подход. Классифицировал страницы в наборе данных, разделив их на три группы: топ-10, топ-20, топ-30.

Загрузив набор данных в Answerminer, я хотел выяснить, какой из показателей имеет самую высокую корреляцию с показателем «Позиция».

Оказалось, что показатель «Позиция» имеет сильную отрицательную корреляцию по Спирмену с показателем «Citation Flow — Majestic : Host».

При отрицательной корреляции низкие значения показателя «Позиция» соответствуют высоким значениям показателя «Citation Flow — Majestic: Host», что весьма логично.

Тут я сделаю две ремарки:
Во-первых, корреляция — это лишь сигнал о том, что между двумя признаками возможно существует причинно-следственная связь, но этой связи может и не быть.
Во-вторых, «Citation Flow — Majestic : Host» — одна из метрик потока Majestic, которая рассчитывается в соответствии с количеством веб-сайтов, ссылающихся на целевой URL (режим: Host).
В Orange я отсортировал показатели по релевантности. «Citation Flow — Majestic: Host» оказался вторым по релевантности в наборе данных после «Позиция».

Разница в средних значениях показателя «Citation Flow — Majestic: Host» между группами топ-10,топ-20, топ-30 статистически значима, т.е. не случайна. Среднее значение CF Majestic: Host для доменов финансово-кредитной тематики в топ-10 составляет 35, для топ-20 — 22, соответственно, а для топ-30 — всего 18.

Затем я загрузил мой набор данных в BigML, создал модель, обучил, оценил ее и выявил, что основным предиктором дерева решений (точка от которой начинают расходиться «ветки») также является показатель CF Majestic: Host.

В общем, для доменов финансово-кредитной тематики ссылки являются одним из определяющих факторов ранжирования.

Третьим по релевантности в наборе данных оказался показатель «Trust Flow — Majestic: Host».

Кстати, в модуле «Анализ ссылок» Serpstat есть схожая метрика — SDR (Serpstat Domain Rank). Принцип расчета показателя похож на Google Page Rank: числовой показатель зависит от того, сколько сайтов ссылаются на анализируемый домен + сколько сайтов ссылаются на сайты, ссылающиеся на анализируемый домен + сколько сайтов ссылаются на сайты, ссылающиеся на сайты, ссылающиеся на анализируемый домен — и так учитываются все сайты в индексе. Эту метрику можно получить и через API обратных ссылок.
Распределение страниц по показателю CF Majestic: Host в зависимости от позиции в поисковой выдаче.
Распределение страниц по показателю CF Majestic: Host в зависимости от позиции в поисковой выдаче.
На графике:
по горизонтали — значение позиции;
по вертикали — показатель метрики CF Majestic: Host;
размер элементов — показатель метрики TF — Majestic: Host.
Как видим, группа страниц из топ-10 имеет высокие показатели цитируемости (CF) и траста (TF).

Так что, не только количество ссылающихся доменов имеет значение, но и их качество. Что интересно, средний показатель TF — Majestic: Host для топ-10 составляет 27, что почти в два раза больше, чем у подгруппы топ-20 и топ-30.

Очень интересным мне показалось отличие между этими группами по показателю «Размер HTML» (количество символов в блоке <html>, включая HTML-теги). Сразу скажу, в моем наборе данных эти различия не статистически значимы (вероятно случайны).
На графике:
Распределение страниц по показателю CF Majestic: Host в зависимости от позиции в поисковой выдаче.
Распределение страниц по параметру «Размер HTML» в зависимости от позиции в поисковой выдаче.
На графике:
по горизонтали — показатели позиции;
по вертикали и в размере элементов — значение показателя «Размер HTML».
Как видно на графике, «Размер HTML» у многих YMYL-страниц финансово-кредитной тематики из топ-10 значительно больше, чему YMYL-страниц из топ-20/30.

Вернемся к нашему показателю CF Majestic: Host.

Обученная в BigML модель говорит о том, что если значение CF Majestic: Host больше 32, и ключевое слово не содержит слово «паспорту», ваш URL с 99,9% уровнем уверенности попадет в топ-10.

Чем хорошо машинное обучение, так это тем, что с его помощью можно рассмотреть несколько сценариев.
Распределение страниц по показателю CF Majestic: Host в зависимости от позиции в поисковой выдаче.
Модель дерева решений, созданная с использованием алгоритмов машинного обучения.
Почти с таким же высоким уровнем уверенности можно прогнозировать, что страница попадет в топ-10, если:
CF Majestic: Host будет меньше 32, но…
Title не будет содержать слово «РКО» (расчетно-кассовое обслуживание).
Длина Description от 101 до 205 символов.
Внутренних ссылок больше 90.
Количество слов в <p> меньше 2174.
Запрос не должен содержать слово «Паспорту».
Распределение страниц по показателю CF Majestic: Host в зависимости от позиции в поисковой выдаче.
Анализ тем страниц YMYL-страниц финансово-кредитной тематики.
Основной контекст страниц финансово-кредитной тематики соотносятся с названиями банковских отделений, адресами их отделений, режимом работы и тому подобное.

На графике видно, что одной из самых востребованных тематик также является «Займ, срочно».

Если кто-то забыл, напоминаю, что Google использует специальный алгоритм для тестирования подобных запросов на спам. Страницы с контекстом содержимого «Займ, срочно» изначально рассматриваются, как подозрительные.

Давайте сравним облако слов из Title, Description, H1 страниц из топ-10 и страниц из топ-30.
Распределение страниц по показателю CF Majestic: Host в зависимости от позиции в поисковой выдаче.
Сравнение «Облаков слов» страниц из топ-10 и топ-30.
Чем больше слово в облаке слов, тем чаще оно упоминается в Title, Description и H1.

Не знаю, как вам, но мне тематика страниц из топ-10 кажется более сбалансированной и менее спамной.

Также обратите внимание на то, что на страницах из топ-30, ключевые слова в Title, Description и H1 упоминаются чаще (их размер на Рис.4 больше), чем на страницах из топ-10.

В связи с этим, меня заинтересовал показатель «Конкуренция», который используется в Serpstat для целей PPC. Он показывается по шкале от 0 до 100%. Чем больше доменов использую данную фразу в объявлениях, тем выше конкуренция.

Давайте посмотрим на уровень конкуренции между нашими группами интернет-страниц.
Распределение страниц по показателю CF Majestic: Host в зависимости от позиции в поисковой выдаче.
Сравнение уровня конкуренции.
На графике мы видим, что показатель конкуренции для страниц из топ-10 меньше, чем для страниц из топ-20 и топ-30. Это подтверждается визуализацией на предыдущем графике.

Причем разница в уровне конкуренции между страницами из топ-10 и страницами из топ-20/30 статистически значима (неслучайна).

Экстраполируя определение показателя «Конкуренция» для страницы, можно предположить, что на страницах из топ-20/30 в моем наборе данных может быть «переспам» ключевыми словами в Title, Description и H1.

Обратите внимание, что мое допущение о показателе «Конкуренция» и «переспаме» — это предположение и вы просто примите это к сведению.
Выводы
1
Для этой тематики определяющим фактором является количество (CF Majestic >32) и качество (TF Majestic >28) реферальных (ссылающихся) доменов.
2
Страницы, в Title которых есть слово «РКО» и ключевой запрос на которых содержит слово «паспорту», сложнее попадают в топ-10.
3
Дальнейшее продвижение страниц из топ-20/30 в топ-10 может сдерживаться вероятным переспамом ключевых слов в Title, Dtscription и H1.
4
Страницы с количеством слов до 2200 имеют более высокие шансы пробиться в топ-10, чем страницы с большим количеством слов.
Анастасия Сотула
Редактор блога Serpstat
Вот и все! Пишите свое мнение в комментариях к статье и предлагайте редактору новые темы: с вас — идея и анализ результатов, с нас — данные!

Моя почта: a.sotula@serpstat.com. До связи ;)
Чтобы быть в курсе всех новостей блога Serpstat, подписывайтесь рассылку. А также вступайте в чат любителей Серпстатить и подписывайтесь на наш канал в Telegram.

Сэкономьте время на изучении Serpstat

Хотите получить персональную демонстрацию сервиса, тестовый период или эффективные кейсы использования Serpstat?

Оставьте заявку и мы свяжемся с вами ;)

Мнение авторов гостевого поста может не совпадать с позицией редакции и специалистов компании Serpstat.

Оцените статью по 5-бальной шкале

4.08 из 5 на основе 25 оценок
Нашли ошибку? Выделите её и нажмите Ctrl + Enter, чтобы сообщить нам.