Войти Регистрация

Serpstat использует файлы cookie для обеспечения работоспособности сервиса, улучшения навигации, предоставления возможности связаться с командой поддержки, а также маркетинговых активностей Serpstat.

Нажав кнопку "Принять и продолжить", вы соглашаетесь с Политикой конфиденциальности

Сообщить об ошибке

Отменить
1995 42 4
SEO Читать 12 минут 9 июля 2020

Как Google ранжирует сайты в тематике
«Финансы» — исследование

Как Google ранжирует сайты в тематике  «Финансы» — исследование
Вячеслав Вареня
Вячеслав Вареня
Google Product Expert и автор канала
SEO inside
В свете последних Google Core Update-ов мы все чаще замечаем, что страдают сайты YMYL-страницы, а «наказывает» поисковик их за несоответствие параметрам E-A-T. Стало понятно, что нужно уделять больше внимания качеству контента, повышать авторитет и доверие к сайту. Но что же еще?

Я решил провести собственное исследование на примере финансово-кредитной тематики, чтобы понять, как Google классифицирует YMYL-сайты и какие показатели влияют на распределение страниц в топ-30.
Disclaimer: все сформулированные выводы и выявленные закономерности основаны на данных моей выборки. Мои результаты могут отличаться от результатов других экспертов. Все написанное носит рекомендательный характер.
Об исследовании
В последние годы в лексикон вебмастера прочно вошли такие термины, как «E-A-T» и «YMYL».

Напоминаю, что YMYL — это страницы общественно значимых тематик, таких как новости, финансы, медицина, покупки и так далее.

Что касается E-A-T — это набор критериев для оценки качества страницы и расшифровывается эта аббревиатура как Экспертиза, Авторитет, Доверие (Надежность).

Меня эта тема очень интересует и недавно я опубликовал исследование «Как Google классифицирует YMYL сайты». Исследование было проведено на выборке интернет-страниц сайтов медицинской тематики.

Результаты оказались настолько интересными, что в комментариях и в социальных сетях меня начали просить провести такое же исследование для других тематик. Один из веб-мастеров даже список сайтов финансово-кредитной тематики прислал, за что ему огромное спасибо.

В этой статье я расскажу, как при помощи Serpstat и других SEO-инструментов я провел исследование YMYL-страниц финансово-кредитной тематики, чтобы определить, какие факторы влияют на их ранжирование.
Цель исследования
Изучение качественных характеристик интернет страниц и выявление общих закономерностей, которые могут быть присущи при продвижении сайтов финансово-кредитной тематики.
Методология
По 87 доменам финансово-кредитной тематики собраны запросы и страницы из топ-30 поисковой выдачи Google. При помощи интеллектуального анализа данных и машинного обучения были выявлены основные критерии (показатели), которые больше всего влияют при продвижении сайтов финансово-кредитной тематики. Первоначальная выборка составила 15013 страниц. После очистки и форматирования данных окончательный объем выборки составил 10830 интернет-страниц.
Теперь подробнее по шагам
Используя выборку из 87 доменов финансово-кредитной тематики, мы собрали список страниц этих доменов и ключевиков, по которым они ранжируются в топ-30 выдачи. Для каждого URL получили также позиции, показатели трафика и ключевые фразы. Чтобы собрать эти данные, мы использовали API-Консоль Serpstat.
1
Заходим в API Консоль и вводим свой токен из профиля Serpstat в соответствующее поле.
2
Выбираем поисковую систему и регион. В нашем случае это Google Russia (при необходимости для поиска можно воспользоваться подсказкой сбоку).
3
Выбираем API метод. В нашем случае это Domain Keywords (да, выше мы писали, что собираем топ-30 URL и данные по ним, но чуть ниже вы поймете, почему именно этот метод).
4
В Queries вводим свой запрос. У нас — список из 87 доменов финансово-кредитной тематики.
5
В Position выставляем позиции от 1 до 30.
6
Загружаем данные (это может занять некоторое время, у меня ушло около 30 сек).
Получаем такую табличку, но это еще не все.
Переходим на вкладку SQL и выбираем «SQL Snippets→ Group by URL→ Value SQL».
Группировка данных таким образом позволит сэкономить API-лимиты. В конечном результате мы получаем такой список URL по доменам из топ-30 (15013 страниц).
Данные можно быстро выгрузить для более комфортной работы. Вот результат, который получчился у нас (пример 50 URL из 15К полученных).
Хотите узнать, как использовать API Serpstat для автоматизации
рутинных задач?

Заказывайте бесплатную персональную демонстрацию сервиса, и наши специалисты вам все расскажут! ;)
Для анализа факторов ранжирования YMYL-сайтов собираем дополнительные параметры. При помощи Netpeak Spider по каждому URL были собраны On-Page показатели.

Используя интеграцию API Majestic и Netpeak Checker получены показатели метрик Majestic для домена и страницы.

Всего в наборе данных мы получили 41 параметр для анализа факторов ранжирования YMYL-страниц. Естественно, что такой объем данных невозможно проанализировать вручную. Поэтому без автоматизации процессов анализа тут не обойтись.

Вот несколько инструментов, которые будут полезны для таких задач:
Инструмент Answerminer использовался для определения корреляции между показателями набора данных.
Программное обеспечение Orange использовалось для интеллектуального анализа данных.
BigML для машинного обучения. Эти инструменты бесплатные.
Между настоящим и будущим: как искусственный интеллект меняет SEO
Ход исследования
Я загрузил свой набор данных в Orange. Планировал кластеризовать данные при помощи метода k-means и надеялся, что полученные кластеры дадут «пищу» для анализа. К сожалению, обучение данных без учителя (кластеризация), не дало мне той информации, на основе которой, можно сделать какие-то выводы.

Учитывая это, я использовал другой подход. Классифицировал страницы в наборе данных, разделив их на три группы: топ-10, топ-20, топ-30.

Загрузив набор данных в Answerminer, я хотел выяснить, какой из показателей имеет самую высокую корреляцию с показателем «Позиция».

Оказалось, что показатель «Позиция» имеет сильную отрицательную корреляцию по Спирмену с показателем «Citation Flow — Majestic : Host».

При отрицательной корреляции низкие значения показателя «Позиция» соответствуют высоким значениям показателя «Citation Flow — Majestic: Host», что весьма логично.

Тут я сделаю две ремарки:
Во-первых, корреляция — это лишь сигнал о том, что между двумя признаками возможно существует причинно-следственная связь, но этой связи может и не быть.
Во-вторых, «Citation Flow — Majestic : Host» — одна из метрик потока Majestic, которая рассчитывается в соответствии с количеством веб-сайтов, ссылающихся на целевой URL (режим: Host).
В Orange я отсортировал показатели по релевантности. «Citation Flow — Majestic: Host» оказался вторым по релевантности в наборе данных после «Позиция».

Разница в средних значениях показателя «Citation Flow — Majestic: Host» между группами топ-10,топ-20, топ-30 статистически значима, т.е. не случайна. Среднее значение CF Majestic: Host для доменов финансово-кредитной тематики в топ-10 составляет 35, для топ-20 — 22, соответственно, а для топ-30 — всего 18.

Затем я загрузил мой набор данных в BigML, создал модель, обучил, оценил ее и выявил, что основным предиктором дерева решений (точка от которой начинают расходиться «ветки») также является показатель CF Majestic: Host.

В общем, для доменов финансово-кредитной тематики ссылки являются одним из определяющих факторов ранжирования.

Третьим по релевантности в наборе данных оказался показатель «Trust Flow — Majestic: Host».

Кстати, в модуле «Анализ ссылок» Serpstat есть схожая метрика — SDR (Serpstat Domain Rank). Принцип расчета показателя похож на Google Page Rank: числовой показатель зависит от того, сколько сайтов ссылаются на анализируемый домен + сколько сайтов ссылаются на сайты, ссылающиеся на анализируемый домен + сколько сайтов ссылаются на сайты, ссылающиеся на сайты, ссылающиеся на анализируемый домен — и так учитываются все сайты в индексе. Эту метрику можно получить и через API обратных ссылок.
Распределение страниц по показателю CF Majestic: Host в зависимости от позиции в поисковой выдаче.
Распределение страниц по показателю CF Majestic: Host в зависимости от позиции в поисковой выдаче.
На графике:
по горизонтали — значение позиции;
по вертикали — показатель метрики CF Majestic: Host;
размер элементов — показатель метрики TF — Majestic: Host.
Как видим, группа страниц из топ-10 имеет высокие показатели цитируемости (CF) и траста (TF).

Так что, не только количество ссылающихся доменов имеет значение, но и их качество. Что интересно, средний показатель TF — Majestic: Host для топ-10 составляет 27, что почти в два раза больше, чем у подгруппы топ-20 и топ-30.

Очень интересным мне показалось отличие между этими группами по показателю «Размер HTML» (количество символов в блоке <html>, включая HTML-теги). Сразу скажу, в моем наборе данных эти различия не статистически значимы (вероятно случайны).
На графике:
Распределение страниц по показателю CF Majestic: Host в зависимости от позиции в поисковой выдаче.
Распределение страниц по параметру «Размер HTML» в зависимости от позиции в поисковой выдаче.
На графике:
по горизонтали — показатели позиции;
по вертикали и в размере элементов — значение показателя «Размер HTML».
Как видно на графике, «Размер HTML» у многих YMYL-страниц финансово-кредитной тематики из топ-10 значительно больше, чему YMYL-страниц из топ-20/30.

Вернемся к нашему показателю CF Majestic: Host.

Обученная в BigML модель говорит о том, что если значение CF Majestic: Host больше 32, и ключевое слово не содержит слово «паспорту», ваш URL с 99,9% уровнем уверенности попадет в топ-10.

Чем хорошо машинное обучение, так это тем, что с его помощью можно рассмотреть несколько сценариев.
Распределение страниц по показателю CF Majestic: Host в зависимости от позиции в поисковой выдаче.
Модель дерева решений, созданная с использованием алгоритмов машинного обучения.
Почти с таким же высоким уровнем уверенности можно прогнозировать, что страница попадет в топ-10, если:
CF Majestic: Host будет меньше 32, но…
Title не будет содержать слово «РКО» (расчетно-кассовое обслуживание).
Длина Description от 101 до 205 символов.
Внутренних ссылок больше 90.
Количество слов в <p> меньше 2174.
Запрос не должен содержать слово «Паспорту».
Распределение страниц по показателю CF Majestic: Host в зависимости от позиции в поисковой выдаче.
Анализ тем страниц YMYL-страниц финансово-кредитной тематики.
Основной контекст страниц финансово-кредитной тематики соотносятся с названиями банковских отделений, адресами их отделений, режимом работы и тому подобное.

На графике видно, что одной из самых востребованных тематик также является «Займ, срочно».

Если кто-то забыл, напоминаю, что Google использует специальный алгоритм для тестирования подобных запросов на спам. Страницы с контекстом содержимого «Займ, срочно» изначально рассматриваются, как подозрительные.

Давайте сравним облако слов из Title, Description, H1 страниц из топ-10 и страниц из топ-30.
Распределение страниц по показателю CF Majestic: Host в зависимости от позиции в поисковой выдаче.
Сравнение «Облаков слов» страниц из топ-10 и топ-30.
Чем больше слово в облаке слов, тем чаще оно упоминается в Title, Description и H1.

Не знаю, как вам, но мне тематика страниц из топ-10 кажется более сбалансированной и менее спамной.

Также обратите внимание на то, что на страницах из топ-30, ключевые слова в Title, Description и H1 упоминаются чаще (их размер на Рис.4 больше), чем на страницах из топ-10.

В связи с этим, меня заинтересовал показатель «Конкуренция», который используется в Serpstat для целей PPC. Он показывается по шкале от 0 до 100%. Чем больше доменов использую данную фразу в объявлениях, тем выше конкуренция.

Давайте посмотрим на уровень конкуренции между нашими группами интернет-страниц.
Распределение страниц по показателю CF Majestic: Host в зависимости от позиции в поисковой выдаче.
Сравнение уровня конкуренции.
На графике мы видим, что показатель конкуренции для страниц из топ-10 меньше, чем для страниц из топ-20 и топ-30. Это подтверждается визуализацией на предыдущем графике.

Причем разница в уровне конкуренции между страницами из топ-10 и страницами из топ-20/30 статистически значима (неслучайна).

Экстраполируя определение показателя «Конкуренция» для страницы, можно предположить, что на страницах из топ-20/30 в моем наборе данных может быть «переспам» ключевыми словами в Title, Description и H1.

Обратите внимание, что мое допущение о показателе «Конкуренция» и «переспаме» — это предположение и вы просто примите это к сведению.
Выводы
1
Для этой тематики определяющим фактором является количество (CF Majestic >32) и качество (TF Majestic >28) реферальных (ссылающихся) доменов.
2
Страницы, в Title которых есть слово «РКО» и ключевой запрос на которых содержит слово «паспорту», сложнее попадают в топ-10.
3
Дальнейшее продвижение страниц из топ-20/30 в топ-10 может сдерживаться вероятным переспамом ключевых слов в Title, Dtscription и H1.
4
Страницы с количеством слов до 2200 имеют более высокие шансы пробиться в топ-10, чем страницы с большим количеством слов.
Анастасия Сотула
Редактор блога Serpstat
Вот и все! Пишите свое мнение в комментариях к статье и предлагайте редактору новые темы: с вас — идея и анализ результатов, с нас — данные!

Моя почта: a.sotula@serpstat.com. До связи ;)
Чтобы быть в курсе всех новостей блога Serpstat, подписывайтесь рассылку. А также вступайте в чат любителей Серпстатить и подписывайтесь на наш канал в Telegram.

Сэкономьте время на изучении Serpstat

Хотите получить персональную демонстрацию сервиса, тестовый период или эффективные кейсы использования Serpstat?

Оставьте заявку и мы свяжемся с вами ;)

Мнение авторов гостевого поста может не совпадать с позицией редакции и специалистов компании Serpstat.

Оцените статью по 5-бальной шкале

4.14 из 5 на основе 18 оценок
Нашли ошибку? Выделите её и нажмите Ctrl + Enter, чтобы сообщить нам.

Поделитесь статьей с вашими друзьями

Войти Регистрация

Вы исчерпали лимит запросов.

Или email
Забыли пароль?
Или email
Optional
Back To Login

Не волнуйтесь! Напишите свой электронный адрес и мы пришлем вам новый пароль.

Вы уверены?

Awesome!

To complete your registration you need to enter your phone number

Назад

Мы отправили код подтверждения на ваш номер телефона

Your phone Resend code Осталось запросов

Что-то пошло не так.

Свяжитесь с нашей службой поддержки
Или подтвердите регистрацию с помощью Телеграм бота Перейдите по этой ссылке
Выберите один из проектов

Знакомство с сервисом

Ознакомьтесь с основными возможностями Serpstat удобным способом!

Отправьте заявку для ознакомления с сервисом и мы свяжемся с вами в кратчайшие сроки. Наш специалист предложит подходящий вариант, который может включать персональную демонстрацию, пробный период, материалы для обучения и повышения экспертизы, личную консультацию, а также комфортные условия для начала работы с Serpstat.

Имя

Email

Телефон

Будем рады вашему комментарию
Увеличить лимиты

Улучшить тариф

Экспорт недоступен для вашего тарифного плана. Вам необходимо улучшить свой тариф до Lite или выше, чтобы получить доступ к инструменту Подробнее

Зарегистрироваться

Спасибо, мы с вами свяжемся в ближайшее время

Пригласить
Просмотр Редактирование

E-mail
Сообщение
необязательно
E-mail
Сообщение
необязательно

У вас закончились лимиты

Вы достигли лимита на количество созданных проектов и больше не можете создавать новые проекты. Увеличьте лимиты или удалите существующие проекты.

Я хочу больше лимитов