Начните искать ключевые слова

Используйте Serpstat, чтобы находить лучшие ключи

SEO, 24 апреля 2019 | 18301 140 2 | Читать 12 минут – Прочитать позже

Как не расходовать зря краулинговый бюджет

Или как оптимизировать страницы фильтров на сайте интернет-магазина

Как не расходовать зря краулинговый бюджет или как оптимизировать страницы фильтров на сайте 16261788262656

Надежда Кищенко

Интернет-маркетолог в LUXEO

SEO-специалисты часто оставляют краулинговый бюджет без внимания. Если вы владелец или оптимизатор небольшого веб-сайта, то беспокоиться незачем. Однако если у вас объемный проект, то заниматься оптимизацией краулингового бюджета необходимо. В этой статье я расскажу о способах его оптимизации.

Содержание

1. Что такое краулинговый бюджет и как его определить?
2. Как использовать на практике эти данные?
3. Как управлять краулинговым бюджетом?
4. Почему нужно оптимизировать фильтры?
5. Как закрыть страницы от индексации?
6. Выводы

Что такое краулинговый бюджет и как его определить?

Краулинговый спрос и краулинговый бюджет: в чем разница?

В связи со сканированием URL сайта существует два показателя:

Краулинговый спрос — это определенное количество URL, которые Google намеревается просканировать на веб-ресурсе.

Краулинговый бюджет — это лимит страниц сайта, которые поисковый паук сможет обойти за какую-то единицу времени. Иногда робот просто не способен обойти все страницы за один раз, поэтому нужно принимать меры для оптимизации этого показателя.

Почему это важно?

Если поисковый робот при сканировании не может обойти все страницы, то они просто не попадут в индекс. Частый случай, когда в индекс попадают «мусорные» или неприоритетные страницы. Например, частотный кластер «Золотые кольца для мужчин» не попадает в индекс, а кластер с нулевой частотностью «Золотые кольца для мужчин с единорогом» — попал.

Какой у вас краулинговый бюджет

Краулинговый бюджет у каждого веб-сайта отличается. Посмотреть свой краулинговый бюджет вы можете в Google Search Console. Как видим на скрине, ориентировочный краулинговый бюджет данного сайта равен 219 страницам в сутки.

Краулинговый бюджет может меняться, как в большую, так и меньшую сторону. Но все равно вы сможете приблизительно сориентироваться. Если вам нужны точные данные, то нужно анализировать серверные логи.

Как использовать на практике эти данные?

Рассмотрим пример интернет-магазина с большим количеством категорий/подкатегорий и широким набором фильтров.

Важно, чтобы в индекс попали все приоритетные посадочные страницы. В противном случае вы будете терять целевых посетителей из органики, которые могли бы стать вашими клиентами.

У крупных проектов наиболее часто встречаются две ошибки индексации:

индексация мусорных страниц;

расходование краулингового бюджета на неприоритетные и неэффективные страницы.

Например, ваша CMS генерирует много мусорных URL, которые попадают в sitemap, а потом в индекс. Это влечет за собой ряд негативных последствий: мало того, что вы зря расходуете краулинговый бюджет на подобные URL, но еще и ваш краулинговый бюджет может сократиться, так как бот оценивает качество URL.

Или второй пример: для любого интернет-магазина важна удобная фильтрация. Для этого создаются фильтры, которые формируют множество комбинаций. Чтобы увидеть, какое количество страниц создается из-за комбинаций фильтров возьмем пример из интернет-магазина косметики — страница Крем для лица.

Составляем такую табличку: список названий и значений фильтров (на картинке только бренды на букву А).

заранее узнаем, какие вопросы возникают у SaaS'еров

Видно, что только на одной странице категории создается огромное количество уникальных комбинаций фильтров. Представьте, сколько неэффективных страниц может попасть в индекс, если этим не управлять.

Наличие многообразия фильтров удобно для пользователей, но перегружает робота неэффективными URL. Для продвижения сайта нечастотные кластера также не несут никакой пользы. А краулинговый бюджет на такие страницы расходуется.

Как управлять краулинговым бюджетом?

Если вы уже успели расстроиться, то подождите — не нужно отчаиваться. Краулинговым бюджетом можно и нужно управлять. Однако, нужно учесть несколько важных факторов:

Грамотная настройка sitemap и robots.txt

Эти файлы важны для сканирования сайта. Они сообщают боту организацию контента, помогают находить свежий контент.

Блокируйте мусорные страницы в robots.txt, не допускайте их попадания в карту сайта. В sitemap должны попадать только полезные страницы, освобождайте ее от мусора, URL с редиректами, canonical, ошибками сканирования.

Не забывайте указывать в карте сайта last-modified, чтобы избежать повторного сканирования страниц, которые не менялись после того, как ее просканировали. Это также позволит не растрачивать впустую краулинговый бюджет, Google бот пойдет дальше по измененным или новым страницам. Так он сможет проиндексировать новые страницы, а не заходить на те, которые уже ранее сканировал.

Скорость загрузки страниц сайта

При улучшении скорости загрузки веб-сайта увеличивается также и скорость его сканирования ботом. Веб-краулер за одинаковое число соединений сможет просканировать больше.

Избавьтесь от необоснованно длинных цепочек переиндексации

Если краулер должен пройти длинную цепочку переадресаций, чтобы добраться до какого-то URL, то он может просто до него не дойти.
Кроме этого, каждое перенаправление — это потеря краулингового бюджета. Проверяйте на своем сайте цепочки редиректов, анализируйте их необходимость, в идеале избавляйтесь от них.

Динамический рендеринг

Это современная технология, которая способна облегчить сканирование, попадание в индекс и ранжирование javaScript страниц. С помощью этого метода вы сможете предоставлять боту Google html-версию, а пользователю при этом показывать javaScript-версию страниц.

Согласно Google, не все краулеры способны быстро и благополучно обрабатывать javaSсript. Конечно, нам все обещают, что этот вопрос будет решен, но на сегодня Google рекомендует применять именно динамический рендеринг.

Сайты на JavaScript-движках: стоит ли игра свеч?

Как это работает?

Нужно, чтобы сервер определял краулер. Запросы от краулеров будут передаваться рендереру, а от пользователей — обрабатываться в обычном режиме. При необходимости динамического рендеринга будет предоставляться версия контента, которая подобрана для определенного краулера. Например, для бота показываем статическую HTML-версию.

Динамический рендеринг можно настроить на всех URL сайта или на определенных. Так вы сможете облегчить боту сканирование страниц вашего сайта. Он не будет тратить лишние ресурсы на загрузку всех деталей, а сразу получит HTML-версию. Как пошагово внедрить рендеринг на сайте читайте в статье блога Google.

Пагинация

Часто страницы пагинации также «съедают» большую долю краулингового бюджета. Например, у крупных интернет-магазинов могут быть сотни страниц пагинации. Их нужно тоже оптимизировать, чтобы не расходовать зря краулинговый бюджет.

Например, проведя анализ Search Console можно увидеть, что по страницам пагинации робот продолжает ходить, несмотря на тег noindex, тратя на ненужные страницы краулинговый бюджет.

Почему нужно оптимизировать фильтры?

Кроме «мусорных» страниц, которые формируются CMS, URL с ошибками сканирования и прочими, которые вы уже исключили из карты сайта, нужно еще детально поработать с фильтрами. В крупных интернет-магазинах существует огромное количество комбинаций фильтров. Не каждый такой кластер имеет частотность и может принести трафик, но на такие страницы также расходуется краулинговый бюджет.

В своей практике мы часто наблюдаем такие ситуации, когда в индексе находятся страницы с нечастотными комбинациями фильтров, со страницами без товаров и т.д. В то же время, частотные кластеры не попадают в индекс, из-за чего теряется ценный трафик.

Как правильно проработать фильтры?

Тщательная проработка фильтров требует усилий и времени. Поэтому, чтобы не терять время, изначально мы настраиваем фильтры по стандартной схеме.

Первичная оптимизация фильтров

Когда фильтры оставляем открытыми:

если выбран один фильтр из блока фильтров:

Как не расходовать зря краулинговый бюджет или как оптимизировать страницы фильтров на сайте 16261788262662

если выбраны по одному фильтру из двух разных блоков:

Как не расходовать зря краулинговый бюджет или как оптимизировать страницы фильтров на сайте 16261788262663

Какие комбинации фильтров закрываем от индексации:

если выбрано два и больше фильтра одного блока фильтров:

Если выбрано два и больше фильтров разных блоков фильтров

Как не расходовать зря краулинговый бюджет или как оптимизировать страницы фильтров на сайте 16261788262664

Конечно же, не забываем настроить шаблоны метатегов для страниц фильтрации.

Для первичной оптимизации фильтров этого достаточно. Но этот способ не самый эффективный, так как некоторые важные комбинации оказывались закрытыми, а ненужные попадали в индекс.

Детальная проработка фильтров

Дальше нужно определить частотные кластеры отсеять неэффективные. Если у вас небольшой интернет-магазин, то можно собрать и кластеризировать семантику. Но если у вас крупный проект с миллионами страниц, то собирать семантику можно несколько лет. Можно поступить проще.

Основные алгоритмы кластеризации ключевых запросов

Выписываем фильтры, перемножаем их между собой и получаем всевозможные комбинации фильтров в рассматриваемом случае.

По частотности кластера можно понять важный он для продвижения или нет:

Если частотность 0, то убираем этот URL из карты сайта и закрываем от бота.

Если частотность есть, но нет товаров, то такая страница тоже является неинформативной. Нужно работать над ее наполнением или тоже удалять из карты сайта и закрывать от бота.

Так вы оставите для краулера только те URL, которые действительно должны попасть в индекс и смогут принести пользу бизнесу.

Как закрыть страницы от индексации?

Существует несколько способов закрытия страниц от индексации.

Закрытие с помощью nofollow.

Это самый популярный среди оптимизаторов и простой метод. Но тут есть несколько нюансов. Гэри Илш, сотрудник Google, поясняет, что любой сканируемый URL будет оказывать влияние на краулинговый бюджет. Даже если указана директива nofollow, страница может сканироваться, когда на любой другой странице в сети данная ссылка не указана, как nofollow. Это подтвердила и наша практика.

Мы проанализировали серверные логи сайтов и увидели, что страницы с nofollow Google бот успешно индексирует. Поэтому данный способ, хоть и является самым популярным, но не дает 100% гарантии закрытия страниц от краулера.

Post Get Redirect

Это простой, но эффективный метод закрытия ссылок на сайте от поисковых систем. Эта техника описана в Википедии

Суть метода заключается в следующем:

Post передаем ссылку серверу;

Redirect браузер получает от коннектора с сервера URL;

Get браузер запрашивает данные новой страницы.

Post-запросы нужны для отправки форм на сервер, при этом веб-пауки самостоятельно не переходят и не отправляют их. Это отличный способ оптимизации ссылок на сайте, чтобы эти ссылки были абсолютно недоступными для поисковых систем.

Преимущество этого способа состоит в том, кто не тратится краулинговый бюджет, как в случаем с nofollow. Ссылки будут закрыты от поисковых систем на 100%.

Недостаток — переход по такому URL будет медленней, чем обычный переход по ссылке.

SEOhide

Это более старый метод закрытия ссылок от поисковой системы. Суть метода заключается в том, чтобы скрыть в коде страницы ссылку, но в то же время оставить ее работающей. Так вы сможете скрыть ненужный контент от поисковиков.

Вы запрещаете боту доступ к файлу *.js, в котором хранится исполняемый код и скрываемый контент, вдобавок закодированный стандартом Base64. Причем в HTML-коде вы также не увидите URL-адреса. В таком случае браузеры смогут исполнять код, а Google — нет.

Но с этим методом нужно быть аккуратным, использовать для улучшения сайта, а не для манипуляций с поисковой системой. Иначе, могут быть санкции, так как по сути это клоакинг. Часто не автоматические, а по «стуку» конкурентов или по оценке асессоров.

Выводы

В заключение подведем общие итоги:

Если вы владелец крупного интернет магазина, то обязательно нужно уделить внимание оптимизации краулингового бюджета.

Грамотно настраивайте файлы Sitemap и Robots, прорабатывайте страницы с ошибками сервера, оптимизируйте страницы пагинации.

Оптимизируйте страницы фильтров, так как это частая ошибка владельцев интернет сайтов. Это поможет Google боту сканировать только важные страницы вашего сайта, чтобы он не тратил свое время на мусорные и неэффективные URL. Также это обеспечит попадание в индекс важных с точки зрения продвижения страницы.

А, чтобы не пропустить новости нашего сервиса, присоединяйтесь к Чату любителей серпстатить и подписывайтесь на наш телеграм-канал!

Serpstat — набор инструментов для поискового маркетинга!

Находите ключевые фразы и площадки для обратных ссылок, анализируйте SEO-стратегии конкурентов, ежедневно отслеживайте позиции в выдаче, исправляйте SEO-ошибки и управляйте SEO-командами.

Набор инструментов для экономии времени на выполнение SEO-задач.

7 дней бесплатно

Оцените статью по 5-бальной шкале

4.5 из 5 на основе 22 оценок

Нашли ошибку? Выделите её и нажмите Ctrl + Enter, чтобы сообщить нам.

Используйте лучшие SEO инструменты

Проверка обратных ссылок

Быстрая проверка обратных ссылок вашего сайта и конкурентов

API для SEO

Получите быстро большие объемы данных используя SЕО API

Анализ конкурентов

Сделайте полный анализ сайтов конкурентов для SEO и PPC

Мониторинг позиций

Отслеживайте изменение ранжирования запросов используя мониторинг позиций ключей