20 января 2017

Фантастические ошибки сайта и где они обитают


Анатолий Бондаренко
SEO Classifieds Specialist в Netpeak
При оптимизации сайтов многие новички часто допускают технические ошибки, которые не позволяют эффективно продвинуть проект. Как результат — некоторые страницы не индексируются в поисковых системах или того хуже — сайт полностью попадает под фильтр.
Чтобы этого не произошло, нужно быстро находить и устранять такие ошибки. Как именно это сделать, на что обращать внимание и каким шагам следовать на примере сервиса Serpstat расскажет Толя Бондаренко — SEO-специалист из Netpeak.

Ну что ж, не буду вас томить, начнем ;)
1

Проверяем файл robots.txt

Robot.txt — это файл-рекомендация для роботов поисковых систем, который должен указывать, что нужно сканировать, а что нельзя. Находится он по адресу site.com/robots.txt (вместо site.com впишите название любого сайта).

Запомните, robots.txt — это всего лишь рекомендация, то есть поисковые системы могут игнорировать его — индексировать и сканировать запрещенные страницы. Тем не менее, файл все равно должен быть правильно составлен.

1.1. Что должно быть в robots.txt?

Советую включить в файл robots.txt для рабочего сайта следующее:

User-agent: *
Allow: /
Host: site.com
Sitemap: http://site.com/sitemap/

А для тестового сайта вот что :

User-agent: *
Disallow: /
Host: site.com

Разбираем:

  • User-agent: * — говорит о том, что последующие рекомендации относятся ко всем роботам поисковых систем. Я рекомендую писать именно так, потому что скрывать будем страницы с админ-панелью, с оплатой, корзину и т.д., то есть все те страницы, которые не должны видеть роботы популярных поисковиков.

  • Allow: / — говорит о том, что мы разрешили сканировать всё!
Шучу, не всё ;) Есть другой способ, с помощью которых можно скрыть некоторые страницы от индексирования работами. О нем скажу чуть позже.

  • Host: site.com — используется для указания поисковой системе основного зеркала сайта. Все просто: вписываем полный адрес нашего сайта. Если он на https, указываем сайт с https, если с www, вписываем сайт с www.

  • Sitemap: http://site.com/sitemap/ — это путь к карте сайта.

Существует и еще одна распространенная директива "Disallow". Однако, я не рекомендую ее использовать для рабочих сайтов, потому что поисковая система часто ее игнорирует.

1.2. Как закрыть страницу от сканирования?

Чтобы закрыть страницы регистрации и другие ненужные страницы используйте атрибут noindex. Он позволит вам брать из индекса страницу при следующем посещении поискового робота и передать ссылочный вес страницы.

Чтобы закрыть страницу от сканирования используйте атрибут noindex между тегом <head>:

<meta name="robots" content="noindex"> — если нужно закрыть от всех роботов поисковых систем

<meta name="googlebot" content="noindex"> — если нужно закрыть только от робота Google. Однако с Google есть свои нюансы, подробно изучите их в официальной справке.

Также можно использовать технологию SEOHide для всех ссылок, которые ведут на страницы, которые не должен видеть робот. Немного подробней об этой технологии написано ниже.

1.3. Какими бывают ошибки при составлении файла robot.txt?

Вот вариант неправильного составления robots.txt:

User-agent: *
Disallow: /
Host: site.com
Sitemap: http://site.com/sitemap/
В этом случае сайт будет полностью закрыт от сканирования.

И еще один пример:

User-agent: /
Allow: *
Host: site.com
Sitemap: http://site.com/sitemap/
В данном случае ничего страшного не произойдет, но лучше придерживаться правильного синтаксиса.

Проверить корректность настройки файла robots.txt можно в сервисе Google Search Console:
И в сервисе Яндекс.Вебмастер:
2

Смотрим редиректы

Редиректы — это способ перенаправления пользователей и поисковых систем c одного URL на другой. Бывают следующие варианты редиректов:

  • 301 — передает около 90-99% ссылочного веса. Данный редирект указывает, что страница перемещена по новому адресу и старый url следует считать устаревшим. Чаще всего используют этот вариант редиректа для смены домена, редизайна и т.д.

  • 302 — временный редирект. Раньше этот вариант редиректа не передавал Page Rank, но недавно появилась информация, что ссылочный вес тоже передается через 302 редирект.

  • Есть и другие редиректы, но они используются реже.

Что нужно смотреть:

2.1. Проверьте редиректы главной страницы

Для примера возьмем сайт https://www.olx.ua
Проверяем по следующей таблице:
Как видим, все варианты главной страницы перенаправляют на основную, так и должно быть.

Есть информация, что Google бот будет (если уже не делает так) сначала индексировать https версию сайта, затем все остальные. Поэтому советую учитывать это при выборе основного хоста.

2. 2. Проверьте, как поведет себя страница, если убрать слеш в конце

Если страницы заканчиваются слешем "/", нужно обязательно проверить, как будет себя вести страница, если убрать его.

Если страница со слешем не перенаправляет на ту же страницу без слеша или наоборот — это ошибка. Нужно выбрать один вариант, так как поисковые системы будут воспринимать это как две разные страницы, но с одинаковым контентом.

Пример:

http://prom.ua/Odezhda/ -> 301 редирект -> http://prom.ua/Odezhda

2.3. Поищите внутренние ссылки с несколькими слешами в конце

Случается, что в тексте внутренняя ссылка (ошибка при создании ссылки) имеет в конце два, три и более слеша:

site.com/cat1////

Если в таком случае не сработает редирект на корректный URL, это плохо. Значит, нужно написать программисту, чтобы сделал редирект на корректный URL.

2.4. Проверьте редирект со старых доменов и страниц

Они должны вести на релевантные страницы вашего нового сайта. Чаще всего, редиректы я ищу вручную, но перестраховываюсь, используя Serpstat. Здесь есть отдельный пункт аудита для проверки редиректов:
3

Работаем с исходящими ссылками

Если на сайте есть спамные исходящие ссылки, это может негативно сказаться на продвижении сайта. И наоборот, когда с одной страницы ведут много исходящих ссылок — это тоже не очень хорошо.

Однако нужно помнить, не все исходящие ссылки — это плохо. Например, если у вас информационный сайт и вы отрерайтили новость с другого источника и вставляете на нее ссылку, как на источник — это считается хорошим тоном, и это нормально. Просто следите за количеством исходящих ссылок и контролируйте их качество, с помощью того же Serpstat, например:
Если на сайте обнаружилось много исходящих ссылок, которые могут принести только вред сайту, их нужно срочно удалить. Если по каким-то причинам это не получается сделать, я использую два варианта решения:

3.1. Технология SEOHide

С помощью этой технологии можно минимизировать вероятность перехода робота по ссылке. Методика следующая:

1. Реализуем ссылку через js
2. Для надежности закрываем папку с js файлами в robots.txt (Disallow: /js/)
3. Все!

Со всем этим подходим к программисту ;) Примерно так будет выглядеть ссылка, созданная с помощью SEOHide:

<a hashstring="f45a6597fdf5f85a" hashtype="href">анкор</a>

3.2. Тег nofollow для ссылки

Если по каким-то причинам клиент не может/не хочет внедрять SEOHide, я использую тег nofollow для ссылки. Но тут есть свои минусы: уже доказано, что Google переходит по этим ссылкам и ссылочный вес утекает, но такой вариант решения лучше, чем просто ничего не делать =)

Пример закрытой от робота ссылки:
<a href="signin.php" rel="nofollow">Войти</a>
4

Ищем внутренние ссылки на несуществующие страницы

4.1. Как найти ссылки на несуществующие страницы?

Если на сайте есть такие ссылки, то по ним убегает внутренний Page Rank страницы ("важность" в глазах поисковиков) на другие страницы. Это может плохо сказаться на продвижении сайта.

Serpstat предоставляет отчет о наличии ссылок на несуществующие страницы:
4.2. Как оформить несуществующую страницу?
Также нужно правильно оформить страницу, которую видят пользователи, переходя на несуществующие страницы. Она должна быть оформлена так, чтобы пользователь мог перейти на главную и на основные разделы сайта.

Хороший пример:
Несуществующие страницы должны отдавать статус-код 404.

4.3. Как проверить какой код отдают несуществующие страницы?

Чтобы проверить какой код отдают несуществующие страницы, возьмите URL вашего сайта и допишите любую последовательность букв, например https://www.olx.ua/kdhlfj

Затем в консоли разработчика этой страницы на вкладке Network посмотрите status:
Важно отслеживать такие страницы, не забывайте о них ;) На сайте не должно быть ссылок, которые ведут на 404 страницу. Робот зря переходит по ним и напрасно расходует краулинговый бюджет (количество страниц, которые поисковый бот может обойти за конкретный временной период). А это время он бы мог потратить на сканирование более важных страниц.
5

Изучаем страницы пагинации

Если в какой-то категории на вашем сайте находится большое количество товаров, могут появиться страницы пагинации (порядковой нумерации страниц), на которых собраны все товары данной категории. Важно правильно их оптимизировать для разных поисковых систем:

5.1. Настраиваем rel="prev" и rel="next" для Google

Для поисковой системы Google нужно внедрить атрибуты next и prev на страницах пагинации:

На первой странице между тегами <head> должно быть:
<link rel="next" href="[ссылка на вторую страницу]" />

На второй, третьей и т.д. страницах должно быть так:
<link rel="prev" href="[ссылка на предыдущую страницу]" />
<link rel="next" href="[ссылка на следующую страницу]" />

На последней:
<link rel="prev" href="[ссылка на предыдущую страницу]" />

5.2. Настраиваем meta robots для Яндекса

В официальной справке Яндекса обозначено, что для страниц пагинации лучше использовать атрибут rel="canonical".

Для второй, третьей и дальнейших нумерациях этот атрибут необходимо сделать неканоническим((т. е. не индексируются и робот по ним не переходит), а в качестве канонического главного адреса (сканируется роботом) указывать первую страницу каталога — только она будет участвовать в результатах поиска.

Например, страница site.com/laptops/1 — каноническая , с неё начинается каталог. А страницы вида site.com/laptops/2 и site.com/laptops/3 — неканонические.

Выходит, что из-за canonical робот всегда будет переходить только на главную категорию. В этом есть смысл, если на неосновные страницы пагинации нет трафика из поисковых систем и их контент во многом идентичен.

Но если хотите, чтобы робот видел содержимое остальных страниц пагинации и переходил по ссылкам, которые есть на этих страницах, лучше использовать атрибут meta robots. Я делаю именно так ;)

Мой шаблон для страниц пагинации:


В <head> http://site.ru/category/
<link rel="next" href="http://site.ru/category/2/">

В <head> http://site.ru/category/2/
<link rel="prev" href="http://site.ru/category/">
<link rel="next" href="http://site.ru/category/3/">
<meta name="yandex" content="noindex, follow"/>
6

Проверяем дубли страниц

Дублирующие страницы — это страницы с одинаковым контентом. Чем чреваты дубли?

  • Ухудшается индексация сайта
  • Распыляется ссылочный вес
  • Изменяется релевантная страница в поисковой выдаче
  • Возникает вероятность фильтра от поисковых систем
Дубли необходимо оперативно выявлять и удалять.

6.1. Как искать дубли страниц?

Простой метод отыскать дубли — это найти дублирующиеся мета-теги и по этим страницам смотреть контент. Если он одинаков, это дубли, которые нужно устранить. Ищем дубли с помощью специальных сервисов:
Затем проверяем содержимое страниц, перейдя по ссылкам. Убеждаемся, что контент идентичен и пишем программистам рекомендации для настройки 301 редиректа на главное зеркало сайта.

6.2. Как бороться с дублями?

Идеальный способ борьбы с дублями — это их окончательное удаление. Но если этого нельзя сделать, нужно вставить между тегами <head> и </head> на дублирующих страницах тег rel=canonical с ссылкой на целевую страницу. Пример:

<link rel="canonical" href="https://site.com/cat1/" />.

То есть с дублированной страницы бота будет перенаправлять на целевую и будем нам счастье =)
Больше о дублях читайте в другой статье нашего блога — Как найти и удалить дубли страниц на сайте
7

Проверяем скорость сайта

Многие пренебрегают этим параметром, а зря! Улучшая скорость сайта можно не только получать плюсы в ранжировании, но и получать больше доверия от пользователей и коэффициент конверсий. Я пользуюсь сервисом PageSpeed Insights для проверки скорости работы сайта.

Пример хорошего быстро работающего сайта: www.work.ua
Пример сайта, у которого проблемы со скоростью загрузки:
Сервис от Google также указывает, что можно исправить для ускорения сайта. В Serpstat'е также можно посмотреть скорость загрузки сайта:
Если вы не можете исправить те или иные технические ошибки для ускорения загрузки сайта, используйте так называемые сервисы CDN. Вот крутой кейс использования сервиса Айри. Этот кейс показал, что исправление скорости загрузки сайта может увеличить ваш трафик на 65%. А это очень ценно ;)

Вместо заключения

Вспомним основные положения этой статьи:
1
Файл Robots.txt нужно использовать для того чтобы указать разные инструкции разным поисковым роботам: указать хост, ссылку на карту сайта или попытаться закрыть тестовый сайт.
2
Запрещаем переход по ненужным исходящим ссылкам с помощью SEOHide и Nofollow.
3
Ищем несуществующие страницы, закрываем их кодом 404 и удаляем ссылки на эти страницы, которые есть на сайте.
4
Оптимизируем страницы пагинации rel="prev" и rel="next" для google и <meta name="yandex" content="noindex, follow"/>
5
Устраняем дубли страниц через 301 редирект с неосновных зеркал на основное: www.site.ru =>301=> site.ru; site.ru/page =>301 => site.ru/page/.
6
Избавляемся от дублей также атрибутом rel=canonical на основную страницу, чтобы робот не переходил на страницу и не индексировал ее.
7
Регулярно проверяем скорость сайта и улучшаем ее.
Как провести SEO-аудит с помощью Serpstat, смотрите в видео:

Рекомендуемые статьи

Хотите узнать новые фишки по интернет-маркетингу?
Подпишитесь на нашу рассылку — только полезные статьи, реальные кейсы и новости Serpstat раз в неделю.

Комментарии

Войти Регистрация

Вы исчерпали лимит запросов.

Или email
Забыли пароль?
Или email
Нажимая "Зарегистрироваться", Вы соглашаетесь с
условиями использования Serpstat and Политика конфиденциальности
Back To Login

Не волнуйтесь! Напишите свой электронный адрес и мы пришлем вам новый пароль.

Вы уверены?

Знакомство с сервисом

Serpstat экономит время, как и мы готовы сэкономить ваше, на знакомстве с ключевыми возможностями сервиса.
Наш специалист свяжется с вами и по итогу предложит подходящий вариант, который может включать персональную демонстрацию, пробный период, обучающие статьи и записи вебинаров, консультацию специалиста, а также комфортные условия для старта использования Serpstat.

Имя
Email
Телефон
Skype или Google Hangouts
Комментарий

Увеличить лимиты

Зарегистрироваться

Спасибо, мы с вами свяжемся в ближайшее время

Пригласить
E-mail
Роль
Сообщение
необязательно

У вас закончились лимиты

Вы достигли лимита на количество созданных проектов и больше не можете создавать новые проекты. Увеличьте лимиты или удалите существующие проекты.

Я хочу больше лимитов

У вас закончились лимиты

Вы исчерпали все доступные поинты в инструментах.

Я хочу больше лимитов