Report a bug

Cancel
19640   154   9
SEO 14 min read 20 January 2017

Фантастические ошибки сайта и где они обитают


Анатолий Бондаренко
SEO Classifieds Specialist в Netpeak
При оптимизации сайтов многие новички часто допускают технические ошибки, которые не позволяют эффективно продвинуть проект. Как результат — некоторые страницы не индексируются в поисковых системах или того хуже — сайт полностью попадает под фильтр.
Чтобы этого не произошло, нужно быстро находить и устранять такие ошибки. Как именно это сделать, на что обращать внимание и каким шагам следовать на примере сервиса Serpstat расскажет Толя Бондаренко — SEO-специалист из Netpeak.

Ну что ж, не буду вас томить, начнем ;)
1

Проверяем файл robots.txt

Robot.txt — это файл-рекомендация для роботов поисковых систем, который должен указывать, что нужно сканировать, а что нельзя. Находится он по адресу site.com/robots.txt (вместо site.com впишите название любого сайта).

Запомните, robots.txt — это всего лишь рекомендация, то есть поисковые системы могут игнорировать его — индексировать и сканировать запрещенные страницы. Тем не менее, файл все равно должен быть правильно составлен.

1.1. Что должно быть в robots.txt?

Советую включить в файл robots.txt для рабочего сайта следующее:

User-agent: *
Allow: /
Host: site.com
Sitemap: http://site.com/sitemap/

А для тестового сайта вот что :

User-agent: *
Disallow: /
Host: site.com

Разбираем:

  • User-agent: * — говорит о том, что последующие рекомендации относятся ко всем роботам поисковых систем. Я рекомендую писать именно так, потому что скрывать будем страницы с админ-панелью, с оплатой, корзину и т.д., то есть все те страницы, которые не должны видеть роботы популярных поисковиков.

  • Allow: / — говорит о том, что мы разрешили сканировать всё!
Шучу, не всё ;) Есть другой способ, с помощью которых можно скрыть некоторые страницы от индексирования работами. О нем скажу чуть позже.

  • Host: site.com — используется для указания поисковой системе основного зеркала сайта. Все просто: вписываем полный адрес нашего сайта. Если он на https, указываем сайт с https, если с www, вписываем сайт с www.

  • Sitemap: http://site.com/sitemap/ — это путь к карте сайта.

Существует и еще одна распространенная директива "Disallow". Однако, я не рекомендую ее использовать для рабочих сайтов, потому что поисковая система часто ее игнорирует.

1.2. Как закрыть страницу от сканирования?

Чтобы закрыть страницы регистрации и другие ненужные страницы используйте атрибут noindex. Он позволит вам брать из индекса страницу при следующем посещении поискового робота и передать ссылочный вес страницы.

Чтобы закрыть страницу от сканирования используйте атрибут noindex между тегом <head>:

<meta name="robots" content="noindex"> — если нужно закрыть от всех роботов поисковых систем

<meta name="googlebot" content="noindex"> — если нужно закрыть только от робота Google. Однако с Google есть свои нюансы, подробно изучите их в официальной справке.

Также можно использовать технологию SEOHide для всех ссылок, которые ведут на страницы, которые не должен видеть робот. Немного подробней об этой технологии написано ниже.

1.3. Какими бывают ошибки при составлении файла robot.txt?

Вот вариант неправильного составления robots.txt:

User-agent: *
Disallow: /
Host: site.com
Sitemap: http://site.com/sitemap/
В этом случае сайт будет полностью закрыт от сканирования.

И еще один пример:

User-agent: /
Allow: *
Host: site.com
Sitemap: http://site.com/sitemap/
В данном случае ничего страшного не произойдет, но лучше придерживаться правильного синтаксиса.

Проверить корректность настройки файла robots.txt можно в сервисе Google Search Console:
И в сервисе Яндекс.Вебмастер:
2

Смотрим редиректы

Редиректы — это способ перенаправления пользователей и поисковых систем c одного URL на другой. Бывают следующие варианты редиректов:

  • 301 — передает около 90-99% ссылочного веса. Данный редирект указывает, что страница перемещена по новому адресу и старый url следует считать устаревшим. Чаще всего используют этот вариант редиректа для смены домена, редизайна и т.д.

  • 302 — временный редирект. Раньше этот вариант редиректа не передавал Page Rank, но недавно появилась информация, что ссылочный вес тоже передается через 302 редирект.

  • Есть и другие редиректы, но они используются реже.

Что нужно смотреть:

2.1. Проверьте редиректы главной страницы

Для примера возьмем сайт https://www.olx.ua
Проверяем по следующей таблице:
Как видим, все варианты главной страницы перенаправляют на основную, так и должно быть.

Есть информация, что Google бот будет (если уже не делает так) сначала индексировать https версию сайта, затем все остальные. Поэтому советую учитывать это при выборе основного хоста.

2. 2. Проверьте, как поведет себя страница, если убрать слеш в конце

Если страницы заканчиваются слешем "/", нужно обязательно проверить, как будет себя вести страница, если убрать его.

Если страница со слешем не перенаправляет на ту же страницу без слеша или наоборот — это ошибка. Нужно выбрать один вариант, так как поисковые системы будут воспринимать это как две разные страницы, но с одинаковым контентом.

Пример:

http://prom.ua/Odezhda/ -> 301 редирект -> http://prom.ua/Odezhda

2.3. Поищите внутренние ссылки с несколькими слешами в конце

Случается, что в тексте внутренняя ссылка (ошибка при создании ссылки) имеет в конце два, три и более слеша:

site.com/cat1////

Если в таком случае не сработает редирект на корректный URL, это плохо. Значит, нужно написать программисту, чтобы сделал редирект на корректный URL.

2.4. Проверьте редирект со старых доменов и страниц

Они должны вести на релевантные страницы вашего нового сайта. Чаще всего, редиректы я ищу вручную, но перестраховываюсь, используя Serpstat. Здесь есть отдельный пункт аудита для проверки редиректов:
3

Работаем с исходящими ссылками

Если на сайте есть спамные исходящие ссылки, это может негативно сказаться на продвижении сайта. И наоборот, когда с одной страницы ведут много исходящих ссылок — это тоже не очень хорошо.

Однако нужно помнить, не все исходящие ссылки — это плохо. Например, если у вас информационный сайт и вы отрерайтили новость с другого источника и вставляете на нее ссылку, как на источник — это считается хорошим тоном, и это нормально. Просто следите за количеством исходящих ссылок и контролируйте их качество, с помощью того же Serpstat, например:
Если на сайте обнаружилось много исходящих ссылок, которые могут принести только вред сайту, их нужно срочно удалить. Если по каким-то причинам это не получается сделать, я использую два варианта решения:

3.1. Технология SEOHide

С помощью этой технологии можно минимизировать вероятность перехода робота по ссылке. Методика следующая:

1. Реализуем ссылку через js
2. Для надежности закрываем папку с js файлами в robots.txt (Disallow: /js/)
3. Все!

Со всем этим подходим к программисту ;) Примерно так будет выглядеть ссылка, созданная с помощью SEOHide:

<a hashstring="f45a6597fdf5f85a" hashtype="href">анкор</a>

3.2. Тег nofollow для ссылки

Если по каким-то причинам клиент не может/не хочет внедрять SEOHide, я использую тег nofollow для ссылки. Но тут есть свои минусы: уже доказано, что Google переходит по этим ссылкам и ссылочный вес утекает, но такой вариант решения лучше, чем просто ничего не делать =)

Пример закрытой от робота ссылки:
<a href="signin.php" rel="nofollow">Войти</a>
4

Ищем внутренние ссылки на несуществующие страницы

4.1. Как найти ссылки на несуществующие страницы?

Если на сайте есть такие ссылки, то по ним убегает внутренний Page Rank страницы ("важность" в глазах поисковиков) на другие страницы. Это может плохо сказаться на продвижении сайта.

Serpstat предоставляет отчет о наличии ссылок на несуществующие страницы:
4.2. Как оформить несуществующую страницу?
Также нужно правильно оформить страницу, которую видят пользователи, переходя на несуществующие страницы. Она должна быть оформлена так, чтобы пользователь мог перейти на главную и на основные разделы сайта.

Хороший пример:
Несуществующие страницы должны отдавать статус-код 404.

4.3. Как проверить какой код отдают несуществующие страницы?

Чтобы проверить какой код отдают несуществующие страницы, возьмите URL вашего сайта и допишите любую последовательность букв, например https://www.olx.ua/kdhlfj

Затем в консоли разработчика этой страницы на вкладке Network посмотрите status:
Важно отслеживать такие страницы, не забывайте о них ;) На сайте не должно быть ссылок, которые ведут на 404 страницу. Робот зря переходит по ним и напрасно расходует краулинговый бюджет (количество страниц, которые поисковый бот может обойти за конкретный временной период). А это время он бы мог потратить на сканирование более важных страниц.
5

Изучаем страницы пагинации

Если в какой-то категории на вашем сайте находится большое количество товаров, могут появиться страницы пагинации (порядковой нумерации страниц), на которых собраны все товары данной категории. Важно правильно их оптимизировать для разных поисковых систем:

5.1. Настраиваем rel="prev" и rel="next" для Google

Для поисковой системы Google нужно внедрить атрибуты next и prev на страницах пагинации:

На первой странице между тегами <head> должно быть:
<link rel="next" href="[ссылка на вторую страницу]" />

На второй, третьей и т.д. страницах должно быть так:
<link rel="prev" href="[ссылка на предыдущую страницу]" />
<link rel="next" href="[ссылка на следующую страницу]" />

На последней:
<link rel="prev" href="[ссылка на предыдущую страницу]" />

5.2. Настраиваем meta robots для Яндекса

В официальной справке Яндекса обозначено, что для страниц пагинации лучше использовать атрибут rel="canonical".

Для второй, третьей и дальнейших нумерациях этот атрибут необходимо сделать неканоническим((т. е. не индексируются и робот по ним не переходит), а в качестве канонического главного адреса (сканируется роботом) указывать первую страницу каталога — только она будет участвовать в результатах поиска.

Например, страница site.com/laptops/1 — каноническая , с неё начинается каталог. А страницы вида site.com/laptops/2 и site.com/laptops/3 — неканонические.

Выходит, что из-за canonical робот всегда будет переходить только на главную категорию. В этом есть смысл, если на неосновные страницы пагинации нет трафика из поисковых систем и их контент во многом идентичен.

Но если хотите, чтобы робот видел содержимое остальных страниц пагинации и переходил по ссылкам, которые есть на этих страницах, лучше использовать атрибут meta robots. Я делаю именно так ;)

Мой шаблон для страниц пагинации:


В <head> http://site.ru/category/
<link rel="next" href="http://site.ru/category/2/">

В <head> http://site.ru/category/2/
<link rel="prev" href="http://site.ru/category/">
<link rel="next" href="http://site.ru/category/3/">
<meta name="yandex" content="noindex, follow"/>
6

Проверяем дубли страниц

Дублирующие страницы — это страницы с одинаковым контентом. Чем чреваты дубли?

  • Ухудшается индексация сайта
  • Распыляется ссылочный вес
  • Изменяется релевантная страница в поисковой выдаче
  • Возникает вероятность фильтра от поисковых систем
Дубли необходимо оперативно выявлять и удалять.

6.1. Как искать дубли страниц?

Простой метод отыскать дубли — это найти дублирующиеся мета-теги и по этим страницам смотреть контент. Если он одинаков, это дубли, которые нужно устранить. Ищем дубли с помощью специальных сервисов:
Затем проверяем содержимое страниц, перейдя по ссылкам. Убеждаемся, что контент идентичен и пишем программистам рекомендации для настройки 301 редиректа на главное зеркало сайта.

6.2. Как бороться с дублями?

Идеальный способ борьбы с дублями — это их окончательное удаление. Но если этого нельзя сделать, нужно вставить между тегами <head> и </head> на дублирующих страницах тег rel=canonical с ссылкой на целевую страницу. Пример:

<link rel="canonical" href="https://site.com/cat1/" />.

То есть с дублированной страницы бота будет перенаправлять на целевую и будем нам счастье =)
Больше о дублях читайте в другой статье нашего блога — Как найти и удалить дубли страниц на сайте
7

Проверяем скорость сайта

Многие пренебрегают этим параметром, а зря! Улучшая скорость сайта можно не только получать плюсы в ранжировании, но и получать больше доверия от пользователей и коэффициент конверсий. Я пользуюсь сервисом PageSpeed Insights для проверки скорости работы сайта.

Пример хорошего быстро работающего сайта: www.work.ua
Пример сайта, у которого проблемы со скоростью загрузки:
Сервис от Google также указывает, что можно исправить для ускорения сайта. В Serpstat'е также можно посмотреть скорость загрузки сайта:
Если вы не можете исправить те или иные технические ошибки для ускорения загрузки сайта, используйте так называемые сервисы CDN. Вот крутой кейс использования сервиса Айри. Этот кейс показал, что исправление скорости загрузки сайта может увеличить ваш трафик на 65%. А это очень ценно ;)

Вместо заключения

Вспомним основные положения этой статьи:
1
Файл Robots.txt нужно использовать для того чтобы указать разные инструкции разным поисковым роботам: указать хост, ссылку на карту сайта или попытаться закрыть тестовый сайт.
2
Запрещаем переход по ненужным исходящим ссылкам с помощью SEOHide и Nofollow.
3
Ищем несуществующие страницы, закрываем их кодом 404 и удаляем ссылки на эти страницы, которые есть на сайте.
4
Оптимизируем страницы пагинации rel="prev" и rel="next" для google и <meta name="yandex" content="noindex, follow"/>
5
Устраняем дубли страниц через 301 редирект с неосновных зеркал на основное: www.site.ru =>301=> site.ru; site.ru/page =>301 => site.ru/page/.
6
Избавляемся от дублей также атрибутом rel=canonical на основную страницу, чтобы робот не переходил на страницу и не индексировал ее.
7
Регулярно проверяем скорость сайта и улучшаем ее.
Как провести SEO-аудит с помощью Serpstat, смотрите в видео:
Found an error? Select it and press Ctrl + Enter to tell us

Recommended articles

Subscribe to our newsletter
Keep up to date with our latest news, events and blog posts!

Comments

Sign In Free Sign Up

You’ve reached your query limit.

Or email
Forgot password?
Or email
By clicking 'Sign Up Free' I agree to Serptat's
Terms of Service and Privacy Policy
Back To Login

Don’t worry! Just fill in your email and we’ll send over your password.

Are you sure?
Please pick the project to work on

Personal demonstration

Serpstat is all about saving time, and we want to save yours! One of our specialists will contact you and discuss options going forward. These may include a personal demonstration, a trial period, comprehensive training articles & webinar recordings, and custom adivce from a Serpstat specialist. It is our goal to make you feel comfortable while using Serpstat.

Name
Email
Phone
Skype or Google Hangouts
Comment

Upgrade your plan

Sign Up Free

Спасибо, мы с вами свяжемся в ближайшее время

Invite
E-mail
Role
Message
Optional

You have run out of limits

You have reached the limit for the number of created projects. You cannot create new projects unless you increase the limits or delete existing projects.

I want more limits

Christmas is a time for miracles.

You are almost on the finish line of our Christmas quest. The last brick of your lego-promocode is left on the way up 55% discount.

Did not find previous lego-bricks? Fill the form anyway.

Name
Email
Phone
Skype or Google Hangouts
Write your discount code