По ту сторону экрана: дайджест службы поддержки #1
Основные ошибки в оптимизации сайта
и как их выявить
и как их выявить

Ну что ж, не буду вас томить, начнем ;)
Запомните, robots.txt — это всего лишь рекомендация, то есть поисковые системы могут игнорировать его — индексировать и сканировать запрещенные страницы. Тем не менее, файл все равно должен быть правильно составлен.
1.1. Что должно быть в robots.txt?
User-agent: *
Allow: /
Host: site.com
Sitemap: http://site.com/sitemap/
А для тестового сайта вот что :
User-agent: *
Disallow: /
Host: site.com
Разбираем:
- User-agent: * — говорит о том, что последующие рекомендации относятся ко всем роботам поисковых систем. Я рекомендую писать именно так, потому что скрывать будем страницы с админ-панелью, с оплатой, корзину и т.д., то есть все те страницы, которые не должны видеть роботы популярных поисковиков.
- Allow: / — говорит о том, что мы разрешили сканировать всё!

- Host: site.com — используется для указания поисковой системе основного зеркала сайта. Все просто: вписываем полный адрес нашего сайта. Если он на https, указываем сайт с https, если с www, вписываем сайт с www.
- Sitemap: http://site.com/sitemap/ — это путь к карте сайта.
1.2. Как закрыть страницу от сканирования?
Чтобы закрыть страницу от сканирования используйте атрибут noindex между тегом <head>:
<meta name="robots" content="noindex"> — если нужно закрыть от всех роботов поисковых систем
<meta name="googlebot" content="noindex"> — если нужно закрыть только от робота Google. Однако с Google есть свои нюансы, подробно изучите их в официальной справке.
Также можно использовать технологию SEOHide для всех ссылок, которые ведут на страницы, которые не должен видеть робот. Немного подробней об этой технологии написано ниже.
1.3. Какими бывают ошибки при составлении файла robots.txt?
User-agent: *
Disallow: /
Host: site.com
Sitemap: http://site.com/sitemap/
В этом случае сайт будет полностью закрыт от сканирования.
И еще один пример:
User-agent: /
Allow: *
Host: site.com
Sitemap: http://site.com/sitemap/
В данном случае ничего страшного не произойдет, но лучше придерживаться правильного синтаксиса.
Проверить корректность настройки файла robots.txt можно в сервисе Google Search Console:


- 301 — передает около 90-99% ссылочного веса. Данный редирект указывает, что страница перемещена по новому адресу и старый url следует считать устаревшим. Чаще всего используют этот вариант редиректа для смены домена, редизайна и т.д.
- 302 — временный редирект. Раньше этот вариант редиректа не передавал Page Rank, но недавно появилась информация, что ссылочный вес тоже передается через 302 редирект.
- Есть и другие редиректы, но они используются реже.
2.1. Проверьте редиректы главной страницы
Есть информация, что Google бот будет (если уже не делает так) сначала индексировать https версию сайта, затем все остальные. Поэтому советую учитывать это при выборе основного хоста.
2. 2. Проверьте, как поведет себя страница, если убрать слеш в конце
Если страница со слешем не перенаправляет на ту же страницу без слеша или наоборот — это ошибка. Нужно выбрать один вариант, так как поисковые системы будут воспринимать это как две разные страницы, но с одинаковым контентом.
Пример:
http://prom.ua/Odezhda/ -> 301 редирект -> http://prom.ua/Odezhda
2.3. Поищите внутренние ссылки с несколькими слешами в конце
site.com/cat1////
Если в таком случае не сработает редирект на корректный URL, это плохо. Значит, нужно написать программисту, чтобы сделал редирект на корректный URL.
2.4. Проверьте редирект со старых доменов и страниц

Однако нужно помнить, не все исходящие ссылки — это плохо. Например, если у вас информационный сайт и вы отрерайтили новость с другого источника и вставляете на нее ссылку, как на источник — это считается хорошим тоном, и это нормально. Просто следите за количеством исходящих ссылок и контролируйте их качество, с помощью того же Serpstat, например:

3.1. Технология SEOHide
1. Реализуем ссылку через js
2. Для надежности закрываем папку с js файлами в robots.txt (Disallow: /js/)
3. Все!
Со всем этим подходим к программисту ;) Примерно так будет выглядеть ссылка, созданная с помощью SEOHide:
<a hashstring="f45a6597fdf5f85a" hashtype="href">анкор</a>
3.2. Тег nofollow для ссылки
Пример закрытой от робота ссылки:
<a href="signin.php" rel="nofollow">Войти</a>
4.1. Как найти ссылки на несуществующие страницы?
Serpstat предоставляет отчет о наличии ссылок на несуществующие страницы:

Хороший пример:

4.3. Как проверить какой код отдают несуществующие страницы?
Затем в консоли разработчика этой страницы на вкладке Network посмотрите status:

5.1. Настраиваем rel="prev" и rel="next" для Google
На первой странице между тегами <head> должно быть:
<link rel="next" href="[ссылка на вторую страницу]" />
На второй, третьей и т.д. страницах должно быть так:
<link rel="prev" href="[ссылка на предыдущую страницу]" />
<link rel="next" href="[ссылка на следующую страницу]" />
На последней:
<link rel="prev" href="[ссылка на предыдущую страницу]" />
5.2. Настраиваем meta robots для Яндекса
Для второй, третьей и дальнейших нумерациях этот атрибут необходимо сделать неканоническим((т. е. не индексируются и робот по ним не переходит), а в качестве канонического главного адреса (сканируется роботом) указывать первую страницу каталога — только она будет участвовать в результатах поиска.
Например, страница site.com/laptops/1 — каноническая , с неё начинается каталог. А страницы вида site.com/laptops/2 и site.com/laptops/3 — неканонические.
Выходит, что из-за canonical робот всегда будет переходить только на главную категорию. В этом есть смысл, если на неосновные страницы пагинации нет трафика из поисковых систем и их контент во многом идентичен.
Но если хотите, чтобы робот видел содержимое остальных страниц пагинации и переходил по ссылкам, которые есть на этих страницах, лучше использовать атрибут meta robots. Я делаю именно так ;)
Мой шаблон для страниц пагинации:
В <head> http://site.ru/category/
<link rel="next" href="http://site.ru/category/2/">
В <head> http://site.ru/category/2/
<link rel="prev" href="http://site.ru/category/">
<link rel="next" href="http://site.ru/category/3/">
<meta name="yandex" content="noindex, follow"/>
- Ухудшается индексация сайта
- Распыляется ссылочный вес
- Изменяется релевантная страница в поисковой выдаче
- Возникает вероятность фильтра от поисковых систем
6.1. Как искать дубли страниц?

6.2. Как бороться с дублями?
<link rel="canonical" href="https://site.com/cat1/" />.
То есть с дублированной страницы бота будет перенаправлять на целевую и будем нам счастье =)
Пример хорошего быстро работающего сайта: www.work.ua



Сэкономьте время на изучении Serpstat
Хотите получить персональную демонстрацию сервиса, тестовый период или эффективные кейсы использования Serpstat?
Оставьте заявку и мы свяжемся с вами ;)
Рекомендуемые статьи
Весенний бум Serpstat: делимся полезными статьями и дарим крутой мерч
Хакни контент-план своих конкурентов: как найти самые трафиковые темы статей
Кейсы, лайфхаки, исследования и полезные статьи
Не успеваешь следить за новостями? Не беда! Наш любимый редактор Анастасия подберет материалы, которые точно помогут в работе. Присоединяйся к уютному комьюнити :)
Нажимая кнопку, ты соглашаешься с нашей политикой конфиденциальности.