Report a bug

Cancel
50017   97   12
SEO 9 min read 28 August 2017

Как найти и удалить дубли страниц на сайте: инструкция для новичков


Сергей Романов
Специалист по продвижению веб-проектов в Promodo
Дубли страниц очень опасны с точки зрения SEO. Они критично воспринимаются поисковыми системами и могут привести к серьезным потерям в ранжировании и даже к наложению фильтра. Чтобы этого избежать, важно вовремя находить и удалять такие дубли.

Дубликаты: в чем опасность?

Опасность возникновения дублей можно показать на простом отвлеченном примере: посмотрите на картинку справа и скажите, какой из 2-х изображенных плодов наиболее релевантен запросу «красное яблоко».
Сложно, не правда ли? Ведь оба плода на картинке — это яблоки, и оба они красные. То есть, они одинаково релевантны запросу, а выбрать нас просят один, максимально точно соответствующий.

Возвращаясь к сайтам: в той же ситуации оказывается и поисковая система, когда ей нужно выбрать из двух одинаковых страниц одну и показать ее в результатах выдачи.

Конечно, поисковик учитывает и другие параметры при ранжировании, такие как внешние и внутренние ссылки, поведение пользователей, но факт остается фактом: из 2-х одинаково красных яблок, Google или Yandex должны выбрать одно. В этом-то и состоит вся трудность.


Возникновение такой дилеммы может привести к различным негативным последствиям:

  1. Снижению релевантности основной посадочной страницы, а, значит, и снижению позиций ключевых слов.
  2. «Скачкам» позиций ключевых слов за счет постоянной смены релевантной привязки с одной страницы на другую.
  3. Общему понижению в ранжировании, когда проблема приобретает масштабы не отдельных URL, а всего сайта.
Именно подобная опасность вынуждает SEO-оптимизаторов обращать особое внимание на поиск и устранение страниц-дубликатов на этапе внутренней оптимизации.

Какими бывают дубли?

Перед тем, как начать процесс поиска дублей, нужно определиться с тем, что они бывают 2-х типов, а значит, процесс поиска и борьбы с ними будет несколько отличным. Так, в частности, выделяют:

  • Полные дубли — когда одна и та же страница размещена по 2-м и более адресам.

  • Частичные дубли — когда определенная часть контента дублируется на ряде страниц, но они уже не являются полными копиями.

Полные дубликаты — откуда они берутся?

1
Одна и та же страница по адресу с «www» и без «www».

Такую проблему еще часто называют: «Не выбрано главное зеркало сайта».
2
Дубли главной страницы по адресам:

http://mysite.com/index,
http://mysite.com/index/,
http://mysite.com/index.php,
http://mysite.com/index.php/,
http://mysite.com/index.html,
http://mysite.com/index.html/.


Один из этих URL может быть адресом главной страницы по умолчанию.
3
Дубли, сгенерированные реферальной ссылкой.

Когда пользователь приходит по URL адресу с параметром «?ref=…», должно происходить автоматическое перенаправление на URL без параметра, что, к сожалению, часто забывают реализовать разработчики.
4
Ошибки, связанные с иерархией URL, приводящие к возникновению дублей.
Так, например, один и тот же товар может быть доступен по четырем разным URL-адресам:

http://mysite.com/catalog/dir/tovar.php,
http://mysite.com/catalog/tovar.php,
http://mysite.com/tovar.php,
http://mysite.com/dir/tovar.php.

5
Некорректная настройка страницы 404 ошибки, приводящая к возникновению «бесконечных дублей» страниц вида:

http://mysite.com/olololo-test-olololo

где текст, выделенным красным — это любой набор латинских символов и цифр.
6
Страницы с utm-метками и параметрами «gclid».

Данные метки нужны для того, чтобы передавать некоторые дополнительные данные в системы контекстной рекламы и статистики. Несмотря на то, что, по идее, они не должны индексироваться поисковыми системами, частенько можно встретить полный дубль страницы с utm-меткой в выдаче.

Полные дубли представляют серьезную опасность с точки зрения SEO, так как критично воспринимаются поисковыми системами и могут привести к серьезным потерям в ранжировании и даже к наложению фильтра, пессимизирующего весь сайт.

Частичные дубликаты — что представляют из себя?

Как и в случае с полными дублями, частичные возникают, в первую очередь, из-за особенностей CMS сайта, но значительно труднее обнаружаются. Кроме того, от них сложнее избавиться, но об этом чуть ниже, а пока наиболее распространенные варианты:
1
Страницы пагинации, сортировок, фильтров

Как правило, каким-то образом меняя выводимый товарный ассортимент на странице категории магазина, страница изменяет свой URL (фактически все случаи, когда вывод не организован посредством скриптов). При этом SEO-текст, заголовки, часто и мета-данные — не меняются. Например:

http://mysite.com/catalog/category/ — стартовая страница категории товаров

http://mysite.com/catalog/category/?page=2 — страница пагинации

При том, что URL адрес изменился и поисковая система будет индексировать его как отдельную страницу, основной SEO-контент будет продублирован.
2
Страницы отзывов, комментариев, характеристик

Достаточно часто можно встретить ситуацию, когда при выборе соответствующей вкладки на странице товара, происходит добавление параметра в URL-адрес, но сам контент фактически не меняется, а просто открывается новый таб.
3
Версии для печати, PDF для скачивания

Данные страницы полностью дублируют ценный SEO-контент основных страниц сайта, но имеют упрощенную версию по причине отсутствия большого количества строк кода, обеспечивающего работу функционала. Например:

http://mysite.com/main/hotel/al12188 — страница отеля
http://mysite.com/main/hotel/al12188/print — ЧБ версия для печати
http://mysite.com/main/hotel/al12188/print?color=1 — Цветная версия для печати.
Выдача Google:
Выдача Yandex:
4
Html слепки страниц сайта, организованных посредством технологии AJAX

Найти их можно заменив в оригинальном URL-адресе страницы «!#» на «?_escaped_fragment_=». Как правило, в индекс такие страницы попадают только тогда, когда были допущены ошибки в имплементации метода индексации AJAX страниц посредством перенаправления бота на страницу-слепок и робот обрабатывает два URL-адреса: основной и его Html-версию.

Основная опасность частичных дублей в том, что они не приводят к резким потерям в ранжировании, а делают это постепенно и незаметно для владельца сайта. То есть найти их влияние сложнее и они могут систематически, на протяжении долгого времени «отравлять жизнь» оптимизатору.

C помощью каких инструментов искать дубли?

Существует несколько инструментов для поиска дублей:

1. Мониторинг выдачи посредством оператора «site:»

Отобразив на странице SERP все проиндексированные URL участвующие в поиске, можно визуально детектировать повторы и разного рода «мусор».

2. Десктопные программы-парсеры и сервисы

Могу порекомендовать три удобные и информативные программы: Screaming Frog Seo Spider, Netpeak Spider, Xenu. Запуская собственных ботов к вам на сайт, программы выгружают полный список URL-адресов, который можно отсортировать по совпадению тега «Title» или «Description», и таким образом, выявить возможные дубли.

Пример отчета по выявлению потенциальных дублей из Netpeak Spider
В Serpstat также можно найти потенциальные дубли. Он находит страницы с дублирующимися Title и Description.

3. Поисковая консоль Google

В Google Search Console во вкладке «Оптимизация Html» можно посмотреть список страниц с повторяющимися мета-описаниями, т.е. список потенциальных дублей.

4. Ручной поиск непосредственно на сайте

Опытные веб-мастера способны вручную выявить большинство дублей в течение пары минут, просто попробовав различные вариации URL-адресов в обозначенных выше проблемных местах.

Как побороть и чем?

Способов борьбы с дубликатами не так уж и много, но все они потребуют от вас привлечения специалистов-разработчиков, либо наличия соответствующих знаний. По факту же арсенал для «выкорчевывания» дублей сводится к:
1
Их физическому удалению — хорошее решение для статических дублей.
2
Запрещению индексации дублей в файле «robots.txt» — подходит для борьбы со служебными страницами, частично дублирующими контент основных посадочных.
3
Настройке 301 редиректов в файле-конфигураторе «.htacces» — хорошее решение для случая с рефф-метками и ошибками в иерархии URL.
4
Установке тега «rel=canonical» — лучший вариант для страниц пагинации, фильтров и сортировок, utm-страниц.

Пример установки тега на странице пагинации:
5
Установке тега «meta name="robots" content="noindex, nofollow"» — решение для печатных версий, табов с отзывами на товарах.

Заключение

Часто решение проблемы кроется в настройке самого движка, а потому основной задачей оптимизатора является не столько устранение, сколько выявление полного списка частичных и полных дублей и постановке грамотного ТЗ исполнителю.

Запомните следующее:
1
Полные и частичные дубли могут понизить позиции сайта в выдаче не только в масштабах URL, а и всего домена.
2
Полные дубли — это когда одна и та же страница размещена по 2-м и более адресам.Частичные дубли — это когда определенная часть контента дублируется на ряде страниц, но они уже не являются полными копиями.
3
Полные дубликаты нетрудно найти и устранить. Чаще всего причина их появления зависит от особенностей CMS сайта и навыков SEO разработчика сайта.
4
Частичные дубликаты найти сложнее и они не приводят к резким потерям в ранжировании, однако делают это постепенно и незаметно для владельца сайта.
5
Чтобы найти частичные и полные дубли страниц, можно использовать мониторинг выдачи с помощью поисковых операторов, специальные программы-парсеры, поисковую консоль Google и ручной поиск на сайте.
6
Избавление сайта от дублей сводится к их физическому удалению, запрещению индексации дублей в файле «robots.txt», настройке 301 редиректов, установке тегов «rel=canonical» и «meta name="robots" content="noindex, nofollow"».
Found an error? Select it and press Ctrl + Enter to tell us

Recommended articles

Subscribe to our newsletter
Keep up to date with our latest news, events and blog posts!

Comments

Sign In Free Sign Up

You’ve reached your query limit.

Or email
Forgot password?
Or email
By clicking 'Sign Up Free' I agree to Serptat's
Terms of Service and Privacy Policy
Back To Login

Don’t worry! Just fill in your email and we’ll send over your password.

Are you sure?
Please pick the project to work on

Personal demonstration

Serpstat is all about saving time, and we want to save yours! One of our specialists will contact you and discuss options going forward. These may include a personal demonstration, a trial period, comprehensive training articles & webinar recordings, and custom adivce from a Serpstat specialist. It is our goal to make you feel comfortable while using Serpstat.

Name
Email
Phone
Skype or Google Hangouts
Comment

Upgrade your plan

Sign Up Free

Спасибо, мы с вами свяжемся в ближайшее время

Invite
E-mail
Role
Message
Optional

You have run out of limits

You have reached the limit for the number of created projects. You cannot create new projects unless you increase the limits or delete existing projects.

I want more limits

Christmas is a time for miracles.

You are almost on the finish line of our Christmas quest. The last brick of your lego-promocode is left on the way up 55% discount.

Did not find previous lego-bricks? Fill the form anyway.

Name
Email
Phone
Skype or Google Hangouts
Write your discount code