28 августа 2017

Как найти и удалить дубли страниц на сайте: инструкция для новичков


Сергей Романов
Специалист по продвижению веб-проектов в Promodo
Дубли страниц очень опасны с точки зрения SEO. Они критично воспринимаются поисковыми системами и могут привести к серьезным потерям в ранжировании и даже к наложению фильтра. Чтобы этого избежать, важно вовремя находить и удалять такие дубли.

Дубликаты: в чем опасность?

Опасность возникновения дублей можно показать на простом отвлеченном примере: посмотрите на картинку справа и скажите, какой из 2-х изображенных плодов наиболее релевантен запросу «красное яблоко».
Сложно, не правда ли? Ведь оба плода на картинке — это яблоки, и оба они красные. То есть, они одинаково релевантны запросу, а выбрать нас просят один, максимально точно соответствующий.

Возвращаясь к сайтам: в той же ситуации оказывается и поисковая система, когда ей нужно выбрать из двух одинаковых страниц одну и показать ее в результатах выдачи.

Конечно, поисковик учитывает и другие параметры при ранжировании, такие как внешние и внутренние ссылки, поведение пользователей, но факт остается фактом: из 2-х одинаково красных яблок, Google или Yandex должны выбрать одно. В этом-то и состоит вся трудность.


Возникновение такой дилеммы может привести к различным негативным последствиям:

  1. Снижению релевантности основной посадочной страницы, а, значит, и снижению позиций ключевых слов.
  2. «Скачкам» позиций ключевых слов за счет постоянной смены релевантной привязки с одной страницы на другую.
  3. Общему понижению в ранжировании, когда проблема приобретает масштабы не отдельных URL, а всего сайта.
Именно подобная опасность вынуждает SEO-оптимизаторов обращать особое внимание на поиск и устранение страниц-дубликатов на этапе внутренней оптимизации.

Какими бывают дубли?

Перед тем, как начать процесс поиска дублей, нужно определиться с тем, что они бывают 2-х типов, а значит, процесс поиска и борьбы с ними будет несколько отличным. Так, в частности, выделяют:

  • Полные дубли — когда одна и та же страница размещена по 2-м и более адресам.

  • Частичные дубли — когда определенная часть контента дублируется на ряде страниц, но они уже не являются полными копиями.

Полные дубликаты — откуда они берутся?

1
Одна и та же страница по адресу с «www» и без «www».

Такую проблему еще часто называют: «Не выбрано главное зеркало сайта».
2
Дубли главной страницы по адресам:

http://mysite.com/index,
http://mysite.com/index/,
http://mysite.com/index.php,
http://mysite.com/index.php/,
http://mysite.com/index.html,
http://mysite.com/index.html/.


Один из этих URL может быть адресом главной страницы по умолчанию.
3
Дубли, сгенерированные реферальной ссылкой.

Когда пользователь приходит по URL адресу с параметром «?ref=…», должно происходить автоматическое перенаправление на URL без параметра, что, к сожалению, часто забывают реализовать разработчики.
4
Ошибки, связанные с иерархией URL, приводящие к возникновению дублей.
Так, например, один и тот же товар может быть доступен по четырем разным URL-адресам:

http://mysite.com/catalog/dir/tovar.php,
http://mysite.com/catalog/tovar.php,
http://mysite.com/tovar.php,
http://mysite.com/dir/tovar.php.

5
Некорректная настройка страницы 404 ошибки, приводящая к возникновению «бесконечных дублей» страниц вида:

http://mysite.com/olololo-test-olololo

где текст, выделенным красным — это любой набор латинских символов и цифр.
6
Страницы с utm-метками и параметрами «gclid».

Данные метки нужны для того, чтобы передавать некоторые дополнительные данные в системы контекстной рекламы и статистики. Несмотря на то, что, по идее, они не должны индексироваться поисковыми системами, частенько можно встретить полный дубль страницы с utm-меткой в выдаче.

Полные дубли представляют серьезную опасность с точки зрения SEO, так как критично воспринимаются поисковыми системами и могут привести к серьезным потерям в ранжировании и даже к наложению фильтра, пессимизирующего весь сайт.

Частичные дубликаты — что представляют из себя?

Как и в случае с полными дублями, частичные возникают, в первую очередь, из-за особенностей CMS сайта, но значительно труднее обнаружаются. Кроме того, от них сложнее избавиться, но об этом чуть ниже, а пока наиболее распространенные варианты:
1
Страницы пагинации, сортировок, фильтров

Как правило, каким-то образом меняя выводимый товарный ассортимент на странице категории магазина, страница изменяет свой URL (фактически все случаи, когда вывод не организован посредством скриптов). При этом SEO-текст, заголовки, часто и мета-данные — не меняются. Например:

http://mysite.com/catalog/category/ — стартовая страница категории товаров

http://mysite.com/catalog/category/?page=2 — страница пагинации

При том, что URL адрес изменился и поисковая система будет индексировать его как отдельную страницу, основной SEO-контент будет продублирован.
2
Страницы отзывов, комментариев, характеристик

Достаточно часто можно встретить ситуацию, когда при выборе соответствующей вкладки на странице товара, происходит добавление параметра в URL-адрес, но сам контент фактически не меняется, а просто открывается новый таб.
3
Версии для печати, PDF для скачивания

Данные страницы полностью дублируют ценный SEO-контент основных страниц сайта, но имеют упрощенную версию по причине отсутствия большого количества строк кода, обеспечивающего работу функционала. Например:

http://mysite.com/main/hotel/al12188 — страница отеля
http://mysite.com/main/hotel/al12188/print — ЧБ версия для печати
http://mysite.com/main/hotel/al12188/print?color=1 — Цветная версия для печати.
Выдача Google:
Выдача Yandex:
4
Html слепки страниц сайта, организованных посредством технологии AJAX

Найти их можно заменив в оригинальном URL-адресе страницы «!#» на «?_escaped_fragment_=». Как правило, в индекс такие страницы попадают только тогда, когда были допущены ошибки в имплементации метода индексации AJAX страниц посредством перенаправления бота на страницу-слепок и робот обрабатывает два URL-адреса: основной и его Html-версию.

Основная опасность частичных дублей в том, что они не приводят к резким потерям в ранжировании, а делают это постепенно и незаметно для владельца сайта. То есть найти их влияние сложнее и они могут систематически, на протяжении долгого времени «отравлять жизнь» оптимизатору.

C помощью каких инструментов искать дубли?

Существует несколько инструментов для поиска дублей:

1. Мониторинг выдачи посредством оператора «site:»

Отобразив на странице SERP все проиндексированные URL участвующие в поиске, можно визуально детектировать повторы и разного рода «мусор».

2. Десктопные программы-парсеры и сервисы

Могу порекомендовать три удобные и информативные программы: Screaming Frog Seo Spider, Netpeak Spider, Xenu. Запуская собственных ботов к вам на сайт, программы выгружают полный список URL-адресов, который можно отсортировать по совпадению тега «Title» или «Description», и таким образом, выявить возможные дубли.

Пример отчета по выявлению потенциальных дублей из Netpeak Spider
В Serpstat также можно найти потенциальные дубли. Он находит страницы с дублирующимися Title и Description.

3. Поисковая консоль Google

В Google Search Console во вкладке «Оптимизация Html» можно посмотреть список страниц с повторяющимися мета-описаниями, т.е. список потенциальных дублей.

4. Ручной поиск непосредственно на сайте

Опытные веб-мастера способны вручную выявить большинство дублей в течение пары минут, просто попробовав различные вариации URL-адресов в обозначенных выше проблемных местах.

Как побороть и чем?

Способов борьбы с дубликатами не так уж и много, но все они потребуют от вас привлечения специалистов-разработчиков, либо наличия соответствующих знаний. По факту же арсенал для «выкорчевывания» дублей сводится к:
1
Их физическому удалению — хорошее решение для статических дублей.
2
Запрещению индексации дублей в файле «robots.txt» — подходит для борьбы со служебными страницами, частично дублирующими контент основных посадочных.
3
Настройке 301 редиректов в файле-конфигураторе «.htacces» — хорошее решение для случая с рефф-метками и ошибками в иерархии URL.
4
Установке тега «rel=canonical» — лучший вариант для страниц пагинации, фильтров и сортировок, utm-страниц.

Пример установки тега на странице пагинации:
5
Установке тега «meta name="robots" content="noindex, nofollow"» — решение для печатных версий, табов с отзывами на товарах.

Заключение

Часто решение проблемы кроется в настройке самого движка, а потому основной задачей оптимизатора является не столько устранение, сколько выявление полного списка частичных и полных дублей и постановке грамотного ТЗ исполнителю.

Запомните следующее:
1
Полные и частичные дубли могут понизить позиции сайта в выдаче не только в масштабах URL, а и всего домена.
2
Полные дубли — это когда одна и та же страница размещена по 2-м и более адресам.Частичные дубли — это когда определенная часть контента дублируется на ряде страниц, но они уже не являются полными копиями.
3
Полные дубликаты нетрудно найти и устранить. Чаще всего причина их появления зависит от особенностей CMS сайта и навыков SEO разработчика сайта.
4
Частичные дубликаты найти сложнее и они не приводят к резким потерям в ранжировании, однако делают это постепенно и незаметно для владельца сайта.
5
Чтобы найти частичные и полные дубли страниц, можно использовать мониторинг выдачи с помощью поисковых операторов, специальные программы-парсеры, поисковую консоль Google и ручной поиск на сайте.
6
Избавление сайта от дублей сводится к их физическому удалению, запрещению индексации дублей в файле «robots.txt», настройке 301 редиректов, установке тегов «rel=canonical» и «meta name="robots" content="noindex, nofollow"».

Рекомендуемые статьи

Хотите узнать новые фишки по интернет-маркетингу?
Подпишитесь на нашу рассылку — только полезные статьи, реальные кейсы и новости Serpstat раз в неделю.

Комментарии

Войти Регистрация

Вы исчерпали лимит запросов.

Или email
Забыли пароль?
Или email
Нажимая "Зарегистрироваться", Вы соглашаетесь с
условиями использования Serpstat and Политика конфиденциальности
Back To Login

Не волнуйтесь! Напишите свой электронный адрес и мы пришлем вам новый пароль.

Вы уверены?

Знакомство с сервисом

Serpstat экономит время, как и мы готовы сэкономить ваше, на знакомстве с ключевыми возможностями сервиса.
Наш специалист свяжется с вами и по итогу предложит подходящий вариант, который может включать персональную демонстрацию, пробный период, обучающие статьи и записи вебинаров, консультацию специалиста, а также комфортные условия для старта использования Serpstat.

Имя
Email
Телефон
Skype или Google Hangouts
Комментарий

Увеличить лимиты

Зарегистрироваться

Спасибо, мы с вами свяжемся в ближайшее время

Пригласить
E-mail
Роль
Сообщение
необязательно

У вас закончились лимиты

Вы достигли лимита на количество созданных проектов и больше не можете создавать новые проекты. Увеличьте лимиты или удалите существующие проекты.

Я хочу больше лимитов

У вас закончились лимиты

Вы исчерпали все доступные поинты в инструментах.

Я хочу больше лимитов