148605 2432 2
SEO Читать 15 минут 15 сентября 2020

Как найти и удалить дубли страниц на сайте: инструкция для новичков

Как найти и удалить дубли страниц на сайте: инструкция для новичков

Сергей Романов
Специалист по продвижению веб-проектов в Promodo
Дубли страниц очень опасны с точки зрения SEO. Они критично воспринимаются поисковыми системами и могут привести к серьезным потерям в ранжировании и даже к наложению фильтра. Чтобы этого избежать, важно вовремя находить и удалять такие дубли.

Дубликаты: в чем опасность?

дубли страниц пример
Опасность возникновения дублей можно показать на простом отвлеченном примере: посмотрите на картинку справа и скажите, какой из 2-х изображенных плодов наиболее релевантен запросу «красное яблоко».

Сложно, не правда ли? Ведь оба плода на картинке — это яблоки, и оба они красные. То есть, они одинаково релевантны запросу, а выбрать нас просят один, максимально точно соответствующий.
Возвращаясь к сайтам: в той же ситуации оказывается и поисковая система, когда ей нужно выбрать из двух одинаковых страниц одну и показать ее в результатах выдачи.

Конечно, поисковик учитывает и другие параметры при ранжировании, такие как внешние и внутренние ссылки, поведение пользователей, но факт остается фактом: из нескольких одинаково красных яблок, Google или других поисковых систем должны выбрать одно. В этом-то и состоит вся трудность.

Возникновение такой дилеммы может привести к различным негативным последствиям:

1
Снижению релевантности основной посадочной страницы, а, значит, и снижению позиций ключевых слов.
2
«Скачкам» позиций ключевых слов за счет постоянной смены релевантной привязки с одной страницы на другую.
3
Общему понижению в ранжировании, когда проблема приобретает масштабы не отдельных URL, а всего сайта.
Именно подобная опасность вынуждает SEO-оптимизаторов обращать особое внимание на поиск и устранение дублей на этапе внутренней оптимизации.

Какими бывают дубли?

Перед тем, как начать процесс поиска дублей, нужно определиться с тем, что они бывают 2-х типов, а значит, процесс поиска и борьбы с ними будет несколько отличным. Так, в частности, выделяют:
  • Полные дубли
    Когда одна и та же страница размещена по 2-м и более адресам.
  • Частичные дубли
    Когда определенная часть контента дублируется на ряде страниц, но они уже не являются полными копиями.
Как удалить пустые страницы на сайте

Полные дубликаты — откуда они берутся?

1
Одна и та же страница по адресу с «www» и без «www».

Такую проблему еще часто называют: «Не выбрано главное зеркало сайта».
2
Дубли главной страницы по адресам:

http://mysite.com/index,
http://mysite.com/index/,
http://mysite.com/index.php,
http://mysite.com/index.php/,
http://mysite.com/index.html,
http://mysite.com/index.html/.


Один из этих URL может быть адресом главной страницы по умолчанию.
3
Дубли, сгенерированные реферальной ссылкой.

Когда пользователь приходит по URL адресу с параметром «?ref=…», должно происходить автоматическое перенаправление на URL без параметра, что, к сожалению, часто забывают реализовать разработчики.
4
Ошибки, связанные с иерархией URL, приводящие к возникновению дублей.

Так, например, один и тот же товар может быть доступен по четырем разным URL-адресам:

https://mysite.com/catalog/dir/tovar.php,
https://mysite.com/catalog/tovar.php,
https://mysite.com/tovar.php,
https://mysite.com/dir/tovar.php.

5
Некорректная настройка страницы 404 ошибки, приводящая к возникновению «бесконечных дублей» страниц вида:

http://mysite.com/olololo-test-olololo

где текст, выделенным красным — это любой набор латинских символов и цифр.
6
Страницы с utm-метками и параметрами «gclid».

Данные метки нужны для того, чтобы передавать некоторые дополнительные данные в системы контекстной рекламы и статистики. Несмотря на то, что, по идее, они не должны индексироваться поисковыми системами, частенько можно встретить полный дубль страницы с utm-меткой в выдаче.

Полные дубли представляют серьезную опасность с точки зрения SEO, так как критично воспринимаются поисковыми системами и могут привести к серьезным потерям в ранжировании и даже к наложению фильтра, пессимизирующего весь сайт.
Хотите с помощью Serpstat найти дубли страниц?
Активируйте триал и протестируйте платформу бесплатно в течение 7 дней!

Частичные дубликаты — что
представляют из себя?

Как и в случае с полными дублями, частичные возникают, в первую очередь, из-за особенностей CMS сайта, но значительно труднее обнаруживаются. Кроме того, от них сложнее избавиться, но об этом чуть ниже, а пока наиболее распространенные варианты:
1
Страницы пагинации, сортировок, фильтров

Как правило, каким-то образом меняя выводимый товарный ассортимент на странице категории магазина, страница изменяет свой URL (фактически все случаи, когда вывод не организован посредством скриптов). При этом SEO-текст, заголовки, часто и мета-данные — не меняются. Например:

http://mysite.com/catalog/category/ — стартовая страница категории товаров

http://mysite.com/catalog/category/?page=2 — страница пагинации

При том, что URL адрес изменился и поисковая система будет индексировать его как отдельную страницу, основной SEO-контент будет продублирован.
дубли страниц на сайте пагинация
2
Страницы отзывов, комментариев, характеристик

Достаточно часто можно встретить ситуацию, когда при выборе соответствующей вкладки на странице товара, происходит добавление параметра в URL-адрес, но сам контент фактически не меняется, а просто открывается новый таб.
3
Версии для печати, PDF для скачивания

Данные страницы полностью дублируют ценный SEO-контент основных страниц сайта, но имеют упрощенную версию по причине отсутствия большого количества строк кода, обеспечивающего работу функционала. Например:

http://mysite.com/main/hotel/al12188 — страница отеля
http://mysite.com/main/hotel/al12188/print — ЧБ версия для печати
http://mysite.com/main/hotel/al12188/print?color=1 — Цветная версия для печати.
Выдача Google:
дубли в выдаче страницы для печати
4
Html слепки страниц сайта, организованных посредством технологии AJAX

Найти их можно заменив в оригинальном URL-адресе страницы «!#» на «?_escaped_fragment_=». Как правило, в индекс такие страницы попадают только тогда, когда были допущены ошибки в имплементации метода индексации AJAX страниц посредством перенаправления бота на страницу-слепок и робот обрабатывает два URL-адреса: основной и его Html-версию.

Основная опасность частичных дублей в том, что они не приводят к резким потерям в ранжировании, а делают это постепенно и незаметно для владельца сайта. То есть найти их влияние сложнее и они могут систематически, на протяжении долгого времени «отравлять жизнь» оптимизатору.

C помощью каких инструментов искать дубли?

Существует несколько инструментов для поиска дублей:

Мониторинг выдачи посредством оператора «site:»

Отобразив на странице SERP все проиндексированные URL участвующие в поиске, можно визуально детектировать повторы и разного рода «мусор».

Десктопные программы-парсеры и сервисы

Могу порекомендовать три удобные и информативные программы: Screaming Frog Seo Spider, Netpeak Spider, Xenu. Запуская собственных ботов к вам на сайт, программы выгружают полный список URL-адресов, который можно отсортировать по совпадению тега «Title» или «Description», и таким образом, выявить возможные дубли.
 Пример отчета по выявлению потенциальных дублей из Netpeak Spider
В Serpstat также можно найти потенциальные дубли. Он находит страницы с дублирующимися Title и Description.
SEO-аудит сайта с помощью Serpstat: обзор инструмента

Поисковая консоль Google

В Google Search Console во вкладке «Оптимизация Html» можно посмотреть список страниц с повторяющимися мета-описаниями, т.е. список потенциальных дублей.

Ручной поиск непосредственно на сайте

Опытные веб-мастера способны вручную выявить большинство дублей в течение пары минут, просто попробовав различные вариации URL-адресов в обозначенных выше проблемных местах.

Как побороть и чем?

Способов борьбы с дубликатами не так уж и много, но все они потребуют от вас привлечения специалистов-разработчиков, либо наличия соответствующих знаний. По факту же арсенал для «выкорчевывания» дублей сводится к:
1
Их физическому удалению — хорошее решение для статических дублей.
2
Запрещению индексации дублей в файле «robots.txt» — подходит для борьбы со служебными страницами, частично дублирующими контент основных посадочных.
3
Настройке 301 редиректов в файле-конфигураторе «.htacces» — хорошее решение для случая с рефф-метками и ошибками в иерархии URL.
4
Установке тега «rel=canonical» — лучший вариант для страниц пагинации, фильтров и сортировок, utm-страниц.

Пример установки тега на странице пагинации:
5
Установке тега «meta name="robots" content="noindex, nofollow"» — решение для печатных версий, табов с отзывами на товарах.

Быстро проанализировать robots.txt, состояние тега canonical поможет:
Расширение для браузеров Serpstat Website SEO Checker

Как быстро найти дубли страниц на сайте с помощью Serpstat

Чтобы быстро найти дубли страниц на сайте, можно воспользоваться «Аудитом сайта» от Serpstat. Это инструмент, который позволяет проанализировать сайт на наличие технических ошибок.

Аудит сайта Serpstat работает по тому же принципу, что и поисковый робот. Проверка укажет на слабые места вашего сайта, в которых он не соответствует требованиям поисковых систем, и предложит способы исправления этих ошибок. Также можно провести аудит одной страницы.

Для того, чтобы провести проверку сайта на ошибки, необходимо сначала создать проект и сделать соответствующие настройки. Подробнее об этом читайте в статье.
SEO-аудит сайта с помощью Serpstat: обзор инструмента
После того как проверка будет произведена, вы получите подборную сводку по ошибкам. В ней все SEO-уязвимости будут распределены по приоритетам: от высокого — ошибок, которые угрожают позициям, до низкого — ошибок, которые опасны в меньшей мере, но требуют исправления и советов по улучшению, которые стоит внедрить, чтобы сайт выглядел привлекательнее в глазах поисковых роботов.

Чтобы найти дубли страниц, в сводке по ошибкам необходимо перейти в раздел «Метатеги» и найти пункт «Дублирующийся Title». Если возле него чек-бокс будет окрашен в серый цвет, значит на вашем сайте найдены такие неполадки.
поиск дублей на сайте аудит serpstat
Как видим, данная ошибка имеет высокий приоритет, так как метатег Title — это один из важнейших элементов, которые напрямую влияют на ранжирование. Кликните на название ошибки, чтобы увидеть ее описание, рекомендации к устранению и список URL, где она встречается.

Также косвенно можно найти дубли с помощью пункта «Дублирующийся Description» Следуйте рекомендациям и постарайтесь устранить ошибку как можно скорее.
как найти дубли страниц на сайте с помощью serpstat
Проверьте с помощью Serpstat сайт на дубли!
Активируйте триал и протестируйте платформу бесплатно в течение 7 дней!

Заключение

Часто решение проблемы кроется в настройке самого движка, а потому основной задачей оптимизатора является не столько устранение, сколько выявление полного списка частичных и полных дублей и постановке грамотного ТЗ исполнителю.

Запомните следующее:
  • 1
    Полные и частичные дубли могут понизить позиции сайта в выдаче не только в масштабах URL, а и всего домена.
  • 2
    Полные дубли — это когда одна и та же страница размещена по 2-м и более адресам.Частичные дубли — это когда определенная часть контента дублируется на ряде страниц, но они уже не являются полными копиями.
  • 3
    Полные дубликаты нетрудно найти и устранить. Чаще всего причина их появления зависит от особенностей CMS сайта и навыков SEO разработчика сайта.
  • 4
    Частичные дубликаты найти сложнее и они не приводят к резким потерям в ранжировании, однако делают это постепенно и незаметно для владельца сайта.
  • 5
    Чтобы найти частичные и полные дубли страниц, можно использовать мониторинг выдачи с помощью поисковых операторов, специальные программы-парсеры, поисковую консоль Google и ручной поиск на сайте.
  • 6
    Избавление сайта от дублей сводится к их физическому удалению, запрещению индексации дублей в файле «robots.txt», настройке 301 редиректов, установке тегов «rel=canonical» и «meta name="robots" content="noindex, nofollow"».

Serpstat — набор инструментов для поискового маркетинга!

Находите ключевые фразы и площадки для обратных ссылок, анализируйте SEO-стратегии конкурентов, ежедневно отслеживайте позиции в выдаче, исправляйте SEO-ошибки и управляйте SEO-командами.

Набор инструментов для экономии времени на выполнение SEO-задач.

7 дней бесплатно

Оцените статью по 5-бальной шкале

4.35 из 5 на основе 158 оценок
Нашли ошибку? Выделите её и нажмите Ctrl + Enter, чтобы сообщить нам.

Используйте лучшие SEO инструменты

Проверка обратных ссылок

Быстрая проверка обратных ссылок вашего сайта и конкурентов

API для SEO

Получите быстро большие объемы данных используя SЕО API

Анализ конкурентов

Сделайте полный анализ сайтов конкурентов для SEO и PPC

Мониторинг позиций

Отслеживайте изменение ранжирования запросов используя мониторинг позиций ключей

Поделитесь статьей с вашими друзьями

Вы уверены?

Знакомство с Serpstat

Узнайте об основных возможностях сервиса удобным способом!

Отправьте заявку и наш специалист предложит вам варианты обучения: персональную демонстрацию, пробный период или материалы для самостоятельного изучения и повышения экспертизы. Все для комфортного начала работы с Serpstat.

Имя

Email

Телефон

Будем рады вашему комментарию
Я принимаю условия Политики конфиденциальности.

Спасибо, мы сохранили ваши новые настройки рассылок.

Сообщить об ошибке

Отменить
Открыть чат технической поддержки
mail pocket flipboard Messenger telegramm