21708 2
How-to Читать 10 минут 14 марта 2019

Как устранить ошибки сканирования

Проблемы со сканированием в Google
ЧЕК-ЛИСТ: ТЕХНИЧЕСКАЯ ЧАСТЬ — ИСПРАВЛЕНИЕ
Инструкцию одобрил
Head of SEO в iProspect Ukraine
Ошибки сканирования появляются, когда поисковому роботу не удается получить доступ к странице сайта. Так бывает из-за ошибок в настройках сервера, сбоях CMS, изменений структуры URL и других причин. Ошибки могут повлиять на рейтинг сайта в поисковой выдаче, а также на отношение пользователей к ресурсу.

Где проверить сканирование сайта

В инструменте Google Search Console есть все необходимое, чтобы проверить сайт. Отчеты о статистике сканирования web-ресурса, количество показов и кликов, средняя позиция в поиске.

В отчетах сканирования вы можете обнаружить ошибки. Также дается краткое объяснение для вебмастера: отчего они появились, как их решать.

Информация в Search Console попадает с задержкой. Поэтому может по нескольку недель отображать информацию об ошибках, которые уже устранены.

Желательно кроме консолей проверять сайт другими средствами сканирования и аудирования сайта. Можно также провести аудит одной страницы сайта.

Ошибки сканирования в Google Search Console

Google делит ошибки на 2 типа:

  • ошибки сайта — появляются, если бот не может обойти весь ресурс;
  • ошибки URL — говорят о проблеме с отдельными страницами.

Первые нужно устранять как можно быстрее: они влияют на возможность продвижения. Если сайт в целом не оптимизирован, устранение этих ошибок мало повлияет на его рост в поисковой выдаче.

Ошибки сайта

Так выглядит панель вебмастера без ошибок:
Site Errors в Google Search Console
Если есть проблемы, появляются блоки, где они конкретизируются:
Покрытие в Google Search Console
На скриншоте ниже видно, что Sitemap.xml есть URL, который заблокирован тегом noindex. Достаточно убрать этот тег, чтобы наладить сканирование:
Сведения об ошибках сканирования в Google Search Console
Но ошибки возникают и по другим причинам.

Ошибки DNS

DNS, или Domain Name System. DNS — это система доменных имен, данные которой используются роботами при посещении ресурсов. Если возникают ошибки DNS, значит, поисковик не может связаться с сайтом, а пользователи его найти и открыть.

Google не сразу сообщает об ошибке: он может пару раз вернуться, и, если попытки будут неудачны, выдаст сообщение в консоли.

Разработчики Google утверждают, что большинство ошибок DNS на продвижение не влияют, так как не мешают сканированию. Но их все равно следует срочно исправлять, иначе пользователи могут уходить с сайта из-за медленной загрузки страниц.
Ошибка DNS в Google Search Console
Как решить проблемы с DNS?
1
Связаться с DNS-провайдером через хостинг-провайдера или DNS регистратора и уточнить, нет ли проблем на его стороне.
2
Воспользоваться инструментом «Просмотреть как Googlebot»: функция сканирования покажет, что соединение с сайтом в норме. На данный момент функция доступна только в старой версии консоли, но в конце марта 2019 года Google ее отключит и неизвестно, останется ли она в текущем виде.
3
Посмотреть, выдает ли сервер код ошибки HTTP 404 и 500 через web-sniffer. По результатам решать проблему с помощью программиста.
4
Удостовериться, что сайт доступен посетителям. Воспользуйтесь сервисом downforeveryoneorjustme. Он помогает проверить доступность сайта не только на вашем устройстве.
Проверка сайта на доступность
5
Через специальные сервисы настроить мониторинг доступности сайта. Это поможет получать уведомления о том, что сайт недоступен, удобным для вас способом.

Ошибки сервера

Возникают, если сервер долго обрабатывает запрос на получение информации о странице от поискового робота. Основные причины:
1
Неподходящий сервер.
2
Сервер может ложиться от DDOS атак.
3
Сервер может не справляться, если его сканирует Google или кто-то с помощью программы-аудитора. Возвращаемся к пункту 1 этого списка.
4
Хостеры могут искусственно ограничивать объем обрабатываемого трафика в месяц.
Нужно ответственно подходить к выбору хостинг-провайдера — он должен обеспечивать бесперебойную работу в любой ситуации.

Ошибки сервера также необходимо устранять в первую очередь. Если в настоящий момент веб-сайт работает (проверьте через сканер Google, который будет доступен до марта 2019), а в консоли появилось сообщение об ошибке, возможно, она была выявлена ранее.

Задача вебмастера — убедиться, что ситуация не повторится. Если в новой версии консоли не появится аналог данного инструмента, используйте программы-сканеры. Например, Netpeak Spider.

Что может случиться?

  • таймаут — случается, если истекло время ожидания соединения, код ошибки 408;

  • усеченные заголовки — робот подключился, но не полностью получил заголовки ответа сервера, код ошибки 304;

  • сброс подключения — запрос обработан сервером, но бот не успел получить результат, код ошибки 205;

  • усеченное тело ответа — получен не полностью из-за преждевременного отключения, код ошибки 206;

  • сбой подключения — возникает, если CDN или сеть доставки контента не может подключиться к веб-серверам, код ошибки 522. Другими словами, компьютер не может подключиться к серверу;

  • отсутствие отклика означает, что сервер или прокси-сервер не получил ответ от вышестоящего сервера, чтобы завершить свой запрос, код ошибки 504;

  • время ожидания истекло — роботу не удается подключиться за установленный системой промежуток времени, код ошибки 502. То есть время ожидания истекло до завершения операции. Или сервер не ответил, поскольку время истекло раньше, чем удалось подключение, либо все подключения уже использованы.

    Отличие данного пункта от первого таймаута состоит в том, что произошло соединение с хостом, но далее желаемое не получено. Это не проблема соединения: она может быть как в запросе, так и в самом хосте.
Ошибка 502 Bad Gateway
При отображении этих ошибок проверьте через сканер Google в консоли, может ли поисковая машина сейчас получить доступ к ресурсу. Если вы все исправили, но ошибка возникла повторно — обращайтесь к хостеру. Так бывает из-за неправильной настройки или перегруженности сервера.

Ошибка доступа к robots.txt

Появляется, когда файл недоступен для поискового робота. Ошибка «недоступно» возникает в случае, когда брандмауэр блокирует Google. Если ее не решать, сканирование будет откладываться.

Корневой документ robots.txt для веб-ресурса создают с целью прописать директивы и закрыть посещение поисковых роботов к техническим web-страницам и другим страницам, которые не содержат полезной и уникальной информации. А также скорректировать процесс сканирования и предоставить путь к карте sitemap для лучшего обхода.

Данный файл дает возможность снизить количество запросов к вашему серверу, соответственно, нагрузку.
Google воспринимает информацию в файле, как директиву, а не прямое указание.
Для решения проблемы достаточно проверить, правильно ли настроен robots.txt:

  • указаны ли правильно разделы и документы, которые запрещено обрабатывать;
  • доступен ли файл или отдает 404 ответ сервера.

Ошибки URL

При ошибках URL возникает проблема со сканированием страницы. Подобные страницы не будут отображены в поиске. Чтобы установить подобный факт, следует ознакомиться с отчетом из Google Search Console «Ошибки URL».
Ошибки URL в Google Search Console
Появляются, когда Googlebot не смог обработать отдельные страницы из-за неправильных редиректов (цепочки бесконечные редиректов; перенаправлений на битые страницы), закрытия в robots.txt, ошибки необновленной sitemap.xml. Отчет можно получить в Search Console. Для этого перейдите в раздел Покрытие из главного меню, как показано на скриншоте выше.

Устранять подобные неполадки проще: при их анализе можно посмотреть конкретные страницы, с которыми возникли проблемы.

Ошибки URL отображаются списком от самых важных до незначительных. Их необходимо устранять, так как у робота есть определенный «краулинговый бюджет»: если он потратит все время на просмотр несуществующих страниц, у сайта останутся не отсканированными полезные страницы (или будут долго проходить индексирование).

Ошибка «Soft 404». Когда возникает:

  • cтраница, которая была удалена, не возвращает код ответа HTTP 404 по требованию пользователя или бота;

  • несуществующая страница перенаправляет пользователей на нерелевантную страницу. Например, если поставили редирект с категории велосипеды на категорию мотоциклы;

  • когда страница пустая, на ней нет контента.

Чтобы устранить ошибки, следует:
1
Удалить битые ссылки.
2
Настроить корректно редиректы.
3
Настроить код ответа 404 для несуществующих страниц.
4
Закрыть от индексации или удалить страницы без контента.
Подобные ошибки возникают при настройке 301 редиректа на нерелевантные урлы. Google их может неправильно интерпретировать. При этом нежелательно перенаправлять много устаревших страниц на основную страницу веб-ресурса, так как лучше проставлять ссылки на аналогичные страницы или похожие по содержанию. Так больше вероятности, что пользователь получит корректный ответ на свой запрос.

Ошибка 404. Она возникает, когда робот сканировал несуществующую страницу, потому что на нее ссылались в других документах, в том числе из sitemap.xml. Есть внутренние и внешние 404 ошибки:

  • если ссылка на удаленную страницу стоит внутри сайта, то разработчики могут ее убрать сами;
  • если ссылка стоит извне, разработчики вместе с SEO-специалистом или контент-менеджером могут настроить 301 редирект в файле .htaccess, чтобы передать ее ссылочный вес на какую-либо релевантную страницу.

Доступ запрещен.
Возникает, когда у робота нет доступа к URL. Например, в файле robots.txt использованы директивы — запрет на сканирование всего ресурса или отдельных каталогов, разделов. Либо хостер заблокировал доступ к сайту.

Чтобы устранить проблему, достаточно убрать причину, препятствующую доступу:

  • дать возможность открывать страницу без авторизации;
  • сформировать файл robots.txt корректно и доступно для поискового робота;
  • проверить через сканер Google, как поисковая машина видит сайт со своей стороны.

Ошибки невыполнения перехода. Обычно возникают по причине ошибок использования перенаправлений, а также JavaScript.

Как их устранить:

  • проверить цепочки редиректов — через онлайн-сервисы, например, redirectdetective.com. Учтите, количество редиректов должно быть минимальным, желательно ограничиться одним;
  • поработать со структурой сайта — на каждую страницу должна вести хотя бы одна статическая ссылка. Для этого проверьте все вручную или воспользуйтесь системами-сканерами / программами-краулерами, если ваш сайт содержит более 1000 страниц;
  • заменить обнаруженные в сервисе URL с переадресацией на целевой, прописав в Sitemap.

Заключение

Ошибки сканирования могут появляться как по вине вебмастера, так и по другим причинам: проблемы с хостингом и доменом, CMS, контент-менеджерами, связью с другими api, сервисами, базами данных и т.д.

Чтобы ситуация не ухудшила позиции в рейтинге, наличие ошибок следует регулярно проверять, а сами ошибки — исправлять.

Эта статья — часть модуля «Список задач» в Serpstat
«Список задач» в Serpstat
«Список задач» — готовый to-do лист, который поможет вести учет
о выполнении работ по конкретному проекту. Инструмент содержит готовые шаблоны с обширным списком параметров по развитию проекта, к которым также можно добавлять собственные пункты.
Начать работу со «Списком задач»

Оцените статью по 5-бальной шкале

2.5 из 5 на основе 6 оценок
Нашли ошибку? Выделите её и нажмите Ctrl + Enter, чтобы сообщить нам.

Используйте лучшие SEO инструменты

Подбор ключевых слов

Поиск ключевых слов – раскройте неиспользованный потенциал вашего сайта

Возможности Serpstat

Возможности Serpstat – комплексное решение для эффективного продвижения вебсайтов

Кластеризация ключевых слов

Кластеризация ключевых слов автоматически обработает до 50 000 запросов в несколько кликов

SEO аудит страницы

Проанализируйте уровень оптимизации документа используя SЕО аудит страницы

Поделитесь статьей с вашими друзьями

Вы уверены?

Знакомство с Serpstat

Узнайте об основных возможностях сервиса удобным способом!

Отправьте заявку и наш специалист предложит вам варианты обучения: персональную демонстрацию, пробный период или материалы для самостоятельного изучения и повышения экспертизы. Все для комфортного начала работы с Serpstat.

Имя

Email

Телефон

Будем рады вашему комментарию
Я принимаю условия Политики конфиденциальности.

Спасибо, мы сохранили ваши новые настройки рассылок.

Сообщить об ошибке

Отменить
Открыть чат технической поддержки
mail pocket flipboard Messenger telegramm