Serpstat использует файлы cookie для обеспечения работоспособности сервиса, улучшения навигации, предоставления возможности связаться с командой поддержки, а также маркетинговых активностей Serpstat.

Нажав кнопку "Принять и продолжить", вы соглашаетесь с Политики конфиденциальности

Принять и продолжить

Закрыть

Сообщить об ошибке

Отменить
2823 2
How-to Читать 7 минут 10 октября 2018

Как задать в robots.txt директивы для роботов Google и Яндекса

Как задать в robots.txt директивы для роботов различных поисковых систем
ЧЕК-ЛИСТ: ТЕХНИЧЕСКАЯ ЧАСТЬ — ROBOTS.TXT
Инструкцию одобрил
SEO Classifieds Specialist в Netpeak
Robots.txt — это документ, имеющий расширение txt и содержащий рекомендации для роботов различных поисковых систем, который помещен в корень вашего веб-ресурса.

Зачем robots.txt нужен на сайте

Командами robots.txt называются директивы, которые разрешают либо запрещают сканировать отдельные участки веб-ресурса. С помощью файла вы можете разрешать или ограничивать сканирование поисковыми роботами вашего веб-ресурса или его отдельных страниц. Пример того, как именно директивы будут работать для сайта:
Зачем нужен файл robots.txt
На картинке видно, что доступ к определенным папкам, а иногда и отдельным файлам, не допускает к сканированию поисковыми роботами. Директивы в файле носят рекомендательный характер и могут быть проигнорированы поисковым роботом, но как правило, они учитывают данное указание. Техническая поддержка также предупреждает вебмастеров, что иногда требуются альтернативные методы для запрета индексирования:
Ограничения robots.txt
Какие страницы следует закрывать?

Как правило, закрывают от индексации технические страницы, которые не принесут пользователю никакой пользы, а созданы в целях обслуживания сайта. Страницы корзины, личные данные и профили клиентов тоже следует закрывать от индексации. В том числе файлом robots.txt.
Как создается файл и какие директивы используются?

Создать документ нужно через блокнот или Notepad++, расширение должно быть только формата «.txt» . Внесите необходимые директивы и сохраните документ. Далее загрузите его в корень сайта. Теперь подробнее о составляющих файла.

Команды бывают двух типов:
  • позволить сканирование (Disallow);
  • закрыть доступ для сканирования (Allow);

Дополнительно указывают:
  • скорость обхода (Crawl-delay);
  • хост (host);
  • карта страниц сайта (sitemap.xml).

Символы в robots.txt

Символ слеш «/» используется, чтобы выбрать сайт целиком.
Знак «*» означает любую последовательность символов. Так удобнее обозначать, что сканировать можно глубиной до указанной папки или файла:
Disallow: */trackback
Знак «$» говорит об окончании строки. Боты поиска Яндекс и Google отличаются именами. Обращение к поисковому роботу — User Agent + имя бота, к которому применяется правило. Например:
User-agent: Yandex
Но User-agent:* будет значить обращение ко всем ботам Яндекс, Гугл и другим. Обращаясь к боту, нужно знать его специфику работы, так как каждый алгоритм направлен закрывать отдельные задачи. Специфика наиболее используемых поисковиков расписана далее.

Обращения в robots.txt для Яндекса:

Чтобы обозначить обращение для поисковых роботов данной системы применяют такие значения:
  • Yandex Bot — основной робот, который будет индексировать ваш ресурс;
  • Yandex Media — робот, который специализируется на сканировании мультимедийной информации;
  • Yandex Images — индексатор для Яндекс.Картинок;
  • Yandex Direct — робот, который сканирует страницы веб-площадок, имеющих отношение к рекламе в Яндексе;
  • Yandex Blogs — робот для поиска в блогах и форумах, который индексирует комментарии в постах;
  • Yandex News — бот собирающий данные по Яндекс Новостям;
  • Yandex Pagechecker — робот, который обращается к странице с целью валидировать микроразметку.

Обращения в robots.txt для Google:

Имена используемые для краулеров от Google:
  • Googlebot — краулер, индексирующий страницы веб-сайта;
  • Googlebot Image — сканирует изображения и картинки;
  • Googlebot Video — сканирует всю видео информацию;
  • AdsBot Google — анализирует качество размещенной рекламы на страницах для компьютеров;
  • AdsBot Google Mobile — анализирует качество рекламы мобильных версий сайта;
  • Googlebot News — оценивает страницы для использования в Google Новости;
  • AdsBot Google Mobile Apps — расценивает качество рекламы для приложений на андроиде, аналогично AdsBot.
Узнав имена поисковых роботов и команды для управления, разберем пример как составить документ. Итак, обратимся к поисковому роботу для Яндекс и запретим сканирование сайта полностью. Команда будет отображаться так: User-agent: YandexDisallow: /

Теперь для примера разрешим всем ботам индексировать сайт:
User-agent: *Allow: /

Запишем ссылку на sitemap вашего сайта и хост. В итоге получим robots.txt для https:

User-agent: *Allow: /
Host: https://example.com
Sitemap: https://example.com/sitemap.xml


Так мы сообщили, что наш сайт можно сканировать без каких либо ограничений, а также указали хост и карту. Если сканирование надо ограничить, применяем команду запрета. Например, заблокируем доступ к техническим составляющим сайта:

User-agent: *Disallow: /wp-login.phpDisallow: /wp-register.phpDisallow: /feed/Disallow: /cgi-binDisallow: /wp-admin
Host: https://example.com
Sitemap: https://example.com/sitemap.xml


Если ваш сайт использует протокол http вместо https — не забудьте изменить содержимое строк.

Образец реального файла для веб-ресурса:
Образец файла robots.txt
Этим методом было сообщено, что всем поисковым системам ограничен допуск сканировать указанные папки. Помните о том, что документ чувствителен к регистру букв. Папки с одинаковыми набором символов не будут одним и тем же, если использовать заглавные буквы по разному.
Например: example, Example, EXAMPLE. Распространенная ошибка новичков — использование заглавных букв в названии файла, например: Robots.txt (неправильно!), вместо robots.txt.

Проверка robots.txt на корректность

Документ должен храниться исключительно в корневой папке. Размещение в подпапках admin, content и так далее — это неправильно. Система не учтет этот файл и вся работа будет проделана впустую. Убедитесь, что верно загрузили документ, перейдя на главную страницу сайта и дописав к адресу веб-сайта «/robots.txt». Затем нажмите Enter и посмотрите загрузилась ли страница. Выглядеть ссылка будет таким образом: http://yoursiteadress.com/robots.txt.
Проверка файла robots.txt
Полученная в ответ страница ошибки 404 означает, что вы сохранили файл неправильно. Для проверки корректности работы самих директив, существуют встроенные инструменты от Google и Яндекс. Search Console, например, может проверить корректность файла.

Перейдите в панель и в левом меню выберите инструмент проверки robots.txt:
Проверка robots.txt в Google Search Console
В открывшемся окне вы можете вставить скопированный текст из файла и запустить проверку. Так проверяют документы, которые еще не загружены в корень.
Инструмент проверки файла robots.txt в Google Search Console
Проверьте правильность уже существующего robots.txt, указав путь к нему, как на скриншоте:
Проверить правильность robots.txt
Ошибки система подсветит в результатах. Яндекс проверяет аналогично. Зайдите в управление Вебмастеров и откройте раздел Инструментов, где выберите Анализ robots.txt:
Анализ robots.txt в Яндекс.Вебмастере
Пройдите такую же процедуру, скопировав содержимое документа и нажав кнопку Проверить:
Проверить robots.txt в Яндекс.Вебмастере
Результаты будут выведены ниже:
Результаты анализа robots.txt в Вебмастере
Строка с ошибкой подсветится красным. Обязательно займитесь их устранением для настройки корректной работы с краулерами.

Заключение

Robots.txt необходим для ограничения сканирования определенных страниц вашего сайта, которые не нужно включать в индекс, так как они носят технический характер. Для создания такого документа можно воспользоваться Блокнотом или Notepad++.

Пропишите к каким поисковым роботам вы обращаетесь и дайте им команду, как описано выше.

Далее, проверьте его правильность через встроенные инструменты Google и Яндекс. Если не возникает ошибок, сохраните файл в корневую папку и еще раз проверьте его доступность, перейдя по ссылке http://yoursiteadress.com/robots.txt. Активная ссылка говорит о том, что все сделано правильно.

Помните, что директивы носят рекомендательный характер, а для того чтобы полностью запретить индексирование страницы нужно воспользоваться другими методами.
Эта статья — часть модуля «Список задач» в Serpstat
«Список задач» в Serpstat
«Список задач» — готовый to-do лист, который поможет вести учет
о выполнении работ по конкретному проекту. Инструмент содержит готовые шаблоны с обширным списком параметров по развитию проекта, к которым также можно добавлять собственные пункты.
Начать работу со «Списком задач»

Сэкономьте время на изучении Serpstat

Хотите получить персональную демонстрацию сервиса, тестовый период или эффективные кейсы использования Serpstat?

Оставьте заявку и мы свяжемся с вами ;)

Оцените статью по 5-бальной шкале

5 из 5 на основе 4 оценок
Нашли ошибку? Выделите её и нажмите Ctrl + Enter, чтобы сообщить нам.

Поделитесь статьей с вашими друзьями

Войти Регистрация

Вы исчерпали лимит запросов.

Или email
Забыли пароль?
Или email
Back To Login

Не волнуйтесь! Напишите свой электронный адрес и мы пришлем вам новый пароль.

Вы уверены?

Awesome!

To complete your registration you need to enter your phone number

Назад

Мы отправили код подтверждения на ваш номер телефона

Your phone Resend code Осталось запросов

Что-то пошло не так.

Свяжитесь с нашей службой поддержки
Или подтвердите регистрацию с помощью Телеграм бота Перейдите по этой ссылке
Выберите один из проектов

Знакомство с сервисом

Ознакомьтесь с основными возможностями Serpstat удобным способом!

Отправьте заявку для ознакомления с сервисом и мы свяжемся с вами в кратчайшие сроки. Наш специалист предложит подходящий вариант, который может включать персональную демонстрацию, пробный период, материалы для обучения и повышения экспертизы, личную консультацию, а также комфортные условия для начала работы с Serpstat.

Имя

Email

Телефон

Будем рады вашему комментарию
Увеличить лимиты

Улучшить тариф

Экспорт недоступен для вашего тарифного плана. Вам необходимо улучшить свой тариф до Lite или выше, чтобы получить доступ к инструменту Подробнее

Зарегистрироваться

Спасибо, мы с вами свяжемся в ближайшее время

Пригласить
Просмотр Редактирование

E-mail
Сообщение
необязательно
E-mail
Сообщение
необязательно

У вас закончились лимиты

Вы достигли лимита на количество созданных проектов и больше не можете создавать новые проекты. Увеличьте лимиты или удалите существующие проекты.

Я хочу больше лимитов