Мы используем файлы cookie для обеспечения работоспособности сервиса, улучшения навигации и маркетинговых активностей Serpstat. Нажимая "Принять и продолжить", вы соглашаетесь с нашей Политика конфиденциальности

Сообщить об ошибке

Отменить
18654 111
SEO Читать 11 минут

Как задать в robots.txt директивы для роботов Google и Яндекса

Как задать в robots.txt директивы для роботов различных поисковых систем
ЧЕК-ЛИСТ: ТЕХНИЧЕСКАЯ ЧАСТЬ — ROBOTS.TXT
Александр Иванов
Ильхом Чакканбаев
Автор блога Seopulses.ru
Файл robots.txt — это текстовый файл, в котором содержаться инструкции для поисковых роботов, в частности каким роботам и какие страницы допускается сканировать, а какие нет. В данной статье рассмотрим, где можно найти robots.txt, как его редактировать и какие правила по его использовать в SEO-продвижении.

Зачем robots.txt нужен на сайте

Командами robots.txt называются директивы, которые разрешают либо запрещают сканировать отдельные участки веб-ресурса. С помощью файла вы можете разрешать или ограничивать сканирование поисковыми роботами вашего веб-ресурса или его отдельных страниц, чем можете повлиять на позиции сайта. Пример того, как именно директивы будут работать для сайта:
Зачем нужен файл robots.txt
На картинке видно, что доступ к определенным папкам, а иногда и отдельным файлам, не допускает к сканированию поисковыми роботами. Директивы в файле носят рекомендательный характер и могут быть проигнорированы поисковым роботом, но как правило, они учитывают данное указание. Техническая поддержка также предупреждает вебмастеров, что иногда требуются альтернативные методы для запрета индексирования:
Как задать в robots.txt директивы для роботов различных поисковых систем 16261788174424
Ограничения robots.txt
Какие страницы нужно закрыть от индексации

Где можно найти файл robots.txt и как его создать или редактировать

Чтобы проверить файл robots.txt сайта, следует добавить к домену «/robots.txt», примеры:
Как задать в robots.txt директивы для роботов различных поисковых систем 16261788174427
Как провести анализ индексации сайта

Как создать и редактировать robots.txt

Вручную

Данный файл всегда можно найти, подключившись к FTP сайта или в файлом редакторе хостинг-провайдера в корневой папке сайта (как правило, public_html):
Как задать в robots.txt директивы для роботов различных поисковых систем 16261788174428
Далее открываем сам файл и можно его редактировать.
Как задать в robots.txt директивы для роботов различных поисковых систем 16261788174429
Если его нет, то достаточно создать новый файл.
Как задать в robots.txt директивы для роботов различных поисковых систем 16261788174430
После вводим название документа и сохраняем.
Как задать в robots.txt директивы для роботов различных поисковых систем 16261788174432

Через модули/дополнения/плагины

Чтобы управлять данный файлом прямо в административной панели сайта следует установить дополнительный модуль:
Как задать в robots.txt директивы для роботов различных поисковых систем 16261788174433
Самые распространенные SEO-ошибки на сайте: инфографика

Инструкция по работе с robots.txt

В первую очередь записывается User-Agent, указывая на то, к какому роботу идет обращение, например:
User-agent: Yandex — для обращения к поисковому роботу Яндекса;
User-agent: Googlebot — в случае с краулером Google;
User-agent: YandexImages — при работе с ботом Яндекс.Картинок.
Обращения в robots.txt для Яндекса:
Чтобы обозначить обращение для поисковых роботов данной системы применяют такие значения:
Yandex Bot — основной робот, который будет индексировать ваш ресурс;
Yandex Media — робот, который специализируется на сканировании мультимедийной информации;
Yandex Images — индексатор для Яндекс.Картинок;
Yandex Direct — робот, который сканирует страницы веб-площадок, имеющих отношение к рекламе в Яндексе;
Yandex Blogs — робот для поиска в блогах и форумах, который индексирует комментарии в постах;
Yandex News — бот собирающий данные по Яндекс Новостям;
Yandex Pagechecker — робот, который обращается к странице с целью валидировать микроразметку.
Обращения в robots.txt для Google:
Имена используемые для краулеров от Google:
Googlebot — краулер, индексирующий страницы веб-сайта;
Googlebot Image — сканирует изображения и картинки;
Googlebot Video — сканирует всю видео информацию;
AdsBot Google — анализирует качество размещенной рекламы на страницах для компьютеров;
AdsBot Google Mobile — анализирует качество рекламы мобильных версий сайта;
Googlebot News — оценивает страницы для использования в Google Новости;
AdsBot Google Mobile Apps — расценивает качество рекламы для приложений на андроиде, аналогично AdsBot.
Полный список роботов Яндекс и Google.

Синтаксис в robots.txt

В первую очередь записывается User-Agent, указывая на то, к какому роботу идет обращение, например:
# — отвечает за комментирование;
* — указывает на любую последовательность символов после этого знака. По умолчанию указывается при любого правила в файле;
$ — отменяет действие *, указывая на то что на этом элементе необходимо остановиться.
Почему сайт не индексируется или
как проверить индексацию сайта в Google и Яндекс

Директивы в Robots.txt

Disallow

Disallow запрещает индексацию отдельной страницы или группы (в том числе всего сайта). Чаще всего используется для того, чтобы скрыть технические страницы, динамические или временные страницы.
Пример #1
# Полностью закрывает весь сайт от индексации

User-agent: *

Disallow: /
Пример #2
# Блокирует для скачивания все страницы раздела /category1/, например, /category1/page1/ или caterogy1/page2/

Disallow: /category1/
Пример #3
# Блокирует для скачивания страницу раздела /category2/

User-agent: *

Disallow: /category2/$
Пример #4
# Дает возможность сканировать весь сайт просто оставив поле пустым

User-agent: *

Disallow:
Важно! Следует понимать, что регистр при использовании правил имеет значение, например, Disallow: /Category1/ не запрещает посещение страницы /category1/.

Allow

Директива Allow указывает на то, что роботу можно сканировать содержимое страницы/раздела, как правило, используется, когда в полностью закрытом разделе, нужно дать доступ к определенному документу.
Пример #1
# Дает возможность роботу скачать файл site.ru//feed/turbo/ несмотря на то, что скрыт раздел site.ru/feed/.

Disallow: */feed/*

Allow: /feed/turbo/
Пример #2
# разрешает скачивание файла doc.xml

Allow: /doc.xml

Sitemap

Директива Sitemap указывает на карту сайта, которая используется в SEO для вывода списка URL, которые нужно проиндексировать в первую очередь.

Важно понимать, что в отличие от стандартных директив у нее есть особенности в записи:
Следует указывать полный URL, когда относительный адрес использовать запрещено;
На нее не распространяются остальные правила в файле robots.txt;
XML-карта сайта должна иметь в URL-адресе домен сайта.
Пример
# Указывает карту сайта

Sitemap: https://serpstat.com/sitemap.xml
Sitemap.xml или карта сайта: как создать и настроить для Google и Яндекс

Clean-param

Используется когда нужно указать Яндексу (в Google она не работает), что страница с GET-параметрами (например, site.ru?param1=2&param2=3) и метками (в том числе utm) не влияющие на содержимое сайта, не должна быть проиндексирована.
Пример #1
#для адресов вида:

www.example1.com/forum/showthread.php?s=681498b9648949605&t=8243

www.example1.com/forum/showthread.php?s=1e71c4427317a117a&t=8243

#robots.txt будет содержать:

User-agent: Yandex

Disallow:

Clean-param: s /forum/showthread.php
Пример #2
#для адресов вида:

www.example2.com/index.php?page=1&sid=2564126ebdec301c607e5df

www.example2.com/index.php?page=1&sid=974017dcd170d6c4a5d76ae

#robots.txt будет содержать:

User-agent: Yandex

Disallow:

Clean-param: sid /index.php

Подробнее о данной директиве можно прочитать здесь.

Crawl-delay

Важно! Данная директива не поддерживается в Яндексе с 22 февраля 2019 года и в Google 1 сентября 2019 года, но работает с другими роботами. Настройки скорости скачивания можно найти в Яндекс.Вебмастер и Google Search Console.
Crawl-delay указывает временной интервал в секундах, в течение которого роботу разрешается делать только 1 сканирование. Как правило, необходима лишь в случаях, когда у сайта наблюдается большая нагрузка из-за сканирования.
Пример
# Допускает скачивание страницы лишь раз в 3 секунды

Crawl-delay: 3
Хотите узнать, как использовать Serpstat для поиска ошибок на сайте?

Заказывайте бесплатную персональную демонстрацию сервиса, и наши специалисты вам все расскажут! ;)
Как задать в robots.txt директивы для роботов различных поисковых систем 16261788174434

Как проверить работу файла robots.txt

В Яндекс.Вебмастер

В Яндекс.Вебмастер в разделе «Инструменты→ Анализ robots.txt» можно увидеть используемый поисковиком свод правил и наличие ошибок в нем.
Как задать в robots.txt директивы для роботов различных поисковых систем 16261788174435
Также можно скачать другие версии файла или просто ознакомиться с ними.
Как задать в robots.txt директивы для роботов различных поисковых систем 16261788174436
Чуть ниже имеется инструмент, который дает возможно проверить сразу до 100 URL на возможность сканирования.

В нашем случае мы проверяем эти правила.
Как задать в robots.txt директивы для роботов различных поисковых систем 16261788174437
Как видим из примера все работает нормально.
Как задать в robots.txt директивы для роботов различных поисковых систем 16261788174438
Также если воспользоваться сервисом «Проверка ответа сервера» от Яндекса также будет указано, запрещен ли для сканирования документ при попытке обратиться к нему.
Как задать в robots.txt директивы для роботов различных поисковых систем 16261788174439

В Google Search Console

В случае с Google можно воспользоваться инструментом проверки Robots.txt, где потребуется в первую очередь выбрать нужный сайт.
Как задать в robots.txt директивы для роботов различных поисковых систем 16261788174441
Важно! Ресурсы-домены в этом случае выбирать нельзя.
Теперь мы видим:
Сам файл;
Кнопку, открывающую его;
Симулятор для проверки сканирования.
Как задать в robots.txt директивы для роботов различных поисковых систем 16261788174442
Если в симуляторе ввести заблокированный URL, то можно увидеть правило, запрещающее сделать это и уведомление «Недоступен».
Как задать в robots.txt директивы для роботов различных поисковых систем 16261788174443
Однако, если ввести заблокированный URL в страницу поиска в новой Google Search Console (или запросить ее индексирование), то можно увидеть, что страница заблокирована в файле robots.txt.
Как задать в robots.txt директивы для роботов различных поисковых систем 16261788174444

Заключение

Robots.txt необходим для ограничения сканирования определенных страниц вашего сайта, которые не нужно включать в индекс, так как они носят технический характер. Для создания такого документа можно воспользоваться Блокнотом или Notepad++.

Пропишите к каким поисковым роботам вы обращаетесь и дайте им команду, как описано выше.

Далее, проверьте его правильность через встроенные инструменты Google и Яндекс. Если не возникает ошибок, сохраните файл в корневую папку и еще раз проверьте его доступность, перейдя по ссылке http://yoursiteadress.com/robots.txt. Активная ссылка говорит о том, что все сделано правильно.

Помните, что директивы носят рекомендательный характер, а для того чтобы полностью запретить индексирование страницы нужно воспользоваться другими методами.
Эта статья — часть модуля «Список задач» в Serpstat
«Список задач» в Serpstat" title = "Как задать в robots.txt директивы для роботов различных поисковых систем 16261788174445" />
«Список задач» — готовый to-do лист, который поможет вести учет
о выполнении работ по конкретному проекту. Инструмент содержит готовые шаблоны с обширным списком параметров по развитию проекта, к которым также можно добавлять собственные пункты.
Начать работу со «Списком задач»

Сэкономьте время на изучении Serpstat

Хотите получить персональную демонстрацию сервиса, тестовый период или эффективные кейсы использования Serpstat?

Оставьте заявку и мы свяжемся с вами ;)

Оцените статью по 5-бальной шкале

4.69 из 5 на основе 12 оценок
Нашли ошибку? Выделите её и нажмите Ctrl + Enter, чтобы сообщить нам.