SEO, 19 December 2018 | 9146 1 | Lesezeit 13 Minuten – Später lesen

Robots.txt-Datei: Anleitung für SEO

Die Robots.txt-Datei: Die Anleitung für SEO

Timo Werlich

SEO-Experte und Inhaber der Internetagentur Websailing

Auf der Suche nach Informationen durchdringen Robots jeden Winkel des Internets. Es ist jedoch nicht immer erwünscht, dass bestimmte Inhalte ihren Weg in die Suchmaschinen finden. Mithilfe der Robots.txt-Datei hast du die Möglichkeit, diese Inhalte vor der Indizierung zu schützen.

Gliederung

Was sind Robots?
Rolle der Robots für SEO
Unterschied zum Robots-Meta-Tag
Erstellung einer Robots.txt-Datei
Verarbeitung der Robots.txt-Datei
Case Study: Syntax check mit der Search Console
Nachwort des Autors

Was sind Robots?

Robots und auch Spiders oder Crawler genannt, sind Computerprogramme, die sich automatisch durch die Hypertext-Struktur des Internets bewegen und Informationen sammeln. Je nach Anwendungszweck kann das der vollständige Quellcode eines Dokumentes sein oder auch nur selektive Teilbereiche, wie Bilder, E-Mail-Adressen oder themenbezogene Inhalte.

Robots werden vor Allem dazu genutzt, um Webseiten für die Suchmaschinen zu indizieren. Die beiden bekanntesten Vertreter in dieser Branche sind Google und Bing. Es gibt aber auch andere Anbieter, die sich auf bestimmte Marktsegmente, wie z. B. den medizinischen Sektor, spezialisiert haben.

Robots Exclusion Standard

Der Robots Exclusion Standard wurde 1994 von Martijn Koster entwickelt und stellt ein einfaches Regelwerk zur Steuerung der Crawler da. Die Anweisungen werden in einer Datei mit dem Namen rotobts.txt auf dem Webserver hinterlegt und dort von den Robots vor dem Besuch der Webseite ausgelesen.

Einhaltung ist freiwillig

Es ist wichtig zu erwähnen, dass es sich um keinen verbindlichen Standard handelt. Zwar haben sich viele namenhafte Anbieter, darunter auch Google und Bing, zur Einhaltung bekannt — dies geschieht jedoch auf rein freiwilliger Basis. Unerwünschte Programme, wie z. B. Spambots und E-Mail Havester, ignorieren die robots.txt vollständig. Um sensible Daten auf der Website zuverlässig zu schützen, ist die Robots.txt-Datei also nicht der richtige Weg.

Verhalten der Robots

Eine Robots.txt-Datei muss nicht zwingend vorhanden sein. Die Crawler gehen in diesem Fall davon aus, dass eine Website vollständig zugänglich ist. Sollte die Datei allerdings nur temporär nicht erreichbar sein (Fehlercode 401) oder Fehler im Syntax enthalten, wird das Crawling abgebrochen und zu einem späteren Zeitpunkt fortgesetzt. Weiterleitungen werden hingegen solange abgearbeitet, bis die entsprechende Ressource gefunden wurde.

Rolle der Robots für SEO

Es gibt viele unterschiedliche Gründe, warum bestimmte Inhalte nicht in den Suchmaschinen gefunden werden sollen. Für SEO sind vor allem drei davon relevant:

Das Crawl Budget. Suchmaschinen wie Google legen eine bestimmte Anzahl an Unterseiten fest, dass pro Domain gecrawlt werden. Bei größeren Webseiten, wie z. B. Webshops mit vielen einzelnen Artikelseiten, kommt es regelmäßig vor, dass nicht alle Unterseiten indiziert werden. In diesem Fall ist es sinnvoll, bestimmte Verzeichnisse von der Indizierung auszuschließen, um die Priorität auf die wichtigen Inhalte zu verlagern.

Doubletten vermeiden. Es kann vorkommen, dass ein Dokument unter mehreren Adressen erreichbar ist. Das passiert zum Beispiel, wenn unterschiedliche Parameter in der URL enthalten sind. Um zu vermeiden, dass eine Unterseite mehrfach indiziert wird, können die Parameter über die robots.txt von der Indizierung ausgeschlossen werden.

Ressourcen schonen. Je nach Serverauslastung kann es sinnvoll sein, bestimmte Inhalte für die Robots zu sperren. Das Auslesen großer Datenmengen kann zu Einbrüchen bei der Performance führen und den Betrieb einer Website stören.

Praxistipp: Vorsicht bei CSS- und Javascript-Dateien

Zum Indizieren eines Dokuments rendern Suchmaschinen alle Inhalte. Deshalb sollten Verzeichnisse, die relevante CSS- und Javascript-Dateien enthalten, niemals für die Robots gesperrt werden.

Unterschied zum Robots-Meta-Tag

Neben der Robots.txt-Datei gibt es noch eine weitere Möglichkeit, auf das Verhalten der Crawler Einfluss zu nehmen. Das Robots-Meta-Tag ist ein Bestandteil des HTML-Quellcodes und hat folgenden Syntax:

<meta name="robots" content="(index | noindex), (follow | nofollow)">

Im Unterschied zur Robots.txt-Datei gilt das Meta-Tag aber nur für die aktuelle Unterseite und ist von den Funktionen her stark eingeschränkt. Außerdem lassen sich nur HTML-Dokumente vor der Indizierung schützen — Verzeichnisse und Dateien bleiben außen vor.

Erstellung einer Robots.txt-Datei

Um eine Robots.txt-Datei zu erstellen, genügt ein einfacher Text-Editor. Damit die Datei von den Robots gefunden und ausgelesen werden kann, müssen jedoch einige Bedingungen erfüllt sein.

Die Robots.txt-Datei muss:

den Namen „robots.txt" tragen (Groß- und Kleinschreibung beachten).

im Dateiformat „text/plain" mit dem Zeichensatz Ascii oder UTF-8 gespeichert sein.

im Document-Root des Webservers liegen.

über die Domain via HTTP bzw. HTTPS erreichbar sein.

Praxistipp: Vorsicht mit dem Cache

Die Robots.txt-Datei kann sowohl serverseitig als auch clientseitig gecached werden. Damit die Crawler nicht auf veraltete Daten zugreifen, sollte der Cache nach jeder Änderung gelöscht werden.

Syntax der robots.txt

Die Struktur einer Robots.txt-Datei besteht aus einzelnen Blöcken, in denen die Namen der Robots sowie einige Regeln definiert werden. Jede Zeile beginnt mit einem Kommando und endet mit dem jeweiligen Wert, getrennt durch einen Doppelpunkt mit anschließendem Leerzeichen. Kommentare werden durch ein Raute-Symbol gekennzeichnet und stehen entweder in einer separaten Zeile oder hinter einer Regel.

Beispiel einer Robots.txt-Datei:

# 1. Block 
User-agent: Googlebot-Image # Name 
User-agent: Googlebot-Video # Name 
Disallow: /media/ # Regel 
Disallow: /*.mp4$ # Regel 
# 2. Block 
User-agent: * 
Disallow: /temp/ 
Disallow: /unternehmen/ 
Allow: /unternehmen/impressum.html

Praxistipp: Reihenfolge der Blöcke

Die Blöcke innerhalb der Robots.txt-Datei können in beliebiger Reihenfolge stehen. Die Crawler suchen sich den Eintrag mit der höchsten Übereinstimmung automatisch heraus und bevorzugen im Zweifelsfall den obersten.

User-agent

Jeder Robot lässt sich über den Namen des User-agent eindeutig identifizieren. Die Groß- und Kleinschreibung spielt in diesem Fall keine Rolle. Um Regeln für einen bestimmten Crawler zu verfassen, wird dieser am Anfang eines Blocks definiert. Mehrere Crawler werden in einzelnen Zeilen untereinander geschrieben.

User-agent: Googlebot-Image 
User-agent: Googlebot-Video

Praxistipp: Der Name des User-agent ist rückwärts kompatibel

Für den Abgleich des User-agent ist alleine der Anfang der Zeichenkette entscheidend. Ein Crawler mit dem Namen „Googlebot-Image" akzeptiert also auch Regeln für den „Googlebot" (ohne „-Image"). Umgekehrt funktioniert das allerdings nicht.

Um gleichzeitig alle Robots anzusprechen, ersetzt man den Namen des User-agent durch ein Stern-Symbol:

User-agent: *

Im Internet existieren zahlreiche Listen mit User-agents – natürlich alle ohne Garantie auf Aktualität und Vollständigkeit. Zum Glück haben Suchmaschinen wie Google und Bing haben die Namen ihrer Crawler veröffentlicht.

Google

Googlebot. Der wichtigste Crawler von Google zum Indizieren von Websites in der mobilen Version und Desktop-Ansicht.
Googlebot-Image. Dieser Googlebot indiziert die Bilder auf einer Website.
Googlebot-Video. Ein auf Videos spezialisierter Crawler.
Googlebot-News. Webcrawler speziell für das Google Nachrichten Angebot.
Mediapartners-Google. Ein Crawler speziell für AdSense, der sich mit dem Googlebot einen gemeinsamen Cache teilt und doppelte Seitenaufrufe zu vermeiden.
AdsBot-Google. Überprüfung der Anzeigequalität von Google Ads auf Desktop Geräten.
AdsBot-Google-Mobile. Ein Crawler zur Prüfung der Anzeigenqualität von Google Ads auf mobilen Endgeräten.
APIs-Google. Über diesen User-agent werden die Push-Benachrichtigungen den Google-APIs übermittelt.

Bing

Bingbot. Der Standard Crawler von Bing zur Indizierung von Websites in mobiler und Desktopansicht.
MSNBot. Ein Crawler, der dem Bingbot voraus geschickt wird, um erste Daten zu erheben.
MSNBot-Media. Dieser Bot ist auf Bilder und Videos spezialisiert.
AdIdxBot. Ein Webcrawler zur Qualitätskontrolle der Anzeigen mit Bing Ads auf mobilen und Desktop Geräten.
BingPreview. Zum Rendern von Vorschauseiten in mobiler und Desktop Ansicht.

Praxistipp: Die User-agents stehen in den Serverlogs

Der Namen des jeweiligen User-agents wird bei Aufruf einer Webseite an den Server übermittelt. Gibt es Probleme mit einem bestimmten Crawler, könnte sich ein Blick in die Serverlogs als nützlich erweisen.

Allow und Disallow

Die beiden Regeln „Allow" und „Disallow" geben an, welche Ressourcen von den Robots indiziert werden dürfen und welche nicht. Auch hier werden Kommando und Wert durch einen Doppelpunkt gefolgt von einem Leerzeichen voneinander getrennt. Die Funktionsweise lässt sich am besten anhand einiger praktischer Anwendungsbeispiele erklären.

Eine Website vollständig vom Index ausschließen:

User-agent: *
Disallow: /

Ein einzelnes Verzeichnis ausschließen:

User-agent: *
Disallow: /temp/

Ein einzelnes Verzeichnis ausschließen mit Ausnahmen:

User-agent: *
Disallow: /temp/
Allow: /temp/images/
Allow: /temp/videos/

Praxistipp: Allow ist der Standardwert

Insofern keine expliziten Regeln definiert wurden, sind alle Ressourcen für die Robots frei zugänglich. Das Kommando „Allow" ist also nur dann notwendig, wenn sich die entsprechende Ressource in einem gesperrten Bereich befindet.

Es ist auch möglich, mit Platzhaltern zu arbeiten, wenn ein Ausdruck auf mehrere Zeichenketten passen soll. In diesem Fall wird an der entsprechenden Stelle ein Stern- Symbol eingefügt.

Alle Verzeichnisse sperren, die mit dem Wort „test" beginnen:

User-agent: * 
Disallow: /test*/

Alle Verzeichnisse sperren, die das Wort „test" enthalten:

User-agent: * 
Disallow: /*test*/

Alle Dateien sperren, die auf „.pdf" enden:

User-agent: * 
Disallow: /*.pdf$

Das Dollar-Symbol bedeuten in diesem Fall, das die URL kein weiteres Zeichen mehr enthalten darf.

Zusätzliche Optionen

Neben den oben genannten Regelblöcken gibt es noch zwei globale Optionen, die in die Robots.txt-Datei eingefügt werden können.

Sitemap. Der Link zur Sitemap sollte natürlich direkt in der Google Search Console und den Webmastertools von Bing hinterlegt sein. Für alle anderen Crawler ist der zusätzliche Eintrag einer Sitemap in der Robots.txt-Datei aber hilfreich.

Beispiel:
Sitemap: https://www.domain.tlp/linkzursitemap.xml

Crawl-Delay. Um den Traffic durch Suchmaschinen etwas zu verteilen und den Server zu entlasten, kann die Zeitspanne zwischen den Anfragen manuell festgelegt werden. In der Praxis hat diese Regel allerdings kaum Bedeutung, denn sie wird von Google und Bing ignoriert.

Beispiel:
Crawl-delay: 60

Verarbeitung der Robots.txt-Datei

Die Robots.txt-Datei wird von den Crawlern vor jeder Serveranfrage mit der jeweiligen URL abgeglichen. Die Überprüfung erfolgt anhand eines Vergleiches der Zeichenketten. Dabei wird zwischen Groß- und Kleinschreibung unterschieden. Gibt es bei diesem Vergleich einen Treffer, wird die entsprechende Regel angewendet.

Ergebnisse eines Vergleiches:

Robots.txt-Datei: Anleitung für SEO 16261788205969

Ist eine Zeichenkette URL-Kodiert, wird diese zunächst dekodiert und danach verglichen. Einzige Ausnahme bildet der Schrägstrich, denn dieses Zeichen wird zur Trennung von Verzeichnissen innerhalb der URL verwendet.

Ergebnisse eines Vergleiches mit URL-Kodierung:

Case Study: Syntax check mit der Search Console

Um Fehler beim Syntax der Robots.txt-Datei zu vermeiden, bietet Google ein sehr gutes Testwerkzeug an. Für die Nutzung wird lediglich ein Google-Account und eine Website benötigt. Zu finden ist das Tool mit dem Namen „robots.txt-Tester" in der alten Search Console unter dem Reiter Crawling.

Zunächst testen wir das Beispiel der Robots.txt-Datei aus diesem Beitrag weiter oben. Wie zu erwarten werden hier keinerlei Probleme festgestellt:

Robots.txt-Datei: Anleitung für SEO 16261788205970

Als Nächstes erweitern wir das Beispiel um einen Fehler im Syntax sowie den Eintrag „Crawl-delay: 60". Wie bereits erwähnt, unterstützt Google diese Funktion nicht und meldet neben dem Fehler auch einen Warnhinweis:

Robots.txt-Datei: Anleitung für SEO 16261788205971

Die Stärke dieses Google-Tools liegt jedoch darin, die Anwendung der Regeln für spezifische URLs zu testen. Geben wir dazu in das untere Eingabefeld die Adresse „/unternehmen/gesperrt.html" ein. Sofort wird angezeigt, dass die entsprechende URL gesperrt ist und die entsprechende Regel dazu wird rot markiert:

Robots.txt-Datei: Anleitung für SEO 16261788205972

Als Gegenbeispiel prüfen wir jetzt noch die Adresse „/unternehmen/impressum.html". Diese URL befindet sich zwar in einem gesperrten Verzeichnis, ist durch die grün markeirte Sonderregel aber trotzdem zugänglich:

Bekomme einen schnellen Überblick und spare deine Zeit

Möchtest du persönliche Serpstat-Demonstration, die Testversion oder erfolgreiche Use-Cases bekommen? Sende eine Demo-Anfrage und unser Support-Team kontaktiert dich ;)

Auf diese Weise lassen sich alle erstellten Regeln mit praktischen Beispielen testen, ohne dass es im Produktivbetrieb zu ungewollten Problemen kommt.

Praxistipp: Generatoren im Internet

Wer keine Lust zum Tippen hat, kann sich auch eine Robots.txt-Datei mithilfe der kostenlosen Generatoren im Internet erstellen. Diese sind vom Funktionsumfang her jedoch eingeschränkt und nicht in allen Fällen nützlich.

Nachwort des Autors

Dieser Guide basiert auf dem Knowhow, wie ich es täglich in meinen SEO-Projekten bei der Internetagentur Websailing anwende. Durch das praktische Wissen und die Anwendungsbeispiele solltet ihr gut auf die Erstellung einer eigenen Robots.txt-Datei vorbereitet sein. Ich wünsche euch viel Erfolg und gutes Gelingen.

blog_main_page_trial_form_header

article_trial_block_first_line

article_trial_block_second_line

Starten!

Die Beiträge der Gastautoren können nicht mit der Meinung der Serpstat-Redaktion übereinstimmen.

Rate the article on a five-point scale

The article has already been rated by 5 people on average 5 out of 5

Hast du einen Fehler gefunden? Markiere diesen und betätige Ctrl + Enter, um es uns mitzuteilen

discover_more_seo_tools

seo_seo_block_title_1

seo_seo_block_text_1

seo_seo_block_title_2

seo_seo_block_text_2

seo_seo_block_title_3

seo_seo_block_text_3

seo_seo_block_title_4

seo_seo_block_text_4