SEO, 8 August 2018 | 8571 | Lesezeit 16 Minuten – Später lesen

SEO-Insights, die du aus Server-Logdateien
ziehen kannst

Aljeksjej Rylko

Senior SEO-Berater bei iProspect

Alle Zugriffe auf deine Website tragen sich auf dem Server in spezielle Files ein, die Server-Log-Dateien genannt werden. Sie sind in Zeilenform und enthalten unterschiedliche Informationen, die eine gründliche Analyse wert sind.

Diese Dateien helfen dir, deine Website für Marketingzwecke zu optimieren.

Damit du das Problem besser entwirren kannst, muss ich zuerst die Frage klären: Wie funktioniert eigentlich eine Suchmaschine?

Dieser komplizierte Prozess umfasst drei große Stufen:

Crawling. Das ist ein Vorgang, bei dem ein Suchroboter oder Spyder neue Seiten sucht und alte Seiten, die aktualisiert wurden, erneut scannt. Die Hauptaufgabe des Suchroboters besteht darin, so viele neue Websites und Seiten wie möglich zu finden.

Indexierung ist ein Prozess, bei dem die Suchmaschinen die gesammelten Daten analysieren, organisieren und in die Datenbank einordnen.

Unter Ranking versteht man die Platzierung der Website in den Suchergebnissen. Um diese Position festzustellen, bewerten die Suchmaschinen die Relevanz und die Autorität der Ressource.

Am häufigsten kommen die letzten zwei Vorgänge zur Sprache, obwohl das Crawling auch nicht unterschätzt werden sollte. Es ist eine tragende Säule, auf der alles aufbaut.

Was sind Server-Logdateien?

Jeder Zugriff auf die Seite wird fixiert. Wenn du diese Dateien aufmerksam analysierst, erhältst du wichtige Angaben, die für die Optimierung nützlich sind. Ich werde diese Daten genauer anschauen:

Weitere Beispiele führe ich für Google an.

Aus den Dateien erhältst du folgende Informationen:

Domain.
IP-Adresse, von der aus der Zugriff erfolgte.
Zeit des Seitenaufrufes.
Zielseite, die der Crawler besuchte.
Statuscode der Antwort, die sowohl Suchroboter als auch Personen erhalten.
Größe der Seite (Byte).
User Agent: Name des Benutzers, der sich an den Server wandte. So erfährst du, welcher Browser oder Roboter die Seite aufrief.

Wenn die Website Hunderte Aufrufe hat, sind diese Informationen auf den ersten Blick nicht auffindbar. Die Dateien sehen ungefähr so aus:

Trotzdem geben sie sehr interessante und nützliche Daten für die Analyse.

Wo findest du Server-Logdateien?

Die Logdateien, die auf deinem Server verfügbar sind, findest du unter den folgenden Adressen:

Apache /var/log/apache/access.log
Nginx /var/log/nginx/access.log
IIS %SystemDrive%\inetpub\logs\LogFiles

Es gibt ein paar Typen von Webservern: Nginx, Apache usw. Jeder von ihnen platziert die Logfiles an verschiedenen Orten.

So befinden sich zum Beispiel die Nginx-Logdateien unter der Adresse /var/log/nginx/ oder /usr/local/nginx/logs. Die Einstellungen prüfst du im Verzeichnis /etc/nginx/.

Wenn du die Logdateien finden willst, suche nach "access_log" im ganzen Verzeichnis. Die Apache-Server-Logdateien sind unter /etc/apache2/ verfügbar. Für die Logfiles sind die Einstellungen ErrorLog und CustomLog verantwortlich.

Bekomme einen schnellen Überblick und spare deine Zeit

Möchtest du persönliche Serpstat-Demonstration, die Testversion oder erfolgreiche Use-Cases bekommen? Sende eine Demo-Anfrage und unser Support-Team kontaktiert dich ;)

Probiere es selbst aus:
Was erfährst du mit Hilfe vom Googlebot?

Ich beginne mit Grundkenntnissen. Du hast wahrscheinlich von Hypothesen und Meinungen in der Online-Marketing-Branche gehört, die niemand prüfen kann. Die Logdateien helfen, Licht ins Dunkel zu bringen.

Die Logdateien analysierend bist du in der Lage, den Google-Panda-Filter zu verfolgen, wenn der Crawling-Umfang stark gesunken ist.

Die Analyse der Server-Logdateien ist eine der zuverlässigsten Datenquellen zur Frage, wie die Suchmaschine die Website aufnimmt.

Googlebot und inaktive Links

Es gibt eine Vielzahl von Menschen, die nicht richtig verlinken. Sie kopieren und fügen einfach die nicht anklickbare Seitenadresse hinzu. In diesem Zusammenhang ergibt sich die Frage: Wie sieht der Roboter einen solchen Linktyp? Ist er fähig, ihn zu lesen und zu verstehen? Du kannst es mit diesem einfachen Test verstehen:

Hast du eine Website zur Analyse?
Verwende die Google Search Console, um den Roboter zum Crawling der Seite zwangsweise aufzufordern;
Prüfe die Logdateien, um festzustellen, ob die Seiten die Informationen richtig darstellen.

Experiment. Ich erstellte eine gewöhnliche Seite mit mehreren Links. Einige von ihnen sind aktiv, einige fügte ich nur als Text ein.

Ich werde erklären, was da herauskommt.

Die Datei wurde zur Search Console hinzugefügt und der Roboter rief alle Links auf, die anklickbar waren. Trotzdem entstanden in ein paar Tagen in den Server-Logdateien die folgenden Adressen:

Wie sieht der Roboter nicht anklickbare Links

Sie entsprechen den URLs, die als Text dargestellt wurden. Das heißt, dass der Googlebot die inaktiven Links auch sieht und vermutlich für weitere Berechnungen der externen Signale benutzt.

Googlebot und robots.txt

Die robots.txt-Datei ist eine Textdatei, die sich im Stammverzeichnis der Seite befindet und konkrete Verhaltensvorschriften für den Suchroboter enthält. Diese Vorschriften verbieten oder erlauben die Indexierung von einigen Seiten oder Abschnitten der Website usw.

Beachte bei der Arbeit mit der Datei auch die wichtigen Aspekte:

Der Googlebot richtet sich nach den Vorschriften, die in die Datei robots.txt geschrieben wurden.

Der Roboter blockiert den Zugriff, obwohl er keine Indexierung leitet.

Manchmal kann der Googlebot in den Suchergebnissen die Seiten zeigen, die in der Datei robots.txt geschlossen wurden und die er nie besuchte. Ich werde den dritten Punkt näher erläutern.

Manchmal treten die von der robots.txt-Datei gesperrten Seiten in den Suchergebnissen auf.

Titel und Beschreibung, die im Snippet angezeigt werden, entsprechen dabei keinen wirklichen Tags. Stattdessen steht eine Anmerkung, dass die Beschreibung wegen der Einschränkungen von der robots.txt-Datei nicht verfügbar ist.

Eigentlich handelt es sich um diese Tatsache bei Hilfe für Google. Das ist eine ganz natürliche Sache.

Der Googlebot sieht die gesperrten Seiten, obwohl er sie nicht aufrufen kann. Deswegen benutzt er externe Signale — Anchor von Backlinks, die zu deiner Seite führen. Das heißt, er zeigt dem Benutzer, dass diese Datei existiert, auch wenn sie nicht verfügbar ist.

Der Roboter stellt den Seitenkopf dar, den er von den Ankertexten abrechnete. Die gespeicherte Kopie der Website existiert auch nicht.

Fehler in Dateinamen, Vorschriften, Chronologie.

SEO-Einsteiger glauben, dass der Roboter unbedingt die Datei robots.txt prüft, bevor er die Website aufruft. Das ist nicht der Fall.

Beispiel. Wenn ich den Bericht über die Besucherzahl, ungefähr 100.000 pro Tag, untersuche (die Immobilien-Website), bemerke ich auch, wie oft die robots.txt-Datei besucht wurde. Sie bekommt circa 50 - 100 Besuche pro Tag.

Tatsächlich ist sie eine gewöhnliche Seite. Wenn du die robots.txt-Datei aktualisierst, füge sie zur Search Console für das nicht planmäßige Crawling hinzu.

SEO-Anfänger erhalten oft folgende Aufgabe: Müllseiten auf der Website zu finden und sie zu löschen.

Wie erfüllt er diese Aufgabe?

Er verwendet alle Tools, die ihm zur Verfügung stehen. Zuerst sperrt er die Seiten in der robots.txt-Datei, und dann gibt er den Tag <meta name="robots" content="noindex"> ein. Die Folgen sind natürlich erstaunlich. Trotz der Erwartung bleiben die Seiten im Index ganz gleich.

Das ist passiert, weil diese Aktionen in Konflikt kommen: Einerseits schließt er die Seiten aus dem Index aus, andererseits verweigert er den Zugriff auf die Seiten. In der Tat sieht der Googlebot keinen Inhalt von diesen Seiten.

Deswegen benutze besser den Tag meta name="robots", um die Müllseiten loszuwerden. Der Robot scannt alle Dateien und bestimmt, was er löschen muss. Dann gebe diese Seiten in die Datei robots.txt ein.

Aufgabe: Unnötige Seiten aus dem Index löschen.

Gängiger Fehler: robots.txt + meta name="robots" "noindex".

Richtige Lösung: meta name="robots" content="noindex". Stelle zuerst fest, ob die Seiten nicht im Index dargestellt werden und dann korrigiere die robots.txt-Datei.

Googlebot und URLs mit Hashtags

Im SEO-Bereich wird oft die Frage diskutiert: Kann der Googlebot die URLs mit Hash (#) — Anchor-Links aufrufen? Die Antwort geben auch die Logdateien.

Experiment. Ich habe die Seite mit folgenden Linktypen erstellt:

Der Link mit dem Hash, der zu einem Abschnitt der Seite führt.
Der Link mit dem Hash und dem Ausrufezeichen.

Ich werde betrachten, was da herauskommt.

Der Googlebot erkennt keine Links mit # in URLs und versteht nur die mit Hashbangs #!. Die Server-Logdateien spiegeln diese Tatsache. Google transformiert die Seite und statt #! ergänzt es ?_escaped_fragment_=/

Warum? Laut einer Vereinbarung zwischen den Servern und Suchrobotern fügt Google bei der Verwendung ajax ?_escaped_fragment_ zu der URL hinzu.

Unter dieser Adresse kann es den Seiteninhalt erreichen. Obwohl die Ergänzung ?escaped_fragment_ noch beim Crawling funktioniert, wird sie aber nicht von Google empfohlen.

Was ist ein Crawl-Budget und wie wird es ausgeschöpft?

Google veröffentlichte einen sehr interessanten Artikel darüber, wie seine Suche funktioniert. Unter anderen wies es auf, dass das Internet heute aus 60.000.000.000.000 Seiten besteht. Die Suchmaschinen setzten es sich zur verantwortungsvollen Aufgabe, diese Seiten herauszufinden und im aktuellen Zustand zu erhalten.

Daraus folgt, dass Google wenigstens einmal alle drei Monate jede von diesen Seiten besuchen sollte. Um diesen Plan in die Tat umzusetzen, muss es jede Sekunde 77 Millionen Seiten crawlen. Da dies eine sehr anspruchsvolle Herausforderung ist, wurde das Crawl-Budget eingesetzt.

Das Crawl-Budget ist eine Prozessorzeit, die die Suchmaschine für das Crawling der bestimmten Seite braucht. Der Hauptfaktor, der das beeinflussen kann, ist die Effizienz der Seite.

Jeder SEO-Spezialist ist in der Lage, die Gesamtquote der Website richtig aufzuteilen.

Beispiel. Statistiken von einer großen Immobilien-Website. Die rot markierte Fläche in der Grafik entspricht dem nutzlosen Crawling, das mit den Zugriffen auf die Website nicht begleitet wird. Der blaue Strich zeigt, wann der Roboter die Seiten besuchte.

Zum nutzlosen Crawling gehören die Seiten mit den Fehlermeldungen: 404-Fehlerseiten, Redirects. Da das Crawl-Budget auf diesen Seiten ausgegeben wird, bekommen die „guten" Seiten weniger Crawler-Besuche.

Noch ein Beispiel. Immer wieder die Immobilien-Website. Ich nehme an, dass beim heutigen Marketing der Abschnitt „Analytik" auf der Prioritätenliste steht. Trotzdem crawlt der Roboter nur 41 % der Seiten, die diesen Abschnitt enthalten.

Es gibt auch Abschnitte, die sehr oft ohne erkennbaren Grund gecrawlt werden. Wie beispielsweise dieser Teil der Autoverkauf-Seite (braun markiert):

Das Crawl-Budget der Autoverkauf-Website

Wie kannst du diese Informationen benutzen? Prüfe die folgenden Aspekte.

Stimmen deine Priorität-Seiten und die Präferenzen des Google-Robots überein?

Wenn du erfahren möchtest, wie viele Seiten deine Ressource hat, scanne sie mit dem Crawl-Programm. Spiegelt es die Informationen, die die Benutzer kennen? Die Antwort ist negativ. Hier ist es wichtig zu vergleichen, welche Angaben die Suche hat und welche Daten das Programm sieht.

Noch ein Beispiel. Ein umsatzstarker Online-Shop (ungefähr 10 Millionen Zugriffe pro Monat) hat fünf Millionen Seiten, die beim Scannen selbstständig gefunden werden. Allerdings gibt es noch zwölf Millionen Seiten, die dem Roboter bekannt sind. Sie werden verwaiste Seiten genannt und unterliegen einer sorgfältigen Analyse.

2. Verwaiste Seiten

Woher stammen sie?

Seiten, die nur externe eingehende und keine interne Links enthalten.
Seiten mit Fehlern, die sich in Google-Dateien befinden, obwohl sie korrigiert wurden.
Nicht mehr aktuelle Seite mit dem Code 200 OK.
Umgezogene oder verschobene Seiten.
Seiten mit den Fehlern in rel=«canonical» und sitemap.xml.

3. Aktive Seiten

Untersuche außerdem auch aktive Seiten. Dazu gehören die Seiten, die zumindest einen Zugriff über die organische Suche im Zeitraum von 30 bis 60 Tagen erhalten. Wie analysierst du sie?

An dem Beispiel vom Spiele-Online-Shop (1 Million Besuche über die organische Suche) demonstriere ich das. Links werden die Googlebot-Besuche der Kategorien und rechts alle Zugriffe auf der Website dargestellt.

Die Seiten der inneren Suchergebnisse wurden von Google 423.000 Mal gescannt, obwohl sie nur 26.000 Besuche brachten.

Die Ergebnisse zeigen, dass das Crawl-Budget und Roboter-Ressourcen nutzlos verschwendet werden. Dies ist ein sehr großes Problem.

Wie bewertest du die Seiten-Effizienz und womit solltest du die Optimierung beginnen?

Bewerte die Effektivität der Seite, um Schwerpunkte zu setzen. Diese Grafik zeigt beispielsweise, dass der Abschnitt „Miete" (rent) 289 aktive Seiten (rot) und 2678 inaktive Seiten (braun) markiert hat.

Was solltest du damit tun? Optimiere diese Seiten oder schließe sie vom Index aus. Die Hauptsache ist, Prioritäten zu setzen.

Wie lang muss dein Content auf der Seite sein?

Um diese Frage zu beantworten, untersuche die Top-Ergebnisse nach deiner Suchanfrage. So bist du in der Lage, die durchschnittliche Länge der Texte festzustellen. Alternativ erfährst du diese Informationen aus den Server-Logdateien.

Beispiel. Die Website, die sich auf den Autoverkauf spezialisiert.

Die durchschnittliche Länge der Texte und das Crawling

Hier sehen wir, dass die Seiten, die weniger als 150 Wörter enthalten, seltener vom Roboter gecrawlt werden. Aus Sicht des Roboters beträgt die perfekte Inhaltslänge 1200 Wörter, weil sie in 89 % der Fälle besucht werden.

Crawling und Ladezeit

Die Ladezeit spielt eine wichtige Rolle bei der Website-Optimierung. Sie hängt weitgehend von der Tatsache ab, wie der Roboter die Seiten crawlt und indexiert. Wenn du diese Leistungszahl verbesserst, werden die Folgen für die Website umfassender als von anderen Maßnahmen sein.

Das Experiment kann an dieser Grafik beispielhaft erläutert werden:

Die Seiten mit der guten Ladezeit (schneller als 500 ms) werden zu 79 % gecrawlt. Allerdings scannt der Crawler die langsam ladenden Seiten nur zu 62 %.

Globale Trends des Googlebot-Verhaltens

Die Logdateien indizieren deutlich die globalen Trends des Crawler-Verhaltens.

Beispiel. Die Grafik zeigt, dass die Zugriffszahlen auf JavaScript-Files steigen. Dies ist mit dem Umstand verbunden, dass der Googlebot sich an die Optimierung für die Mobilgeräte orientiert.

Verfolge Leistungen von ergriffenen Maßnahmen

Wenn du die aktiven Seiten als KPI-Basis nimmst, kannst du die Effizienz der Veränderungen berechnen, die du auf der Website umgesetzte hast. Auf diese Weise bist du imstande, deine Erfolge zu bewerten und zu erfahren, ob diese Maßnahmen die wichtigen Kennzahlen der Seite verbesserten.

Fixiere die folgenden Aspekte:

Steigerungen und Rückgänge;
Folge der Veränderungen;
Leistung des Seitenumzugs;
Ergebnisse des Verlinkens usw.

Zum Schluss

Es gibt zwei Ansätze zur Arbeit mit den Server-Logdateien:

Audit

Analysiere die Logdateien 30 - 60 Tage: Menge der gesendeten Daten, Themen, Probleme.
Versuche, die Wechselwirkungsanalyse anzuwenden: Crawling + Logdateien + Google Analytics.
Untersuche aktive und nutzlose Seiten sowie alle Seitenbereiche, die Google indexiert.

Monitoring

Lade zum Monitoring deine täglichen Logdateien in verschiedene Datenverarbeitungssysteme hoch. So kannst du Benachrichtigungen über Fehler, Steigerung und Rückgang des Crawlings, Angriffe sowie Scannen der neuen Seiten bekommen.
Dieses Verfahren ist bei Neugestaltung und Website-Umzug erforderlich. So bemerkst du gleich, wie die Veränderungen die Seite beeinflussten.
Es gibt eine Reihe von kostenlosen und kostenpflichtigen Tools, die für die Logdateien-Analyse entwickelt wurden.

Tools, die für die Logdateien-Analyse entwickelt wurden

Fazit

Logdateien sind sehr zuverlässige Informationsquellen zum Googlebot-Verhalten.

Die Logdateien-Untersuchung gibt die Möglichkeit, mehrere Hypothesen, Mythen und Besonderheiten des Suchmaschinenverhaltens zu prüfen.

Die Logdateien sind ein wichtiges Tool für die Suche nach erfolgversprechenden Bereichen. Verbessere sie und prüfe deine Leistungen.

Unbegrenzte Perspektiven der Wechselwirkungsanalyse. Zum Beispiel ist es möglich, die vom Googlebot besuchten Seiten mit gewinnbringenden Seiten zu vergleichen.

Es steht eine Vielzahl an bequemen Tools für die Logdateien-Verarbeitung zur Auswahl. Du hast die Möglichkeit, die passende Lösung für deine Aufgabe und dein Budget zu finden.

Wenn du weitergehen willst:

Bewerte Linkbuilding-Kampagnen auf der Grundlage von erhöhtem Crawling-Budget und Häufigkeit.
Finde die Merkmale der Anti-Spam-Filter von Google heraus.