How to: Was du über die robots.txt wissen solltest

How to: Was du über die robots.txt wissen solltest

Lesedauer: 4 Minuten

Als Blogger übernimmt man in den meisten Fällen auch die Suchmaschinenoptimierung für seinen Blog und da ist die kleine robots.txt-Datei  nicht ganz unwichtig. Denn in ihr kann man festlegen, welche Bereiche für den Googlebot zugänglich sein sollen und welche nicht.

Der robots.txt liegt das sogenannte Robots Exclusion Standard Protokoll zugrunde, nach dem der Webcrawler bei dem Aufsuchen einer Website zuerst die robots.txt liest. Einige Crawler halten sich an die darin festgelegten Regeln und zeigen die beispielsweise gesperrten Seiten nicht im Index der Suchergebnisse an, andere ignorieren sie aber auch. Angeblich hält sich der wichtige Google-Bot an die in der robots.txt definierten Regelungen.

Grundlegendes zur robots.txt

  • Die robots.txt befindet sich immer auf der obersten Verzeichnisebene, ihre URL lautet: http://www.deinedomain.de/robots.txt.
  • Es gibt hauptsächlich die Anweisungen allow und disallow. Allow gilt als die Standardregel, sodass nur disallow eingesetzt werden soll, um bestimmte Seiten oder Bereiche der Website zu sperren.
  • Die Angaben für Verzeichnisse und Dateien werden mit einem Slash (/)und dann dem Pfad angegeben.
  • Bei den Disallow Einträgen ist die Groß- und Kleinschreibung egal.
  • Ein Stern (*) ist ein Platzhalter (Wildchar).
  • Da auch Zeichen, wie beispielsweise der Punkt interpretiert werden, muss das Ende einer Dateierweiterung markiert werden. Das geschieht mit dem Dollarzeichen ($).
  • Die Regeln werden von einer Leerzeile voneinander getrennt.
  • Wer die einzelnen Regeln mit einem Kommentar versehen will (um später immer noch zu wissen, was die einzelnen Anweisungen genau bedeuten, kann diese mit dem Zeichen # einleiten. Achte darauf, dass jede Kommentarzeile damit beginnt.

Der Aufbau der robots.txt

Die robots.txt sieht vom Aufbau so aus, dass zuerst der Crawler (User-Agent) genannt wird, für den die Anweisung gilt, gefolgt in der zweiten Zeile mit der entsprechenden Anweisung.

So sieht eine robots.txt aus, die alle Crawlern den vollständigen Zugriff auf die Website einschließlich Unterverzeichnissen und Bildern sowie anderen Mediendateien erlaubt.

User-agent: *
Disallow:

Und so sieht die vollständige Sperrung der Website für alle Crawler aus. Die zweite Anweisung unterscheidet sich von der ersten nur durch einen Schrägstrich, was allerdings große Auswirkungen hat. Wenn du also eine robots.txt in dein Stammverzeichnis einfügst und die übliche Standardeinweisung einfügst, achte darauf, dass du nicht aus Versehen einen Slash hinter disallow setzt.

User-agent: *
Disallow: /

Gerade bei Seiten, die sich regelmäßig ändern, Testseiten, an denen noch gearbeitet wird, Logfiles, Programmdateien oder Bildern, ist es sinnvoll, diese von der Indexierung ausschließen.

Wenn du einen Blog mit WordPress erstellst, ist im Rootverzeichnis noch keine robots.txt vorhanden. Diese kann du mit einem simplen Texteditor in wenigen Minuten abspeichern und hochladen.

Keine robots.txt-Datei zu haben, bedeutet, dass die Bots alle Seiten crawlen werden.

Weiteres Beispiel:

User-agent: Googlebot
Disallow: /privat/

Diese Anweisung in der Zeile 2 sagt aus, dass der Webcrawler von Google das Verzeichnis privat nicht crawlen soll.

Soll auch kein anderer Robot dieses Verzeichnis crawlen, dann setzt du an die Stelle von Googlebot ein Stern (*) als Platzhalter.

Soll beispielsweise ein Bild nicht gecrawlt werden, dann sieht das so aus:

User-agent: *
Disallow: /images/beispielbild.jpg

Sperrung von bestimmten Dateiformaten für den Googlebot

User-agent: Googlebot
Disallow: /*.gif$
Disallow: /*.jpg$
Disallow: /*.pdf$

Beachte, dass der Platzhalter * in Dateinamen nicht zum Standard gehört. Diese Anweisungen werden nur vom Googlebot erkannt, nicht von anderen Robots.

Seiten, die für Google AdWords-Anzeigen eingesetzt werden

Die Werbeanzeigen von Google (Google AdWords) dürfen nach den Richtlinien von Google nur auf Seiten erscheinen, die auch gecrawlt werden können. Wer sie dennoch von der Indexierung ausschließen will, muss dafür in der robots.txt die folgende Angabe eintragen.

Die erste Angabe erlaubt dem AdWords-Crawler den Zugriff auf die Seiten, die zweite Angabe sperrt die Seiten dann für alle anderen Crawler.

User-agent: Mediapartners-Google
Allow: /
User-agent: *
Disallow: /

Verzeichnisbereich vor den Crawlern sperren

User-agent: *
Disallow: /privat/
Allow: /privat/informationen/

Hier ist das Verzeichnis privat für Crawler gesperrt, ein Unterverzeichnis aber freigegeben.

Mehrere Crawler sperren, das Unterverzeichnis cgi-bin zu crawlen

User-agent: Googlebot
User-agent: Slurp
User-agent: bingbot
Disallow: /cgi-bin/

Übersicht über wichtige User-Agents

Crawler User-Agent
Googlebot für Websuche Googlebot
Googlebot für Bilder Googlebot-Image
Googlebot für Videos Googlebot-Video
Google Mobile Googlebot-Mobile
Google AdSense Mediapartners-Google
Google Mobile AdSense Mediapartners-Google
Bing bingbot
Yahoo Slurp
MSN für Mobile MSNBOT_Mobile

Es gibt noch mehr Crawler im Internet, eine ausführliche Übersicht findest du auf Useragentstring.com.

Überprüfung der robots.txt

Wenn du eine robots.txt erstellst, musst du darauf achten, dass du auch wirklich nur einen Texteditor und nicht einen HTML-Editor verwendest. Ein solcher Editor für Windows wäre Notepad oder der Standardeditor, der sich im Bereich Zubehör befindet.

Lädst du die Datei hoch, sollte sie im ASCII Modus übertragen werden. Bei Filezilla klappt das einwandfrei, ich musste da noch nie auf irgendwelche Einstellungen achten. Denke auch daran, dass der Dateiname nur aus Kleinbuchstaben besteht, also robots.txt und nicht Robots.TXT.

Falls du wissen willst, wie dein robots.txt-Inhalt lautet, findest du auf der Google Search Console (vormals Webmaster Tools) unter Crawling einen robots.txt-Tester. In dem Tester gibt es auch ein Feld, in das du eine Seiten-URL eintragen kannst, um zu überprüfen, ob diese blockiert ist. Ganz rechts kannst du auch noch einen der verschiedenen Googlebots auswählen.

How to: Was du über die robots.txt wissen solltest

Es gibt auch ein Add-on für den Mozilla Browser, das auf Websites gesperrte Inhalte anzeigt, diese Links sind rot hinterlegt. Das Add-on heißt Roboxt und kann hier heruntergeladen werden.

robots.txt mit Yoast SEO bearbeiten

Wenn du das SEO-Plugin von Yoast verwendest, kannst du deine robots.txt von dort aus bearbeiten. Gehe einfach über SEO->Werkzeuge->Datei-Editor. Über den kleinen Editor kannst du bequem deine robots.txt abändern und speichern.

Was mit der robots.txt nicht funktioniert

So mancher vermutet, dass er mit der robots.txt Dateien vor Zugriffen schützen kann. Das geht nicht. Wenn du eine Datei vor einem Userzugriff von außen sperren willst, musst du die Datei über ein Passwort (geht über den Webserver) absichern.

Außerdem ist keiner der Robots verpflichtet, den Robots Exclusion Standard einzuhalten. Das heißt letztendlich, dass manche Crawler auch gesperrte Seiten trotzdem indexieren, auch wenn du das nicht willst. Vor allem wenn Links auf Seiten zeigen, die du von der Indexierung ausgeschlossen hast, ist die Wahrscheinlichkeit recht hoch, dass diese dann doch von Google in den Index aufgenommen werden.

Fazit

Eine robots.txt hat für die meisten Websites und Blogs einen Sinn, denn schließlich müssen nicht alle Seiten in den Index. Gerade bei WordPress wären das die Unterverzeichnisse wp-admin und wp-includes, die gesperrt werden können.

(Bildquelle Artikelanfang: © Nikolai Titov #94496708/Fotolia.com)

Teile diesen Beitrag:


WordPress Cookie Hinweis von Real Cookie Banner