How to: Was du über die robots.txt wis­sen solltest

How to: Was du über die robots.txt wissen solltest

Lesedauer: 4 Minuten

Als Blog­ger über­nimmt man in den meis­ten Fäl­len auch die Such­ma­schi­nen­op­ti­mie­rung für sei­nen Blog und da ist die klei­ne robots.txt-Datei nicht ganz unwich­tig. Denn in ihr kann man fest­le­gen, wel­che Berei­che für den Goo­gle­bot zugäng­lich sein sol­len und wel­che nicht.

Der robots.txt liegt das soge­nann­te Robots Exclu­si­on Stan­dard Pro­to­koll zugrun­de, nach dem der Web­craw­ler bei dem Auf­su­chen einer Web­site zuerst die robots.txt liest. Eini­ge Craw­ler hal­ten sich an die dar­in fest­ge­leg­ten Regeln und zei­gen die bei­spiels­wei­se gesperr­ten Sei­ten nicht im Index der Such­ergeb­nis­se an, ande­re igno­rie­ren sie aber auch. Angeb­lich hält sich der wich­ti­ge Goog­le-Bot an die in der robots.txt defi­nier­ten Regelungen.

Grund­le­gen­des zur robots.txt

  • Die robots.txt befin­det sich immer auf der obers­ten Ver­zeich­nis­ebe­ne, ihre URL lau­tet: http://​www​.dei​ne​do​main​.de/​r​o​b​o​t​s​.​txt.
  • Es gibt haupt­säch­lich die Anwei­sun­gen allow und dis­al­low. Allow gilt als die Stan­dard­re­gel, sodass nur dis­al­low ein­ge­setzt wer­den soll, um bestimm­te Sei­ten oder Berei­che der Web­site zu sperren.
  • Die Anga­ben für Ver­zeich­nis­se und Datei­en wer­den mit einem Slash (/)und dann dem Pfad angegeben.
  • Bei den Dis­al­low Ein­trä­gen ist die Groß- und Klein­schrei­bung egal.
  • Ein Stern (*) ist ein Platz­hal­ter (Wildchar).
  • Da auch Zei­chen, wie bei­spiels­wei­se der Punkt inter­pre­tiert wer­den, muss das Ende einer Datei­er­wei­te­rung mar­kiert wer­den. Das geschieht mit dem Dollarzeichen ($).
  • Die Regeln wer­den von einer Leer­zei­le von­ein­an­der getrennt.
  • Wer die ein­zel­nen Regeln mit einem Kom­men­tar ver­se­hen will (um spä­ter immer noch zu wis­sen, was die ein­zel­nen Anwei­sun­gen genau bedeu­ten, kann die­se mit dem Zei­chen # ein­lei­ten. Ach­te dar­auf, dass jede Kom­men­tar­zei­le damit beginnt.

Der Auf­bau der robots.txt

Die robots.txt sieht vom Auf­bau so aus, dass zuerst der Craw­ler (User-Agent) genannt wird, für den die Anwei­sung gilt, gefolgt in der zwei­ten Zei­le mit der ent­spre­chen­den Anweisung.

So sieht eine robots.txt aus, die alle Craw­lern den voll­stän­di­gen Zugriff auf die Web­site ein­schließ­lich Unter­ver­zeich­nis­sen und Bil­dern sowie ande­ren Medi­en­da­tei­en erlaubt.

User-agent: *
Disallow:

Und so sieht die voll­stän­di­ge Sper­rung der Web­site für alle Craw­ler aus. Die zwei­te Anwei­sung unter­schei­det sich von der ers­ten nur durch einen Schräg­strich, was aller­dings gro­ße Aus­wir­kun­gen hat. Wenn du also eine robots.txt in dein Stamm­ver­zeich­nis ein­fügst und die übli­che Stan­dard­ein­wei­sung ein­fügst, ach­te dar­auf, dass du nicht aus Ver­se­hen einen Slash hin­ter dis­al­low setzt.

User-agent: *
Disallow: /

Gera­de bei Sei­ten, die sich regel­mä­ßig ändern, Test­sei­ten, an denen noch gear­bei­tet wird, Log­files, Pro­gramm­da­tei­en oder Bil­dern, ist es sinn­voll, die­se von der Inde­xie­rung ausschließen.

Wenn du einen Blog mit Word­Press erstellst, ist im Root­ver­zeich­nis noch kei­ne robots.txt vor­han­den. Die­se kann du mit einem simp­len Text­edi­tor in weni­gen Minu­ten abspei­chern und hochladen.

Kei­ne robots.txt-Datei zu haben, bedeu­tet, dass die Bots alle Sei­ten craw­len werden.

Wei­te­res Beispiel:

User-agent: Googlebot
Disallow: /privat/

Die­se Anwei­sung in der Zei­le 2 sagt aus, dass der Web­craw­ler von Goog­le das Ver­zeich­nis pri­vat nicht craw­len soll.

Soll auch kein ande­rer Robot die­ses Ver­zeich­nis craw­len, dann setzt du an die Stel­le von Goo­gle­bot ein Stern (*) als Platzhalter.

Soll bei­spiels­wei­se ein Bild nicht gecrawlt wer­den, dann sieht das so aus:

User-agent: *
Disallow: /images/beispielbild.jpg

Sper­rung von bestimm­ten Datei­for­ma­ten für den Googlebot

User-agent: Googlebot
Disallow: /*.gif$
Disallow: /*.jpg$
Disallow: /*.pdf$

Beach­te, dass der Platz­hal­ter * in Datei­na­men nicht zum Stan­dard gehört. Die­se Anwei­sun­gen wer­den nur vom Goo­gle­bot erkannt, nicht von ande­ren Robots.

Sei­ten, die für Goog­le AdWords-Anzei­gen ein­ge­setzt werden

Die Wer­be­an­zei­gen von Goog­le (Goog­le AdWords) dür­fen nach den Richt­li­ni­en von Goog­le nur auf Sei­ten erschei­nen, die auch gecrawlt wer­den kön­nen. Wer sie den­noch von der Inde­xie­rung aus­schlie­ßen will, muss dafür in der robots.txt die fol­gen­de Anga­be eintragen.

Die ers­te Anga­be erlaubt dem AdWords-Craw­ler den Zugriff auf die Sei­ten, die zwei­te Anga­be sperrt die Sei­ten dann für alle ande­ren Crawler.

User-agent: Mediapartners-Google
Allow: /
User-agent: *
Disallow: /

Ver­zeich­nis­be­reich vor den Craw­lern sperren

User-agent: *
Disallow: /privat/
Allow: /privat/informationen/

Hier ist das Ver­zeich­nis pri­vat für Craw­ler gesperrt, ein Unter­ver­zeich­nis aber freigegeben.

Meh­re­re Craw­ler sper­ren, das Unter­ver­zeich­nis cgi-bin zu crawlen

User-agent: Googlebot
User-agent: Slurp
User-agent: bingbot
Disallow: /cgi-bin/

Über­sicht über wich­ti­ge User-Agents

Craw­lerUser-Agent
Goo­gle­bot für WebsucheGoo­gle­bot
Goo­gle­bot für BilderGoo­gle­bot-Image
Goo­gle­bot für VideosGoo­gle­bot-Video
Goog­le MobileGoo­gle­bot-Mobi­le
Goog­le AdSenseMedia­part­ners-Goog­le
Goog­le Mobi­le AdSenseMedia­part­ners-Goog­le
Bingbing­bot
YahooSlurp
MSN für MobileMSNBOT_​Mobile

Es gibt noch mehr Craw­ler im Inter­net, eine aus­führ­li­che Über­sicht fin­dest du auf User​ag​ent​string​.com.

Über­prü­fung der robots.txt

Wenn du eine robots.txt erstellst, musst du dar­auf ach­ten, dass du auch wirk­lich nur einen Text­edi­tor und nicht einen HTML-Edi­tor ver­wen­dest. Ein sol­cher Edi­tor für Win­dows wäre Note­pad oder der Stan­dard­edi­tor, der sich im Bereich Zube­hör befindet.

Lädst du die Datei hoch, soll­te sie im ASCII Modus über­tra­gen wer­den. Bei File­zil­la klappt das ein­wand­frei, ich muss­te da noch nie auf irgend­wel­che Ein­stel­lun­gen ach­ten. Den­ke auch dar­an, dass der Datei­na­me nur aus Klein­buch­sta­ben besteht, also robots.txt und nicht Robots.TXT.

Falls du wis­sen willst, wie dein robots.txt-Inhalt lau­tet, fin­dest du auf der Goog­le Search Con­so­le (vor­mals Web­mas­ter Tools) unter Craw­ling einen robots.txt-Tester. In dem Tes­ter gibt es auch ein Feld, in das du eine Sei­ten-URL ein­tra­gen kannst, um zu über­prü­fen, ob die­se blo­ckiert ist. Ganz rechts kannst du auch noch einen der ver­schie­de­nen Goo­gle­bots auswählen.

How to: Was du über die robots.txt wissen solltest

Es gibt auch ein Add-on für den Mozil­la Brow­ser, das auf Web­sites gesperr­te Inhal­te anzeigt, die­se Links sind rot hin­ter­legt. Das Add-on heißt Roboxt und kann hier her­un­ter­ge­la­den werden.

robots.txt mit Yoast SEO bearbeiten

Wenn du das SEO-Plug­in von Yoast ver­wen­dest, kannst du dei­ne robots.txt von dort aus bear­bei­ten. Gehe ein­fach über SEO->Werkzeuge->Datei-Editor. Über den klei­nen Edi­tor kannst du bequem dei­ne robots.txt abän­dern und speichern.

Was mit der robots.txt nicht funktioniert

So man­cher ver­mu­tet, dass er mit der robots.txt Datei­en vor Zugrif­fen schüt­zen kann. Das geht nicht. Wenn du eine Datei vor einem User­zu­griff von außen sper­ren willst, musst du die Datei über ein Pass­wort (geht über den Web­ser­ver) absichern.

Außer­dem ist kei­ner der Robots ver­pflich­tet, den Robots Exclu­si­on Stan­dard ein­zu­hal­ten. Das heißt letzt­end­lich, dass man­che Craw­ler auch gesperr­te Sei­ten trotz­dem inde­xie­ren, auch wenn du das nicht willst. Vor allem wenn Links auf Sei­ten zei­gen, die du von der Inde­xie­rung aus­ge­schlos­sen hast, ist die Wahr­schein­lich­keit recht hoch, dass die­se dann doch von Goog­le in den Index auf­ge­nom­men werden.

Fazit

Eine robots.txt hat für die meis­ten Web­sites und Blogs einen Sinn, denn schließ­lich müs­sen nicht alle Sei­ten in den Index. Gera­de bei Word­Press wären das die Unter­ver­zeich­nis­se wp-admin und wp-includes, die gesperrt wer­den können.

(Bild­quel­le Arti­kel­an­fang: © Niko­lai Titov #94496708/Fotolia.com)

Tei­le die­sen Beitrag:


WordPress Cookie Hinweis von Real Cookie Banner