Die Robots.txt

Jeder Webmaster, der regelmässig seine Logfiles analysiert, wird es schon einmal gesehen haben: Die Robots der Suchmaschinen wie Googlebot, Scooter oder Slurp suchen im Root-Verzeichnis nach einer Datei namens Robots.txt.

Was hat es damit auf sich? Die Robots.txt ist eine Textdatei, mit der ein Webmaster einer Suchmaschine mitteilen kann, dass sie von bestimmten Dateien oder Verzeichnissen die Finger lassen soll. Dies kann man z.B. machen, wenn man nicht möchte dass bestimmte Seiten oder Grafiken unter den Suchergebnissen erscheinen, oder um unnötigen Traffic von nicht erwünschten Robots zu vermeiden. Dieses Vorgehen nennt sich Robots Exclusion Standard.

Der Aufbau einer solchen Robots.txt ist einfach: Jeder Datensatz besteht aus zwei oder mehr Zeilen, die nach dem Schema

 

   <Feld> : <Wert>

 

aufgebaut sind.

Erlaubte Einträge für <Feld> sind "User-Agent" und "Disallow".

 

User-Agent

Die erste Zeile eines Datensatzes, "User-Agent", spezifiziert einen bestimmten Robot, für den die folgenden Anweisungen gelten sollen. Will man zum Beispiel Googlebot, den Robot von Google, verbieten, eine bestimmte Datei zu indizieren, sieht diese Zeile wie folgt aus:

 

   User-agent: googlebot

 

Soll ein Eintrag für alle Robots gelten, so kann man mit dem Wildcard-Zeichen "*" arbeiten:

  

   User-agent: *

 

Disallow

Die zweite Zeile gibt an, von welchen Dateien oder Verzeichnissen man den in der ersten Zeile spezifizierten Robot ausschliessen will. Die Disallow Zeile könnte z.B. so aussehen:

 

   Disallow: /cgi-bin/

 

Hiermit wird der entsprechende Robot angewiesen, keine Dateien aus dem CGI-Bin Verzeichnis auszulesen. Will man den Robots z.B. den Zugriff auf sein

Impressum verbieten, bietet sich folgender Eintrag an:

 

   Disallow: /impressum.html

 

Auch hier kann man wieder mit Wildcards arbeiten. Die Anweisung

 

   Disallow: *

 

verbietet einem Robot, überhaupt irgendeine Datei aus der Website einzulesen.

Kommentare

Wer die Einträge in seiner Robots.txt für sich dokumentieren möchte, um später noch zu wissen, warum er bestimmte Robots ausgesperrt hat, kann dies mit Kommentaren tun. Ein "#" leitet dabei einen Kommentar ein, alles was in der gleichen Zeile folgt, wird vom Robot ignoriert. Beispiele:

 

   User-agent: googlebot

   Disallow: /impressum.html # Google soll unser Impressum nicht indizieren

 

 

 

Wirksamkeit

Alle grossen Suchmaschinen halten sich heutzutage an den Robots Exclusion Standard. Es gibt allerdings durchaus Robots (z.B. E-Mail Sammler), welche die Anweisungen ignorieren. Vertrauliche Daten sollte man daher auf jeden Fall auf andere Weise schützen, z.B. mittels Verzeichnisschutz durch .htaccess.