Die Robots.txt
Jeder Webmaster, der regelmässig seine Logfiles analysiert, wird es schon einmal gesehen haben: Die Robots der Suchmaschinen wie Googlebot, Scooter oder Slurp suchen im Root-Verzeichnis nach einer Datei namens Robots.txt.
Was hat es damit auf sich? Die Robots.txt ist eine Textdatei, mit der ein Webmaster einer Suchmaschine mitteilen kann, dass sie von bestimmten Dateien oder Verzeichnissen die Finger lassen soll. Dies kann man z.B. machen, wenn man nicht möchte dass bestimmte Seiten oder Grafiken unter den Suchergebnissen erscheinen, oder um unnötigen Traffic von nicht erwünschten Robots zu vermeiden. Dieses Vorgehen nennt sich Robots Exclusion Standard.
Der Aufbau einer solchen Robots.txt ist einfach: Jeder Datensatz besteht aus zwei oder mehr Zeilen, die nach dem Schema
<Feld> : <Wert>
aufgebaut sind.
Erlaubte Einträge für <Feld> sind "User-Agent" und "Disallow".
User-Agent
Die erste Zeile eines Datensatzes, "User-Agent", spezifiziert einen bestimmten Robot, für den die folgenden Anweisungen gelten sollen. Will man zum Beispiel Googlebot, den Robot von Google, verbieten, eine bestimmte Datei zu indizieren, sieht diese Zeile wie folgt aus:
User-agent: googlebot
Soll ein Eintrag für alle Robots gelten, so kann man mit dem Wildcard-Zeichen "*" arbeiten:
User-agent: *
Disallow
Die zweite Zeile gibt an, von welchen Dateien oder Verzeichnissen man den in der ersten Zeile spezifizierten Robot ausschliessen will. Die Disallow Zeile könnte z.B. so aussehen:
Disallow: /cgi-bin/
Hiermit wird der entsprechende Robot angewiesen, keine Dateien aus dem CGI-Bin Verzeichnis auszulesen. Will man den Robots z.B. den Zugriff auf sein
Impressum verbieten, bietet sich folgender Eintrag an:
Disallow: /impressum.html
Auch hier kann man wieder mit Wildcards arbeiten. Die Anweisung
Disallow: *
verbietet einem Robot, überhaupt irgendeine Datei aus der Website einzulesen.
Kommentare
Wer die Einträge in seiner Robots.txt für sich dokumentieren möchte, um später noch zu wissen, warum er bestimmte Robots ausgesperrt hat, kann dies mit Kommentaren tun. Ein "#" leitet dabei einen Kommentar ein, alles was in der gleichen Zeile folgt, wird vom Robot ignoriert. Beispiele:
User-agent: googlebot
Disallow: /impressum.html # Google soll unser Impressum nicht indizieren
Wirksamkeit
Alle grossen Suchmaschinen halten sich heutzutage an den Robots Exclusion Standard. Es gibt allerdings durchaus Robots (z.B. E-Mail Sammler), welche die Anweisungen ignorieren. Vertrauliche Daten sollte man daher auf jeden Fall auf andere Weise schützen, z.B. mittels Verzeichnisschutz durch .htaccess.