Die Datei robots.txt
<< zurück
Die Datei robots.txt dient dazu, bestimmte Webseiten oder auch ganze Ordner vom Indexieren durch Suchdienste auszuschließen. Durch den Ausschluss wird die überflüssige oder unnötige Aufnahme irrelevanter Informationen vermieden sowie die Verweildauer des Spiders reduziert.
Ausgeschlossen werden können z.B. Logfiles, CGI-BIN-Verzeichnisse, Test-Verzeichnisse, Counter.
Eine robots.txt ist eine reine ASCII-Datei und kann mit jedem Texteditor bearbeitet werden. Beispiel für einen Eintrag in der robots.txt:
User-agent: *
Disallow: /cgi-bin/
Die erste Zeile bedeutet in etwa "An alle Suchrobots". Hinter User-agent kann der Name eines Suchrobots genannt werden oder wie in obigem Beispiel ein Sternzeichen (*). Das Sternzeichen bedeutet, dass kein bestimmter, also alle Robots angesprochen werden sollen.
Beispiel für einen anderen Eintrag:
User-agent: *
Disallow: /cgi-bin/
Disallow: /logs/
Disallow: /test/
Disallow: /privat/
Disallow: /counter.htm
In diesem Eintrag werden die Ordner cgi-bin, logs, test, privat sowie die HTML-Seite counter.htm ausgeschlossen.
Weiteres Beispiel:
User-agent: *
Disallow:
In diesem Eintrag erlauben Sie allen Robots das Auslesen aller Dateien und Verzeichnisse, keine Datei wird ausgeschlossen.
Beachten Sie für die Datei robots.txt:
- Der Name dieser Datei muss klein geschrieben sein
- Die Datei muss im obersten Verzeichnis Ihrer Domain abgelegt werden (i.d.R. da, wo sich auch die "index.html" befindet)
Berücksichtigen Sie: Neugierige Besucher können den Inhalt der Datei robots.txt auslesen (durch einfache Eingabe von www.IhreDomain.de/robotx.txt in die Adresszeile des Browsers), um zu schauen, wie die verbotenen und damit interessanten Ordner lauten. Nach Klick auf einen der dann vom Browser angezeigten Ordner kann man sich den Inhalt Ihrer ausgeschlossenen Ordner anschauen.
Durch Aufnahme einer blanken Datei "index.html" in den "verbotenen" Ordner erreichen Sie, dass der Browser den Inhalt dieser Ordner nicht mehr anzeigt, sondern die leere HTML-Seite. Wenn sich Wichtiges oder Verbotenes darin befindet, sollten Sie die Ordner mit .htacces schützen.
|