Top-Fragen
Zeitleiste
Chat
Kontext

Robots Exclusion Standard

Netzwerkprotokoll zur Regelung welche Bereiche einer Website durch Webcrawler (Robots) besucht werden dürfen Aus Wikipedia, der freien Enzyklopädie

Remove ads
Remove ads

Der Robots Exclusion Standard (auch bekannt als robots.txt) ist ein Dateiformat mit Namenskonvention für Webserver, um bestimmten Bots mitzuteilen, ob und inwieweit sie willkommen oder unerwünscht sind. Umgesetzt wird das durch eine Textdatei namens robots.txt im Stammverzeichnis der Website. Webcrawler sollen zuerst eine Datei dieses Namens abzurufen versuchen, und sofern das gelingt, darin niedergeschriebene Grenzen achten.

Webmaster haben so keineswegs die Möglichkeit, ausgesuchte Bereiche ihrer Website für (bestimmte) Suchmaschinen zu sperren. Der Standard ist rein hinweisend und auf die Mitarbeit des Webcrawlers angewiesen. Man spricht hier auch von „freundlichen“ Webcrawlern. Ein Ausgrenzen bestimmter Teile einer Website durch das Protokoll garantiert keine Geheimhaltung; dazu sind Seiten oder Unterverzeichnisse eines Servers durch HTTP-Authentifizierung, eine Access Control List (ACL) oder einen ähnlichen Mechanismus zu schützen. Manche Suchmaschinen zeigen die vom Webcrawler gefundenen und zu sperrenden URLs trotzdem in den Suchergebnisseiten an, jedoch ohne Beschreibung der Seiten.

Der Robots Exclusion Standard geht auf einen Vorschlag des Entwicklers von ALIWEB im Februar 1994 zurück.[1] Anfang Juni 2008 bekannten sich Google,[2] Microsoft und Yahoo zu einigen Gemeinsamkeiten.[3] Mit RFC 9309[4] von 2022 wurde der Robots Exclusion Standard erweitert und als Internetstandard vorgeschlagen.

Ein zwingendes Verbot der Indizierung wird durch den Einsatz von robots.txt nicht erreicht, auch wenn seriöse Webcrawler die Anweisungen befolgen.[5]

Remove ads

Aufbau

Zusammenfassung
Kontext

Die Datei robots.txt ist eine Textdatei in einem einfachen, auch maschinenlesbaren Format. Jede Zeile besteht aus zwei Feldern, die durch einen Doppelpunkt getrennt werden.

User-agent: Sidewinder
Disallow: /

Die erste Zeile beschreibt den Webcrawler (hier: User-agent), an den sich die darauf folgenden Regeln richten. Es darf beliebig viele solcher Blöcke geben. Webcrawler lesen die Datei von oben nach unten und halten an, wenn sich ein Block auf sie bezieht. Für jede URL, die ausgeschlossen ist, existiert eine eigene Zeile mit dem Disallow-Befehl. Leerzeilen sind nur oberhalb von User-agent-Zeilen erlaubt. Sie trennen die Blöcke voneinander. Einzeilige, mit einem Rautezeichen (#) beginnende Kommentare sind an jeder Stelle möglich. Sie dienen der Übersichtlichkeit und werden vom Webcrawler ignoriert.

Weitere Informationen Anweisung, Beschreibung ...
Remove ads

Beispiele

# robots.txt für example.com
# Diese Webcrawler schließe ich aus
User-agent: Sidewinder
Disallow: /

User-agent: Microsoft.URL.Control
Disallow: /

# Diese Verzeichnisse/Dateien sollen nicht
# durchsucht werden
User-agent: *
Disallow: /default.html
Disallow: /Temp/ # diese Inhalte werden von Suchmaschinen nicht neu erfasst; ob bereits zuvor erfasste Inhalte entfernt werden, ist undefiniert
Disallow: /Privat/Familie/Geburtstage.html # Nicht geheim, sollen aber nicht von Suchmaschinen gecrawlt werden.

Mit den folgenden Befehlen wird allen Webcrawlern das Abrufen der kompletten Website erlaubt.

User-agent: *
Disallow:

Mit den folgenden Befehlen wird allen Webcrawlern das Abrufen der kompletten Website verboten. Die Indexierung des Inhalts in der Suchmaschine ist dadurch ausgeschlossen, nicht jedoch die Darstellung der URL sowie von Informationen, die nicht von der Seite, sondern aus externen Quellen stammen. Dies gilt auch, wenn die Indexierung auf einzelnen Seiten selbst wieder erlaubt wird, da Webcrawler die Seite gar nicht erst aufrufen.[8]

User-agent: *
Disallow: /

Weiteres Beispiel:

robots.txt der deutschsprachigen Wikipedia
Remove ads

Robots.txt Test - Tool

Google stellt einen robots.txt-Tester zur Verfügung, um festzustellen, ob durch die robots.txt-Datei bestimmte URLs einer Website für die Web-Crawler von Google blockiert werden.[9]

Undokumentiere Anweisungen

Direktiven wie crawl-delay, nofollow, und noindex waren lange Zeit undokumentiert, wurden aber von Websites in der robots.txt verwendet und von Google berücksichtigt. Ende 2019 hat Google angekündigt, diese undokumentierten Anweisungen künftig nicht mehr zu nutzen.[10]

Alternativen

Zusammenfassung
Kontext

Metainformationen

Das Indexieren durch Webcrawler kann man auch durch Meta-Elemente im HTML-Quelltext einer Webseite ablehnen.[11] Auch Meta-Elemente sind rein hinweisend, benötigen die Mitarbeit „freundlicher“ Webcrawler und garantieren keine Geheimhaltung. Soll der Suchroboter die Webseite nicht in den Index der Suchmaschine aufnehmen (noindex) oder den Hyperlinks der Seite nicht folgen (nofollow), kann das in einem Meta-Element wie folgt notiert werden:

<meta name="robots" content="noindex,nofollow" />

In HTML-Dokumenten, für die beides erlaubt sein soll, kann die Angabe entweder weggelassen oder explizit notiert werden:

<meta name="robots" content="all" />

Die Syntax ist kaum offiziell standardisiert, sondern gründet auf übliche Praxis und Akzeptanz durch die Crawler-Entwickler.

Weitere Informationen Ermutigung, Untersagung ...

Statt allgemein an alle Bots zu adressieren:

<meta name="robots" content="noindex,nofollow" />

kann auch versucht werden, bestimmte Bots zu lenken:

<meta name="msnbot" content="nofollow" /> <!-- Microsoft -->
<meta name="GoogleBot" content="noindex" /> <!-- Google -->
<meta name="Slurp" content="noydir" /> <!-- Yahoo -->
Remove ads

humans.txt

Die Datei robots.txt stellt „Robotern“ (in Form von Software/Webcrawler) zusätzliche Informationen über eine Website zur Verfügung. In Anlehnung hieran hat Google 2011 die Datei humans.txt eingeführt, die menschlichen Besuchern der Website zusätzliche Hintergrundinformationen bieten soll.[14] Diese Datei wird seitdem auch von anderen Websites verwendet, um z. B. die Programmierer der Website namentlich zu nennen oder die eingesetzte Software zu beschreiben.[15] Google selbst nutzt die Datei für eine kurze Selbstdarstellung und Verweise auf Arbeitsplätze im Unternehmen.[16]

Remove ads

Siehe auch

Literatur

  • Ian Peacock: Showing Robots the Door, What is Robots Exclusion Protocol? In: Ariadne, May 1998, Issue 15, Webversion.

Einzelnachweise

Loading content...
Loading related searches...

Wikiwand - on

Seamless Wikipedia browsing. On steroids.

Remove ads