Allgemeine Informationen über robots.txt
Die Datei robots.txt befindet sich im Stammverzeichnis einer Webseite. Sie teilt Suchrobotern mit, welche Dateien und Seiten auf der Website angezeigt werden sollen und welche nicht.
Im Allgemeinen möchten Website-Besitzer, dass Suchroboter ihre Präsenz bemerken, aber es gibt Fälle, in denen dies nicht notwendig ist: zum Beispiel, wenn sie wertvolle Informationen auf einer Website speichern oder wenn sie versuchen, Bandbreite zu sparen, indem sie nicht zulassen, dass Seiten mit vielen Daten oder großen Bildern indexiert werden.
Wenn ein Suchroboter eine Webseite findet, sucht er als erstes nach der robots.txt-Datei. Sobald er diese gefunden hat, überprüft der Suchroboter die Indexierungsanweisungen in dieser Datei.
Wichtig zu wissen: Für jede Website kann nur eine robots.txt-Datei existieren. Für eine hinzugefügte Domain muss diese an der entsprechenden Stelle erstellt werden.
Eine robots.txt-Datei besteht aus Zeilen, die zwei Felder enthalten: eine Zeile mit einem User-Agent-Namen (für Suchmaschinen) und eine oder mehrere Zeilen, die mit der folgenden Anweisung beginnen:
Disallow:
robots.txt muss im UNIX-Format erstellt werden.
Grundlagen der robots.txt-Syntax
Normalerweise enthält eine robot.txt-Datei folgendes:
User-agent: *
Disallow: /cgi-bin/
Disallow: /tmp/
Disallow: /~different/
In diesem Beispiel wird die Indexierung von drei Ordnern (‚/cgi-bin/‘, ‚/tmp/‘ und ‚/~different/‘) deaktiviert.
Wichtiger Hinweis: Jeder Befehl muss in eine eigene Zeile geschrieben werden.
Ein Sternchen (*) im Feld Benutzer-Agent bedeutet „beliebiger Suchroboter“. Logischerweise wird „Disallow:*.gif“ oder User-agent: Mozilla* nicht unterstützt. Auf logische Fehler dieser Art sollte man achten, da sie häufig vorkommen.
Andere häufige Fehler sind falsch geschriebene Verzeichnisse, Software-Kennungen, fehlende Doppelpunkte nach „user-agent“ und „disallow“ usw. Wenn die robots.txt-Datei immer komplexer wird, kann es leichter zu solchen Fehlern kommen.
Beispiele für ihre Verwendung
Deaktivieren Sie die Indexierung der gesamten Seite gegen alle Suchbots:
User-agent: *
Disallow: /
Alle Suchroboter dürfen die gesamte Seite indexieren:
User-agent: *
Disallow:
Nur bestimmte Verzeichnisse von der Indexierung ausschließen:
User-agent: *
Disallow: /cgi-bin/
Die Indizierung der Seite durch einen bestimmten Suchroboter deaktivieren:
User-agent: Bot1
Disallow: /
Indizierung nur für einen bestimmten Suchroboter zulassen und anderen untersagen:
User-agent: Opera 9
Disallow:
User-agent: *
Disallow: /
Deaktivieren Sie die Indexierung aller Dateien außer einer:
Dies ist etwas umständlich, da es den Befehl „Zulassen“ nicht gibt. Stattdessen sollten alle Dateien, die nicht indiziert werden sollen, in einem Unterordner gesammelt werden, mit Ausnahme der Datei, die Sie indizieren möchten:
User-agent: *
Disallow: /docs/
Robots.txt und SEO
Die Blockierung der Bildindexierung entfernen:
Manche Content-Management-Software (CMS) nimmt den Bilderordner möglicherweise nicht in die robots.txt-Datei auf.
Dieses Problem tritt bei neueren CMS-Versionen nicht auf, aber ältere Versionen sollten überprüft werden.
Diese Deaktivierung bedeutet, dass Ihre Bilder nicht indexiert werden und nicht in der Google-Bildersuche erscheinen, was sich wiederum nachteilig auf die Suchmaschinenoptimierung auswirkt.
Um dies zu ändern, müssen Sie die folgende Zeilen entfernen:
Disallow: /images/
Fügen Sie eine Route in die Datei sitemap.xml ein:
Wenn Sie eine sitemap.xml-Datei haben (und das sollten Sie), ist es sinnvoll, die folgende Zeile in Ihre robots.txt-Datei aufzunehmen:
sitemap: https://sitemaps.org/protocol.html#index
Andere Informationen
- Blockieren Sie CSS, JavaScript oder ähnliche Skripte nicht standardmäßig. Dadurch wird verhindert, dass Googlebot die Seite für Sie richtig übersetzt und erkennt, dass sie für Smartgeräte optimiert ist.
- Die Datei kann auch verwendet werden, um zu verhindern, dass bestimmte Seiten indexiert werden, wie z. B. Seiten mit Login- oder 404-Fehlermeldungen, aber das sollte besser im Robots-Meta-Tag geschehen.
- Das Hinzufügen einer Deaktivierung zur robots.txt-Datei führt nicht zur Entfernung von Daten, sondern verhindert lediglich die Indexierung durch Suchroboter. Wenn es Inhalte gibt, die Sie entfernen möchten, ist es besser, dies mit einem meta noindex zu tun.
- Generell sollten Sie niemals robots.txt verwenden, um doppelte Inhalte zu behandeln. Es gibt bessere Lösungen als diese, z. B. ein rel=canonical-Tag, das Teil des HTML-Kopfes ist.
- Denken Sie immer daran, dass eine robots.txt-Datei keine Kleinigkeit ist. Oft gibt es leistungsfähigere Tools als die von Bing und Google zur Verfügung gestellten Webmastertools.
Robots.txt für WordPress
Robots.txt für WordPress
Wenn Sie zum ersten Mal Inhalte in WordPress erstellen, wird automatisch eine robots.txt-Datei erstellt. Wenn jedoch bereits eine echte (nicht virtuelle) robots.txt-Datei auf dem Server vorhanden ist, wird dies nicht geschehen. Eine virtuelle robots.txt-Datei existiert nicht in Echtzeit auf dem Server; die einzige Möglichkeit, auf sie zuzugreifen, ist der folgende Link: http://www.diewebseite.at/robots.txt
Standardmäßig ist Google Mediabot aktiviert, aber viele Spambots und einige grundlegende WordPress-Ordner und -Dateien sind deaktiviert.
Wenn Sie also keine echte robots.txt-Datei erstellt haben, tun Sie dies mit einem beliebigen Texteditor und laden Sie sie dann per FTP in das Stammverzeichnis des Servers hoch.
Die wichtigsten WordPress-Verzeichnisse sperren
Für jedes installierte WordPress gibt es 3 Standardverzeichnisse (wp-content, wp-admin, wp-includes), die nicht indiziert werden müssen.
Sie sollten jedoch nicht den gesamten wp-content-Ordner blockieren, da er einen „uploads“-Ordner enthält, der die Mediendateien der Website enthält, die besser nicht blockiert werden. Daher sollte das folgende Verfahren befolgt werden:
Disallow: /wp-admin/
Disallow: /wp-includes/
Disallow. /wp-content/plugins/
Disallow: /wp-content/themes/
Sperrung auf Basis der Website-Struktur
Jedes Blog kann auf mehrere Arten gesperrt werden:
a; nach Kategorie
b; nach Tags
c; beides oder keines
d; nach Datenbankarchiven
I. Wenn die Website nach Kategorien strukturiert ist, besteht keine Notwendigkeit, die Tag-Archive zu indizieren.
Sie können auf die Tag-Datenbank zugreifen, indem Sie auf die Registerkarte Einstellungen und dann auf die Registerkarte Premalinks klicken. Wenn das Feld leer ist, ist das Tag einfach ein „Tag“:
Disallow: /tag/
II. Wenn die Website eine Tag-Struktur hat, blockieren Sie das Kategorie-Archiv. Suchen Sie den Kategorien Bereich und wenden Sie den folgenden Befehl an:
Disallow: /category/
III. Wenn die Website sowohl kategorie- als auch tagbasiert ist, sind keine Anweisungen erforderlich. Falls keine der beiden verwendet wird, sollten beide deaktiviert werden!
Disallow: /tags/
Disallow: /category/
IV. Wenn die Website datenbankbasiert ist, können sie wie folgt blockiert werden:
Disallow: /2010/
Disallow: /2011/
Disallow: /2012/
Disallow: /2013/
Wichtig zu wissen: Sie können den Befehl „Disallow: /20*/“ nicht verwenden, da alle Beiträge oder Seiten, die mit „20“ beginnen, gesperrt werden.