SEO, Technik

Robots.txt

Robots.txtDie Robots.txt ist für viele Webmaster, die ihre Seite rein aus Liebe zur Leidenschaft betreiben, immernoch ein unbekanntes Buch mit zahlreichen Siegeln. Dabei ist sie ein extrem wertvolles Tool wenn es darum geht,  Bots wie beispielsweise dem Googlebot das Crawling (also Auslesen) bestimmter Inhalte zu untersagen. Wann dies durchaus sinnvoll ist, worauf man achten sollte und welche kleinen Tipps es gibt erfährst du in diesem Beitrag!

Die Robots.txt – Wie funktioniert sie?

Mithilfe der Robots.txt (die übrigens immer im Root-Verzeichnis der eigenen Domain liegt) können bestimmte Seiten- oder Dateitypen vom Crawling externer Bots „beschützt“ werden – so kann beispielsweise dem Googlebot direkt gesagt werden, welcher Inhalt auf einer Seite nicht gecrawlt werden soll. Dies ist insbesondere für große Portale wie Online-Shops ein extrem sinnvolles Feature, da der Bot der Suchmaschine mithilfe der Robots.txt gezielt gesteuert und somit in seiner Arbeit „entlastet“ werden kann > das begrenzte Crawling-Budget wird somit nicht/kaum verschwendet.

Achtung: Vor der Indexierung ist der jeweilige Seiten- oder Dateityp damit nicht geschützt! Es geht lediglich darum, die begrenzten „Crawling-Ressourcen“ der Bots zu steuern und sinnvoll einzusetzen. Sobald eine Seite explizit von der Indexierung ausgeschlossen werden soll, muss das dafür zuständige „noindex“-Tag im Quellcode verbaut werden!

Aufbau der Robots.txt

Der Aufbau der Robots.txt ist relativ simpel – er setzt sich immer aus dem jeweiligen „Agenten“ und den ihm zugewiesenen „Verboten“ (Disallow) und „Genehmigungen“ (Allow) zusammen.

Beispiel:

User-agent: Googlebot
Disallow: *suche=*
Disallow: /kasse
Disallow: *_*
Allow: /*.png$
Allow: /*.jpg$

Bedeutet: Der Googlebot soll keine Seiten crawlen (= Disallow), bei denen in der URL einer der folgenden Parameter auftritt: „suche=“, „/kasse“ sowie „_“. Somit würden beispielsweise folgende Seiten nicht gecrawlt werden:

domain.tld/kasse

domain.tld/?suche=klebefolie

domain.tld/klebefolie_beidseitig

Hingegen explizit für das Crawling freigegeben sind in diesem Beispiel Bilder der Dateiformate *.png sowie *.jpg, also beispielsweise:

domain.tld/team/tinorahn.jpg

domain.tld/filialen/map.png

Wichtige Tipps und Hinweise

Als Webmaster muss man sich immer genau im Klaren sein, was man mit der Robots.txt alles anstellen kann – positiv und auch negativ. Gerade beim Disallow-Befehl kann man so sehr schnell Inhalte vom Crawling ausschliessen, die man Google eigentlich schon gerne zeigen möchte. Wenn man sich bei der Erstellung also unsicher ist, sollte man in jedem Fall einen Profi (oder zumindest Google) um Unterstützung bemühen.

Portale, die bestimmte Unterseiten vom Crawling des normalen Googlebots (SEO) ausschließen, die Infos aber trotzdem an den AdsBot (SEA) senden möchten, können dem AdsBot von Google zusätzlich explizit genehmigen, diese Seiten zu crawlen.

Beispiel:

User-agent: Googlebot
Disallow: *_*

User-agent: AdsBot-Google
Allow: *_*

Bedeutet: Inhalte einer Seite wie domain.tld/klebefolie_beidseitig werden nicht vom Googlebot gecrawlt  – können aber problemlos von Googles AdsBot ausgelesen werden.

2 Gedanken zu “Robots.txt

Schreibe einen Kommentar

Deine E-Mail-Adresse wird nicht veröffentlicht. Erforderliche Felder sind mit * markiert