Im SEJ ist ein feiner Artikel erschienen, in dem zu lesen ist, dass Google inoffiziell die noindex-Anweisung in der robots.txt akzeptiert. Ein weiterer einfacher Weg neben dem Metatag, eine Seite nicht von Google indexieren zu lassen.

noindex in der robots.txt

Das klingt spannend. Um das Indexieren einer Seite zu verhindern, konnte man bisher einfach folgenden Metatag in den Header aufnehmen:

<meta name=”robots” content=”noindex” />

So einfach ging es bisher. Und so einfach wird es auch bleiben. Aber laut dem SEJ reicht nun auch eine Anweisung in der robots.txt, um Seiten von der Indexierung auszuschließen:

User-agent: Googlebot
Noindex: /impressum

Coole Sache, wie ich finde. Jetzt stelle ich mir nur die Frage, wenn zum Beispiel das Impressum das Metatag robots das Attribut “index” trägt, aber genau diese Seite in der robots.txt mit noindex ausgewiesen ist, was passiert nun? Wird die Seite indexiert oder nicht? Das bedarf wohl einiger Tests…

Der Artikel auf dem SEJ trägt den Titel “Bot Herding: The Ultimate Tool for PageRank Sculpting” und ist auch abseits dieser Informationen absolut lesenswert. Das Thema follow / nofollow wird hier ebenfalls in einer interessanten Art und Weise angeschnitten und es wird erläutert, wieso man eben nicht per Metatag “nofollow” nutzen sollte. Stichwort Dangling Links.