Das Thema Index-Steuerung wird meiner Meinung nach immer wichtiger und ist ein Thema, mit dem sich jeder SEO beschäftigen muss, der größere Portale betreut. Es stellt sich die Frage: Welche Dokumente sollen denn überhaupt in den Index von Google?

Index-Steuerung – wieso?

SEO: Index-Steuerung

SEO: Index-Steuerung

Meiner Meinung nach gehören nur Dokumente in den Index von Google, die wirklich eine Rankingberechtigung haben. Sprich, Dokumente, die auf bestimmte Suchphrasen optimiert sind und einen klaren Mehrwert bieten.

Nur das ist einfach gesagt. Jeder SEO, der größere Portale betreut, kennt das Problem: Abhängig vom eingesetztem CMS oder auch vom Elan der Mitarbeiter oder Kollegen finden eines Tages plötzlich tausende Dokumente ihren Weg in den Google-Index. Dem SEO stellt es die Nackenhaare auf, nun muss reagiert werden.

Möglichkeiten zur Index-Steuerung

Es gibt freilich mehrere Möglichkeiten zur Index-Steuerung, fast jede bietet Vor- oder Nachteile. Folgend ein kurzer Überblick der Möglichkeiten gespickt mit meinen persönlichen Erfahrungen.

(1) robots.txt

Ein Mythos, auf den viele SEOs heute immer noch reinfallen: Index-Steuerung via der robots.txt. Der Vorteil: Die Konfiguration ist einfach über ein Textfile möglich. Alle Deteils hat Eric im SEO Book veröffentlicht.

Nur sagt die robots.txt lediglich aus, welche Bereiche der Webseite gecrawlt werden dürfen und welche eben nicht. Über die robots.txt lässt sich nicht definieren, welche Inhalte in den Index aufgenommen werden dürfen und welche nicht.

Ich versuche, die robots.txt so selten wie möglich zu verwenden.

(2) rel=”canonical”

Mit dem rel=”canonical” Tag lässt sich Suchmaschinen mitteilen, welche Seite bevorzugt zu behandeln (also auch zu indexieren) ist, wenn man Dokumente mit ähnlichen Inhalten hat. Das tritt oft in Shopsystemen auf. Alle Informationen zum Canonical-Tag stellt Google selbst zur Verfügung.

Nun ist es leider so, dass Google das Canonical-Tag eher als Empfehlung sieht, nicht als Anweisung. Meiner Erfahrung nach ist die Index-Steuerung mit dem Canonical-Tag nicht sicher, die kann funktionieren, muss aber nicht. Ich habe schon beobachten müssen, wie Google dieses Tag in ganzen Bereichen von Webseiten komplett ignoriert.

(3) robots-Metatag

Hier kommen wir zu meiner Lieblingsmöglichkeit, dem robots-Metatag. Setzt man auf Dokumenten-Ebene das robots-Metatag auf “noindex”, dann wird das Dokument auch nicht in den Index aufgenommen. Dabei kann es noch so oft intern wie extern verlinkt werden, es wird nicht indexiert.

Gängige CMSe unterstützen das robots-Metatag (sonst ist es kein gutes). Stößt man doch mal an die Grenzen beim Setzen des robots-Metatags, so kann man alternativ auf das X-Robots-Tag via HTTP Header ausweichen, funktioniert genauso gut.

Weitere Informationen zum robots-Metatag gibt es im Guide von Joost.

(4) Parameterbehandlung in den Google Webmaster Tools

Der Vollständigkeit halber muss ich noch die Methode der Parameterbehandlung in den Google Webmaster Tools ansprechen. Denn URL-Parameter sorgen oft für Content, der nicht im Index landen sollte.

Die Erfahrung hat gezeigt, dass die Index-Steuerung via Parameterbehandlung in den GWT momentan sehr gut funktioniert. Aber wenn ihr diese Möglichkeit nutzt, schreibt euch auf, was ihr da konfiguriert: In einem Jahr weiß niemand mehr, warum gerade Dokument XY nicht rankt, nur weil ihr es jetzt von der Indexierung ausgeschlossen habt in den GWT…

Eure Erfahrungen

Was meint ihr? Ist es wichtig, darauf zu achten, welche Dokumente in den Google-Index gelangen? Macht es Sinn, für dieses Thema Zeit zu investieren?

Welche Möglichkeiten der Index-Steuerung bevorzugt ihr?

Foto: © Arcady – Fotolia.com