Möglichkeiten der Index-Steuerung & was noch funktioniert

Das Thema Index-Steuerung wird meiner Meinung nach immer wichtiger und ist ein Thema, mit dem sich jeder SEO beschäftigen muss, der größere Portale betreut. Es stellt sich die Frage: Welche Dokumente sollen denn überhaupt in den Index von Google?

Index-Steuerung – wieso?

SEO: Index-Steuerung

SEO: Index-Steuerung

Meiner Meinung nach gehören nur Dokumente in den Index von Google, die wirklich eine Rankingberechtigung haben. Sprich, Dokumente, die auf bestimmte Suchphrasen optimiert sind und einen klaren Mehrwert bieten.

Nur das ist einfach gesagt. Jeder SEO, der größere Portale betreut, kennt das Problem: Abhängig vom eingesetztem CMS oder auch vom Elan der Mitarbeiter oder Kollegen finden eines Tages plötzlich tausende Dokumente ihren Weg in den Google-Index. Dem SEO stellt es die Nackenhaare auf, nun muss reagiert werden.

Möglichkeiten zur Index-Steuerung

Es gibt freilich mehrere Möglichkeiten zur Index-Steuerung, fast jede bietet Vor- oder Nachteile. Folgend ein kurzer Überblick der Möglichkeiten gespickt mit meinen persönlichen Erfahrungen.

(1) robots.txt

Ein Mythos, auf den viele SEOs heute immer noch reinfallen: Index-Steuerung via der robots.txt. Der Vorteil: Die Konfiguration ist einfach über ein Textfile möglich. Alle Deteils hat Eric im SEO Book veröffentlicht.

Nur sagt die robots.txt lediglich aus, welche Bereiche der Webseite gecrawlt werden dürfen und welche eben nicht. Über die robots.txt lässt sich nicht definieren, welche Inhalte in den Index aufgenommen werden dürfen und welche nicht.

Ich versuche, die robots.txt so selten wie möglich zu verwenden.

(2) rel=“canonical“

Mit dem rel=“canonical“ Tag lässt sich Suchmaschinen mitteilen, welche Seite bevorzugt zu behandeln (also auch zu indexieren) ist, wenn man Dokumente mit ähnlichen Inhalten hat. Das tritt oft in Shopsystemen auf. Alle Informationen zum Canonical-Tag stellt Google selbst zur Verfügung.

Nun ist es leider so, dass Google das Canonical-Tag eher als Empfehlung sieht, nicht als Anweisung. Meiner Erfahrung nach ist die Index-Steuerung mit dem Canonical-Tag nicht sicher, die kann funktionieren, muss aber nicht. Ich habe schon beobachten müssen, wie Google dieses Tag in ganzen Bereichen von Webseiten komplett ignoriert.

(3) robots-Metatag

Hier kommen wir zu meiner Lieblingsmöglichkeit, dem robots-Metatag. Setzt man auf Dokumenten-Ebene das robots-Metatag auf „noindex“, dann wird das Dokument auch nicht in den Index aufgenommen. Dabei kann es noch so oft intern wie extern verlinkt werden, es wird nicht indexiert.

Gängige CMSe unterstützen das robots-Metatag (sonst ist es kein gutes). Stößt man doch mal an die Grenzen beim Setzen des robots-Metatags, so kann man alternativ auf das X-Robots-Tag via HTTP Header ausweichen, funktioniert genauso gut.

Weitere Informationen zum robots-Metatag gibt es im Guide von Joost.

(4) Parameterbehandlung in den Google Webmaster Tools

Der Vollständigkeit halber muss ich noch die Methode der Parameterbehandlung in den Google Webmaster Tools ansprechen. Denn URL-Parameter sorgen oft für Content, der nicht im Index landen sollte.

Die Erfahrung hat gezeigt, dass die Index-Steuerung via Parameterbehandlung in den GWT momentan sehr gut funktioniert. Aber wenn ihr diese Möglichkeit nutzt, schreibt euch auf, was ihr da konfiguriert: In einem Jahr weiß niemand mehr, warum gerade Dokument XY nicht rankt, nur weil ihr es jetzt von der Indexierung ausgeschlossen habt in den GWT…

Eure Erfahrungen

Was meint ihr? Ist es wichtig, darauf zu achten, welche Dokumente in den Google-Index gelangen? Macht es Sinn, für dieses Thema Zeit zu investieren?

Welche Möglichkeiten der Index-Steuerung bevorzugt ihr?

Foto: © Arcady – Fotolia.com

6 Kommentare
  1. Vorteil der robots ist allerdings, dass man sich so Crawling-Kapazitäten sparen kann. Die Seiten können zwar in den Index wandern, allerdings nur, wenn sie auch irgendwo verlinkt sind.
    Noindex wandert zwar nicht in den index, wird aber trotzdem gecrawlt.
    Canonical Tag funktioniert zwar recht gut, muss aber nicht.
    Ich glaube den Königsweg zum perfekten Index ist sehr schwierig auszumachen und hängt auch absolut von den Inhalten, dem CMS und der Intention der Seite ab.

  2. Hallo Markus,

    schöner, kurzer Artikel. Ich muss zugeben, kurz hat schon was. 😉
    Wir haben ja im SEO Book eher immer die längeren, aber gerade wenn man wenig Zeit hat, dann ist man natürlich froh, wenn jemand das mal kurz und knackig zusammenfasst und entsprechende Links angibt, wo man das Ganze dann bei Bedarf ausführlich nachlesen kann.

    Zu deiner Frage: Ich bin der Meinung, dass man definitiv darauf achten sollte, welche Dokumente auf „index“ stehen und welche nicht. Dementsprechend lohnt es sich auf jeden Fall auch, Zeit in die Index-Steuerung zu investieren. Ich glaube, dass das Thema sogar immer wichtiger wird und dass man sehr genau darauf achten sollte, welches Dokument in den Index schickt und welches lieber nicht. Zuviele, nennen wir sie Thin Content-Dokumente, im Index sind sicher keine gute Idee. Aus meiner Sicht gehören deshalb alle Seiten auf „noindex“ gesetzt, die keinen eigenen Unique Content vorweisen können und somit nur als, ich nenn das mal Navigations- bzw. Zwischenseite, dienen. Gleiches gilt für interne Suchergebnisseiten. Auch damit sollte man extrem vorsichtig sein und im Zweifel lieber ein „noindex“ einbauen, da Google ja bekanntlich nicht auf SERPS in SERPS steht… und das zu Recht.

    Bezüglich des Werkzeugs bin ich auch ganz bei dir, am besten bzw. zuverlässigsten ist das Robots-Metatag.

    Viele Grüße
    Christoph

  3. Für große Websites sehe ich das Thema Crawling und Indexierung auch als eines der wichtigsten SEO-Themen, auf das ich auch ein starkes Auge habe. Die Übersicht der verschiedenen Möglichkeiten behandele ich genau so wie beschrieben. Insbesondere ist die Index-Steuerung auch ein gutes Gegenmittel für die ganzen Panda-Updates.

  4. Wie ich sehe, wurde der canonical-Tag auch auf dieser Seite gesetzt.
    Interessanter Artikel, gerade beim „Canonical“ Tag überlege ich seit einigen Tagen, diesen auch aktiv bei einigen Projekten einzusezten.

Kontakt:

tekka online ideas
Markus Walter

Gunta-Stölzl-Straße 27
80807 München

Webseite: http://www.tekka.de/
Telefon: 089-43569554
Mail: mw(at)tekka(dot)de

Markus bei Google+

tekka bei Google+