Um das Verhalten der Web Crawler zu überprüfen, habe ich mir die Lösung von Crawltrack installiert. Damit lässt sich genau erkennen, welche Web Crawler sich wann auf der Domain tummeln und welche Seiten sie spidern.
Nun habe ich mir angeschaut, was der Crawler von Google so treibt.

Auf der Grafik wird deutlich, dass der Web Crawler von Google (Google Bot) heute bisher 62 mal auf der Domain war und 62 Seiten gespidert hat. Soweit ist das nicht verwunderlich.
Die nächte Grafik zeigt jedoch, welche Seiten gespidert wurden: (Auszug)
Hier sind viele Seiten dabei, welche nur über die Suche erreichbar sind und sonst nirgends verlinkt sind. Seit wann sind denn die Crawler in der Lage, Eingaben in den Suchschlitzen der internen Suche zu tätigen?
Und nun noch das Kuriose: Bei der Suche von Google sind zwei Blogs von Kollegen dabei, welche ebenfalls regelmäßig zu Themen aus der Suchmaschinenoptimierung bloggen: Baynado und insideblog.
Aber auch sonst spidert Google sehr viele Seiten, die eigentlich nicht existieren und nicht verlinkt sind. Ich habe bei Google Analytics die interne Websuche aktiviert und dort die Struktur angegeben. Vielleicht nimmt Google von hier die URL-Struktur und spidert die entsprechenden Seiten. Auf jeden Fall finde ich das Ganze sehr eigenartig.
Alle Phrasen, nach denen “Google sucht”, kommen in meinem Blog vor. Aber wer sucht schon nach “postete” oder “loggt”?
PS: Google hat auch die Seite mit den Suchergebnissen nach “Schnipsel” gespidert. Wurde hier nach einem Nick aus dem Abakus-Forum gesucht?
Wahrscheinlich eher nicht, ich habe nur mal das Wort “Code-Schnipsel” hier im Blog erwähnt.
Nachtrag: Google hat sogar 4 von diesen Seiten indexiert, welche die Suchergebnisse darstellen. Trotz “noindex”.
Ähnliche Posts:
-
SEO Beratung gesucht?
Markus Walter berät Sie mit tekka online ideas rund um das Thema Suchmaschinenoptimierung. Werfen Sie einen Blick in die SEO Leistungen.

Gute Arbeit! Sehr gute Arbeit! – Könnte von mir stammen.
Wenn nofollow bedeuten würde, dass Google nicht folgt, dann würde auch noindex das gleiche bedeuten. Dem ist aber nicht so. nofollow und noindex bedeuten lediglich, dass die PageRank-Vererbung nicht stattfindet. Google interessiert sich dennoch für alle Daten des Webs und cralt und indiziert sie. Indizieren bedeutet ja nicht gleich mit in den Index aufnehmen.
Wulffy, das ist falsch. Mit dem Attribut “noindex” des Robots-Metatags lässt sich verhindern, dass Seiten in den Index der Suchmaschinen aufgenommen werden. Das hat doch mit dem Pagerank gar nichts zu tun.
Mit rel=”nofollow” als Zusatz im HREF lässt sich steuern, wie sich der Pagerank verteilen soll, aber das ist doch jetzt ne ganz andere Baustelle.
Google führt schon seit einiger Zeit diese merkwürdigen Suchanfragen durch (http://blogs-optimieren.de/2008/02/10/google-bot-mit-neuen-suchstrategien/) wobei ich mir nicht sicher bin ob damit nur die Indexdichte erhöht werden soll oder noch mehr dahinter steckt.
Das mit dem Noindex ist aber wirklich sehr merkwürdig, würde dem Sinn des Tags ja direkt zuwiderlaufen.
Meiner Meinung nach indexiert Google eh alles was er (sie?, es?) auf dem Server finden kann. Und das geht ziemlich flott. Sogar einigen Dateien, die zu Testzwecken nur für ein paar Stunden online gestellt wurden, hat der Robot einen Besuch abgestattet.
@Herbert: Aber die Seiten/ Dateien, mit “s=” in der URL (also die Seiten mit den Suchergebnissen) kann Google gar nicht auf dem Server finden.
Daher nun noch einmal die Frage: Füllt der Bot von Google das Formularfeld der Suche aus?
@ Markus: ich vermute, dass dein Content Management System die Seiten mit den Suchergebnissen in einer Datei abspeichert und Google dann den Links folgt.
Hast Du bei Google Analytics schon mal geschaut, ob es sich bei den gespiderten Suchbegriffen um Keywords handelt, nach welchen die Besucher Deiner Website gesucht haben?
Wäre doch vorstellbar, dass Google dank Analytics sieht, dass jemand zum Beispiel noch “deutschland” gesucht hat und dass Google sich deshalb die Suchergebnisse genauer anschaut und in den Index aufnimmt. (Oder so ähnlich…)
Ja, Google spidert auch alle möglichen Ergebnisseiten von Suchformularen (füllt also das Formular selbst aus,w enn man so will). Eigentlich ja auch ganz cool… Am besten “wehrst” Du Dich dagegen wenn Du in deine robots.txt Folgendes hinzufügst:
Disallow: /*?
Damit werden alle dynamischen Seiten nicht indexiert (sowie bereits indexierte wieder aus dem Index genommen). Solltest Du dagegen ein paar dynamische Seiten indexiert haben wollen, musst du die halt wieder “allowen”; kommt bei Dir aber glaub ich eh nicht vor.
Bernhard, die Idee mit der robots.txt hatte ich auch schon, habe sie dann aber verworfen, da ich die Seiten bereits mit dem Robots-Metatag von der Indexierung sperre. Sollte ja eigentlich ausreichen, dachte ich bisher…
Das funzt natürlich auch, wobei das Entfernen aus dem Google-Index mit der robots.txt am schnellsten gehen sollte. Der Cache der indexierten dyn. Seiten zeigt übrigens noch ein “index, follow”
Bernhard: Tatsächlich, obwohl ich die Suchergebnisse schon vor sehr langer Zeit per Robots-Metatag ausgeschlossen habe. Da ist der Google Web Crawler wohl nicht auf dem aktuellen Stand
Ich ziehe mal ein kurzes Zwischenfazit: Der Google Crawler ist also aller Wahrscheinlichkeit in der Lage, Formularfelder auszufüllen.
Markus, danke für Deine Antwort, die mich doch sehr enttäuscht hat.
Mir ist bekannt, wofür noindex steht und was sich mit nofollow steuern lässt. Ich hatte nicht geschrieben, dass nofollow und noindex die gleiche Baustelle wären.
Alle Seiten, die mit noindex gekennzeichnet sind, werden als Dangling Pages aus der PageRank-Berechnung herausgenommen. Deswegen hat noindex etwas mit PageRank zu tun. “Dangling links do not affect the ranking of any other page directly, we simply remove them from the system until all the PageRanks are calculated.” (Original PageRank paper)
Verstehe doch meine Aussage bitte. Sowohl bei nofollow als auch bei noindex crawlt der GoogleBot dennoch die Seiten und Inhalte und speichert diese Daten auch auf den Google-Servern zur Auswertung. Google beabsichtigt zudem, trotz noindex die Seiten mit in den Suchergebnissen anzuzeigen. Natürlich drückt es Matt Cutts nicht direkt so aus, aber er deutet an, dass dieses geschehen wird, auch wenn es jetzt noch den Anschein hat, dass er zunächst eine Befragung durchführt. Siehe: http://www.mattcutts.com/blog/google-noindex-behavior/
“Sowohl bei nofollow als auch bei noindex crawlt der GoogleBot dennoch die Seiten und Inhalte und speichert diese Daten auch auf den Google-Servern zur Auswertung”
ist das wirklich so?
@orga: definitiv. Ist aber schon seit Ende letzten Jahres bekannt. Hat selbst Matt Cutts bejaht in einem Interview im Dezember 2007. Ich bereite einen Blogpost darüber vor. Dauert aber noch. Zu viel gleichzeitig.
Wulffy, bei Veröffentlichung deines Posts hoffe ich doch auf einen Trackback!
Hallo zusammen,
dieses Crawltrack würde ich gerne in meinen XTC Shop einbauen wollen. Leider bin ich noch Anfänger. Könnte mir jemand sagen wie und wo ich das einbauen muss?.
Vielen Dank im voraus
Gruss Dieter
Hallo Dieter,
hier findest du alle Informationen:
http://www.crawltrack.fr/documentation.php
Viele Grüße,
Markus