Sammlung: robots.txt – Lustiges & Interessantes
Eigentlich wollte ich euch nur nicht die echt gelungene robots.txt-Datei von Sistrix vorenthalten. Aber ob das dann einen eigenen Beitrag rechtfertigt?
Insofern haben wir uns entschlossen, hier, nach und nach lustige, interessante und außergewöhnliche robots.txt-Dateien zum Besten zu geben.
Da Sistrix ja quasi der Initiator dessen war, macht deren robots.txt auch den Anfang.
Sistrix.com
Hier geht´s zu Sistrix.
Echt interessant und alles andere als trivial ist auch die robots.txt-Datei von Google selbst.
Einfach mal selber nachsehen: https://www.google.com/robots.txt
Blocked by robots.txt
Das versuchen wir als SEOs zwar immer bestmöglich zu vermeiden – bei Google ist das allerdings egal.
Zum Hintergrund: Für alle, die nicht so tief im Thema sind: So sieht das aus, wenn eine Seite, welche via robots.txt geblockt ist, in den Index gerät. Dies geschieht beipielsweise, wenn Links auf eine per robots.txt gesperrte Seite zeigen. Um ein Ergebnis sicher von der Indexierung auszuschließen, ist ein „noindex,follow“ in den Robots-Meta-Tags also die bessere Wahl. Dann muss die Sperrung in der robots.txt allerdings aufgehoben werden, da andernfalls Google die Seite nicht crawlen darf und somit auch ein „noindex“ nicht auslesen kann.
Mit einem „Disallow:“ in der robots.txt wird das Crawlen verboten, mit einem „noindex“ die Indexierung. Mit einem „noindex“ und keinem Ausschluss über die robots.txt wird die Seite jedoch gecrawlt, was wieder Crawling-Budget benötigt.
Insofern muss je nach Situation entschieden werden, was nun wichtiger ist. Die Einsparung des Crawling-Budgets oder dass die Seite tatsächlich nicht in den Index aufgenommen wird.
Ihr sucht eine Aufzählung von aktuellen und großen Crawlern?
Dann seid Ihr hier richtig: robots.txt von Facebook
Übrigens: Das Crawlen von Facebook ist ohne unterschriebene Genehmigung von Facebook anscheinend nicht erlaubt. Vielleicht hält sich ja jemand dran….
Sofern also jemand vorhaben sollte, Facebook zu crawlen: Bitte hier anfragen 🙂