Aktuelles

Sammlung: robots.txt – Lustiges & Interessantes

10. März 2017 von Maximilian Bloch

Eigentlich wollte ich euch nur nicht die echt gelungene robots.txt-Datei von Sistrix vorenthalten. Aber ob das dann einen eigenen Beitrag rechtfertigt?

Insofern haben wir uns entschlossen, hier, nach und nach lustige, interessante und außergewöhnliche robots.txt-Dateien zum Besten zu geben.

Da Sistrix ja quasi der Initiator dessen war, macht deren robots.txt auch den Anfang.

Sistrix.com

Hier geht´s zu Sistrix.

Google

Echt interessant und alles andere als trivial ist auch die robots.txt-Datei von Google selbst.

Einfach mal selber nachsehen: https://www.google.com/robots.txt

Blocked by robots.txt

Das versuchen wir als SEOs zwar immer bestmöglich zu vermeiden – bei Google ist das allerdings egal.

blocked by robots - google

Zum Hintergrund: Für alle, die nicht so tief im Thema sind: So sieht das aus, wenn eine Seite, welche via robots.txt geblockt ist, in den Index gerät. Dies geschieht beipielsweise, wenn Links auf eine per robots.txt gesperrte Seite zeigen. Um ein Ergebnis sicher von der Indexierung auszuschließen, ist ein „noindex,follow“ in den Robots-Meta-Tags also die bessere Wahl. Dann muss die Sperrung in der robots.txt allerdings aufgehoben werden, da andernfalls Google die Seite nicht crawlen darf und somit auch ein „noindex“ nicht auslesen kann.

Mit einem „Disallow:“ in der robots.txt wird das Crawlen verboten, mit einem „noindex“ die Indexierung. Mit einem „noindex“ und keinem Ausschluss über die robots.txt wird die Seite jedoch gecrawlt, was wieder Crawling-Budget benötigt.

Insofern muss je nach Situation entschieden werden, was nun wichtiger ist. Die Einsparung des Crawling-Budgets oder dass die Seite tatsächlich nicht in den Index aufgenommen wird.

Facebook

Ihr sucht eine Aufzählung von aktuellen und großen Crawlern?

Dann seid Ihr hier richtig: robots.txt von Facebook

Übrigens: Das Crawlen von Facebook ist ohne unterschriebene Genehmigung von Facebook anscheinend nicht erlaubt. Vielleicht hält sich ja jemand dran….

Sofern also jemand vorhaben sollte, Facebook zu crawlen: Bitte hier anfragen 🙂

Sammlung: robots.txt – Lustiges & Interessantes

Sistrix.com

Google

Blocked by robots.txt

Facebook

To be continued…

Schreibe einen Kommentar Antworten abbrechen