Das Internet ist voller Robots/Spider/Crawler/Bots. Sie hangeln sich von einer zur anderen Seite auf nehmen alles auf was sie auf dem Weg finden. Im Grunde garnicht so schlecht, wenn es denn die Richtigen sind.
Der Googlebot zum Beispiel sorgt dafür, dass Webinhalte „schnell“ indiziert und für die Suche zu Verfügung gestellt werden. Was er jedoch garnicht mag, ist Duplicate Content (doppelter Inhalt). Wie in einem anderen Beitrag schon einmal erwähnt, bedeutet DC dass ein Beitrag unter mindestens 2 verschiedenen Wegen zu erreichen ist.
Bei einem Blog ist das schnell passiert- man kann ja den Artikel direkt anklicken (Weg Nr.1), über eine Kategorie (Weg Nr.2) oder über ein Tag (Weg Nr.3).
Darüber hinaus gibt es einen Haufen weitere Bots, die komplette Webseiten kopieren und nur für den Datenklau erschaffen wurden. Um den Bots einen Riegel vorzuschieben wurde die robots.txt erschaffen, standartmäßig im root Verzeichnis einer Domain (https://www.deinedomain.de/robots.txt). Die Regeln sind ganz einfach – Dissallow bedeutet dass der Robot (Bot) den Pfad nicht crawlen darf – Allow das genaue Gegenteil. In Hinsicht auf Datenschutz und dem ständig gleichen Text im Impressum auf vielen Webseiten soll dieses auch nicht im Webindex erscheinen.
Für WordPress gibt es ein kleines Plugin mit dem Namen PC Robots.txt
Nach der üblichen Installation erstellt das Plugin automatisch die robots.txt, und stattet sie mit bestimmten Filter gegen lästige und schädliche Crawler aus. Im Adminpanel können weitere Einträge einfach hinzugefügt werden.
Da ich einige Bereiche unter keinen Umständen durchleuchtet haben möchte, habe ich noch folgende Einstellungen an das Ende der Liste hinzugefügt:
User-agent: *
Disallow: /cache/
Disallow: /cache/*
Disallow: /wp-content/cache
Disallow: /wp-includes/
Disallow: /wp-includes/*
Disallow: /wp-admin/*
Disallow: /wp-admin/
Disallow: /wp-images/
Disallow: /wp-images/*
Disallow: /plugins/
Disallow: /plugins/*
Disallow: /author/
Disallow: /author/*
Disallow: /page/
Disallow: /page/*
Disallow: /search/
Disallow: /search/*
Disallow: /login/
Disallow: /login/*
Disallow: /cgi-bin/
Disallow: /cgi-bin/*
Disallow: /login/
Disallow: /login/*
Disallow: /themes/
Disallow: /themes/*
Disallow: /backup/
Disallow: /backup/*
Disallow: /archives/
Disallow: /archives/*
Disallow: /trackback
Disallow: /comments
Disallow: /comments/feed
Disallow: */comments
Disallow: */trackback
Disallow: */trackback/$
Disallow: /wp-login.php
Disallow: /wp-register.php
Disallow: /impressum
Disallow: /category/*
Disallow: /category/
Disallow: /impressum/Sitemap: https://netz2null.de/sitemap.xml
Laut einigen Forenposts sollte man in Hinsicht auf den Googlebot die eigene Sitemap ans Ende der robots.txt anfügen, zwingend notwendig ist es jedoch nicht.
In: SEO|Wordpress | 10.556 Aufrufe bisher
Letzte Aktualisierung: 13. Februar 2012 von
2 Kommentare zu WP Plugin: Robots.txt für WordPress automatisch anpassen
Alex Steinberg
17. Mai 2011 am 16:45
Hätte ich den Artikel vor 2 Wochen entdeckt… Wegen DC sind 2 Projekte die gleichermaßen mit WP aufgebaut waren von 600 auf 18-20 Besucher täglich runter. Schuld waren wahrscheinlich die ganzen Pages /page/2/, /page/3/… /page/15/ mit den ähnlichen oder den selben Inhalten.
Kurz zu deiner robots.txt: eigentlich sehr interessant, aber m.E. viel zu vorsichtig. Ich habe diese bei mir halbiert 🙂 Search, themes, will ich nicht ausschließen, andere Ordner wie z.B. backup, login hat eine WP Standardinstallation nicht.
Zu pages:
Disallow: /page/
Disallow: /page/*
meine Websites haben folgende Linkstruktur: example.com/cat/hunde/page/2
da brauche ich andere Befehle, oder?
karl
2. Dezember 2011 am 02:33
Doppelter C,..
Frage.: Ich habe zum Beispiel die Seite Impressum Online,.. später im text in einem Artikel schreibe ich dann Postalisch erreichbar bin ich unter der im Impressum angegebenen Adresse. Ein Link auf Impressum,. der auf dei Impressums Seite verweisst,..
ist ds dann schon DC ??
Heisst das ,.. ich darf Impressum nicht verlinken,.. und die anderen Seiten auf meiner Seite auch nicht ??
Beispiel,… ich schreibe einen Artikel über Aktuelle Charts.. auf einigen weiteren Seiten verweise ich dann auf den Artikel ….
Beispiel,.. MUKKE Macher ( mit Aktuellen Charts , Rock Pop ,. etc,.. ) das Wort Aktuelle Chart habe ich dann verlinkt mit dem Artikel der Aktuellen Charts verlinkt,..
ist das DC ??