Früher oder später wird man als Betreiber einer WebsiteMit dem Begriff Website wird die Gesamtheit aller unter einer Domain abrufbaren Einzelseiten bezeichnet, die normalerweise durch eine einheitliche Navigation verbunden sind. More mit der Datei robots.txt konfrontiert. An dieser Stelle soll kurz erklärt werden wofür sie da ist, was sie kann und vor allem was sie nicht kann. Außerdem geben wir einige Tipps für die Verwendung mit WordPress.
Was die robots.txt kann und was sie nicht kann
Die robots.txt ist eine Datei, die dafür gedacht ist automatische Crawler (z.B. Suchmaschinenbots) anzuleiten was sie auf der jeweiligen Website zu tun und zu lassen haben. Das klingt jetzt strenger als es ist, denn tatsächlich bietet die robots.txt keinerlei technische Beschränkungen. Sie gibt sozusagen nur freundliche Hinweise. Es liegt an den Crawlern, ob sie diese beachten oder nicht. Ein Zugriffsschutz oder ähnliches ist also mit Hilfe dieser Datei nicht möglich!
So sieht die robots.txt aus
Nachdem nun klar ist, dass es sich bei den Inhalten dieser Datei nur um Hinweise bzw. eine Bitte an die Crawler handelt, sehen wir uns mal an wie so etwas aussieht.
User-agent: \*
Disallow: /wp-admin/
Disallow: /wp-includes/
Hier werden alle Crawler (daher der * als Platzhalter bei User-agent) gebeten die Verzeichnisse wp-admin und wp-includes nicht zu crawlen. So sieht eine extrem einfache robots.txt für WordPress aus.
Etwas komplexer wird es, wenn man mehr ins Detail geht
User-agent: \*
Disallow: /wp-admin/
Disallow: /trackback/
Disallow: /feed/
Disallow: /comments/
Disallow: \*/trackback/
Disallow: \*/feed/
Disallow: \*/comments/
Allow: /wp-admin/admin-ajax.php
Sitemap: http://beispielblogdomain.xx/sitemap.xml
Hier fallen vor allem einige Verbote für trackbackMit Hilfe eines Trackbacks wird von WordPress aus manuell ein Hinweis an eine in einem Beitrag verlinkte Internetseite versendet. More, feed und comments auf. Diese verhindern bei wichtigen Suchmaschinen (diese halten sich in der Regel an diese Anweisungen) das Aufnehmen von URLsEine URL ist die vollständige Internetadresse einer Internetseite wie z.B. https://wphelp.de/impressum. More, die gegebenenfalls den gleichen Inhalt zeigen wie Beitragsseiten. Das schränkt das Problem mit doppelten Inhalten (Duplicate Content, ein im Bereich SEO bekanntes Problem) ein.
Weiterhin wird hier auf die Sitemap verlinkt, die durch ein Sitemap-Plugin erstellt wurde. Dieser Verweis ist hier gut aufgehoben, sollte allerdings immer in Kombination mit der Anmeldung der Website und der Sitemap bei den Google Webmaster Tools erfolgen.
Eine vollständige Referenz würde hier den Rahmen sprengen. Sie ist zusammen mit einer Menge Erklärungen z.B. bei SelfHTML zu finden.
WordPress robots.txt selbst schreiben oder Plugins verwenden?
Im Grunde ist die robots.txt recht einfach strukturiert und die genaue Funktionsweise und Syntax lässt sich schnell erlernen. Damit könnte man einfach die Textdatei selbst schreiben und auf den Server laden. Die Datei muss dabei immer in der obersten Dateiebene gespeichert werden, so dass diese über die URL 'deinedomain.de/robots.txt
' abrufbar ist. Es gibt allerdings wie so oft bei WordPress auch hier Unterstützung von PluginsEin Plugin ist eine in WordPress integrierbare Erweiterung, die zusätzliche Funktionen bereit stellt. More. Das bekannte WordPress SEO by Yoast bringt zum Beispiel einen Editor mit, der das Hoch- und Herunterladen der Datei bei kleinen Änderungen erspart.
Robots.txt wichtig oder nicht?
Nun scheiden sich die Geister wie wichtig das Vorhandensein der robots.txt wirklich ist. Man könnte wohl sagen, dass es ohne sie geht, sie aber durchaus als Teil einer soliden Basis für eine Website gesehen werden kann. Wer gerne mit geringstmöglichem Aufwand Inhalte veröffentlich will, kann gut auf sie verzichten. Wer hingegen Wert darauf legt die größtmögliche Kontrolle darüber zu haben wie Suchmaschinen und andere Spider seine SeiteNormalerweise werden Seiten in WordPress im Gegensatz zu Beiträgen eher für Inhalte genutzt, die selten geändert und für Besucher von überall aus schnell zugänglich sein sollen wie z.B. das Impressum. More lesen und welche Inhalte in Suchmaschinen erscheinen, für den gehört eine robots.txt dazu.