Was ist robots.txt?
robots.txt ist eine einfache Textdatei im Root Ihrer Website (yoursite.com/robots.txt). Sie gibt Suchmaschinen-Crawlern Anweisungen, welche Seiten sie besuchen duerfen und welche sie auslassen sollen.
Es ist meist die erste Datei, die Crawler pruefen, wenn sie auf Ihre Website kommen. Bevor Google eine einzige Seite rendert, liest es die robots.txt und versteht so die Spielregeln.
Warum das fuer Rankings wichtig ist
robots.txt ist ein grobes Werkzeug - aber ein wichtiges.
Private Bereiche schuetzen. Admin-Oberflaechen, API-Endpunkte, Staging-Seiten und interne Tools sollten nicht in Googles Index landen. robots.txt haelt Crawler dort fern.
Crawl-Budget sparen. Google investiert nur begrenzte Zeit pro Website. Wenn Crawler Zeit auf Utility-Seiten verschwenden, werden wichtige Inhalte seltener besucht.
Unbeabsichtigte Deindexierung vermeiden. Das ist der gefaehrliche Teil. Eine einzige Zeile - Disallow: / - sagt allen Crawlern, dass sie die gesamte Website meiden sollen. Das passiert oefter als man denkt, vor allem bei Relaunches oder wenn eine Staging-robots.txt versehentlich live geht.
Was passiert, wenn robots.txt schiefgeht:
- Alles blockiert: Ihre komplette Website verschwindet innerhalb weniger Tage aus Google
- CSS/JS blockiert: Google kann Ihre Seiten nicht sauber rendern
- Wichtige Bereiche blockiert: Produktseiten oder Blogposts tauchen nicht mehr in der Suche auf
- Keine robots.txt: kein Weltuntergang, aber Crawler bekommen keinen klaren Hinweis auf die Sitemap
Wie es in der Praxis funktioniert
Eine einfache robots.txt:
User-Agent: *
Allow: /
Disallow: /api/
Disallow: /admin/
Sitemap: https://example.com/sitemap.xml
Das bedeutet:
User-Agent: *- diese Regeln gelten fuer alle CrawlerAllow: /- standardmaessig darf alles gecrawlt werdenDisallow: /api/- API-Routen sollen uebersprungen werdenSitemap:- dort liegt die Sitemap
Sie koennen auch bestimmte Crawler gezielt ansprechen:
User-Agent: GPTBot
Disallow: /
User-Agent: Googlebot
Allow: /
Das blockiert OpenAIs Crawler, erlaubt aber Google weiter den Zugriff.
Wichtige Feinheiten:
- robots.txt ist eine Bitte, keine harte Zugriffssperre
Disallowverhindert das Crawling, nicht zwingend die Indexierung- robots.txt ist oeffentlich. Jeder kann sie unter
yoursite.com/robots.txtlesen
Hauefige Fehler:
- Die Staging-Zeile
Disallow: /nach dem Launch vergessen - CSS- und JavaScript-Dateien blockieren
- Keine Sitemap referenzieren
- robots.txt statt
noindexverwenden, um Seiten aus dem Index zu halten
So handhabt Webentity das
Webentity erzeugt robots.txt beim Build mit sinnvollen Standardregeln: alles erlauben, API-Routen blockieren und auf die Sitemap verweisen. Die Datei wird aus Code generiert und ist damit typsicher statt fehleranfaelligem Copy-and-paste.
In Staging-Umgebungen gelten andere Regeln, die Crawler komplett aussperren. So landet keine halbfertige Version in Google. Sobald Sie in Produktion deployen, greifen automatisch die Produktionsregeln.