robots.txt

Was ist robots.txt?

robots.txt ist eine einfache Textdatei im Root Ihrer Website (yoursite.com/robots.txt). Sie gibt Suchmaschinen-Crawlern Anweisungen, welche Seiten sie besuchen duerfen und welche sie auslassen sollen.

Es ist meist die erste Datei, die Crawler pruefen, wenn sie auf Ihre Website kommen. Bevor Google eine einzige Seite rendert, liest es die robots.txt und versteht so die Spielregeln.

Warum das fuer Rankings wichtig ist

robots.txt ist ein grobes Werkzeug - aber ein wichtiges.

Private Bereiche schuetzen. Admin-Oberflaechen, API-Endpunkte, Staging-Seiten und interne Tools sollten nicht in Googles Index landen. robots.txt haelt Crawler dort fern.

Crawl-Budget sparen. Google investiert nur begrenzte Zeit pro Website. Wenn Crawler Zeit auf Utility-Seiten verschwenden, werden wichtige Inhalte seltener besucht.

Unbeabsichtigte Deindexierung vermeiden. Das ist der gefaehrliche Teil. Eine einzige Zeile - Disallow: / - sagt allen Crawlern, dass sie die gesamte Website meiden sollen. Das passiert oefter als man denkt, vor allem bei Relaunches oder wenn eine Staging-robots.txt versehentlich live geht.

Was passiert, wenn robots.txt schiefgeht:

Alles blockiert: Ihre komplette Website verschwindet innerhalb weniger Tage aus Google
CSS/JS blockiert: Google kann Ihre Seiten nicht sauber rendern
Wichtige Bereiche blockiert: Produktseiten oder Blogposts tauchen nicht mehr in der Suche auf
Keine robots.txt: kein Weltuntergang, aber Crawler bekommen keinen klaren Hinweis auf die Sitemap

Wie es in der Praxis funktioniert

Eine einfache robots.txt:

User-Agent: *
Allow: /
Disallow: /api/
Disallow: /admin/

Sitemap: https://example.com/sitemap.xml

Das bedeutet:

User-Agent: * - diese Regeln gelten fuer alle Crawler
Allow: / - standardmaessig darf alles gecrawlt werden
Disallow: /api/ - API-Routen sollen uebersprungen werden
Sitemap: - dort liegt die Sitemap

Sie koennen auch bestimmte Crawler gezielt ansprechen:

User-Agent: GPTBot
Disallow: /

User-Agent: Googlebot
Allow: /

Das blockiert OpenAIs Crawler, erlaubt aber Google weiter den Zugriff.

Wichtige Feinheiten:

robots.txt ist eine Bitte, keine harte Zugriffssperre
Disallow verhindert das Crawling, nicht zwingend die Indexierung
robots.txt ist oeffentlich. Jeder kann sie unter yoursite.com/robots.txt lesen

Hauefige Fehler:

Die Staging-Zeile Disallow: / nach dem Launch vergessen
CSS- und JavaScript-Dateien blockieren
Keine Sitemap referenzieren
robots.txt statt noindex verwenden, um Seiten aus dem Index zu halten

So handhabt Webentity das

Webentity erzeugt robots.txt beim Build mit sinnvollen Standardregeln: alles erlauben, API-Routen blockieren und auf die Sitemap verweisen. Die Datei wird aus Code generiert und ist damit typsicher statt fehleranfaelligem Copy-and-paste.

In Staging-Umgebungen gelten andere Regeln, die Crawler komplett aussperren. So landet keine halbfertige Version in Google. Sobald Sie in Produktion deployen, greifen automatisch die Produktionsregeln.