Lernen/Technisches SEO

robots.txt

Kurzfassungrobots.txt ist eine Datei, die Google sagt, welche Seiten gecrawlt werden sollen und welche nicht. Sie ist der Tuersteher Ihrer Website.

Was ist robots.txt?

robots.txt ist eine einfache Textdatei im Root Ihrer Website (yoursite.com/robots.txt). Sie gibt Suchmaschinen-Crawlern Anweisungen, welche Seiten sie besuchen duerfen und welche sie auslassen sollen.

Es ist meist die erste Datei, die Crawler pruefen, wenn sie auf Ihre Website kommen. Bevor Google eine einzige Seite rendert, liest es die robots.txt und versteht so die Spielregeln.

Warum das fuer Rankings wichtig ist

robots.txt ist ein grobes Werkzeug - aber ein wichtiges.

Private Bereiche schuetzen. Admin-Oberflaechen, API-Endpunkte, Staging-Seiten und interne Tools sollten nicht in Googles Index landen. robots.txt haelt Crawler dort fern.

Crawl-Budget sparen. Google investiert nur begrenzte Zeit pro Website. Wenn Crawler Zeit auf Utility-Seiten verschwenden, werden wichtige Inhalte seltener besucht.

Unbeabsichtigte Deindexierung vermeiden. Das ist der gefaehrliche Teil. Eine einzige Zeile - Disallow: / - sagt allen Crawlern, dass sie die gesamte Website meiden sollen. Das passiert oefter als man denkt, vor allem bei Relaunches oder wenn eine Staging-robots.txt versehentlich live geht.

Was passiert, wenn robots.txt schiefgeht:

  • Alles blockiert: Ihre komplette Website verschwindet innerhalb weniger Tage aus Google
  • CSS/JS blockiert: Google kann Ihre Seiten nicht sauber rendern
  • Wichtige Bereiche blockiert: Produktseiten oder Blogposts tauchen nicht mehr in der Suche auf
  • Keine robots.txt: kein Weltuntergang, aber Crawler bekommen keinen klaren Hinweis auf die Sitemap

Wie es in der Praxis funktioniert

Eine einfache robots.txt:

User-Agent: *
Allow: /
Disallow: /api/
Disallow: /admin/

Sitemap: https://example.com/sitemap.xml

Das bedeutet:

  • User-Agent: * - diese Regeln gelten fuer alle Crawler
  • Allow: / - standardmaessig darf alles gecrawlt werden
  • Disallow: /api/ - API-Routen sollen uebersprungen werden
  • Sitemap: - dort liegt die Sitemap

Sie koennen auch bestimmte Crawler gezielt ansprechen:

User-Agent: GPTBot
Disallow: /

User-Agent: Googlebot
Allow: /

Das blockiert OpenAIs Crawler, erlaubt aber Google weiter den Zugriff.

Wichtige Feinheiten:

  • robots.txt ist eine Bitte, keine harte Zugriffssperre
  • Disallow verhindert das Crawling, nicht zwingend die Indexierung
  • robots.txt ist oeffentlich. Jeder kann sie unter yoursite.com/robots.txt lesen

Hauefige Fehler:

  • Die Staging-Zeile Disallow: / nach dem Launch vergessen
  • CSS- und JavaScript-Dateien blockieren
  • Keine Sitemap referenzieren
  • robots.txt statt noindex verwenden, um Seiten aus dem Index zu halten

So handhabt Webentity das

Webentity erzeugt robots.txt beim Build mit sinnvollen Standardregeln: alles erlauben, API-Routen blockieren und auf die Sitemap verweisen. Die Datei wird aus Code generiert und ist damit typsicher statt fehleranfaelligem Copy-and-paste.

In Staging-Umgebungen gelten andere Regeln, die Crawler komplett aussperren. So landet keine halbfertige Version in Google. Sobald Sie in Produktion deployen, greifen automatisch die Produktionsregeln.