Detail-Definition
Die robots.txt steuert das Crawling, nicht die Indexierung — für letzteres braucht es das Meta-Robots-Tag oder noindex-Header. Eine fehlerhafte robots.txt mit „Disallow: /" kann eine ganze Website unsichtbar machen. Sitemaps werden hier ebenfalls referenziert.
Wann ist robots.txt relevant?
- Admin-, Cache- oder Testbereiche sollen nicht gecrawlt werden.
- Sitemaps sollen Suchmaschinen schnell auffindbar gemacht werden.
- Crawl-Budget soll von unwichtigen Bereichen weggeführt werden.
Typische Fehler
- Disallow mit noindex verwechseln.
- CSS oder JavaScript blockieren, die Google zum Rendering braucht.
- Beim Relaunch versehentlich die ganze Website sperren.
Praxis-Checkliste
- robots.txt unter /robots.txt prüfen.
- Wichtige Sitemaps referenzieren.
- Keine wichtigen Assets oder Seiten blockieren.
- Mit Search Console und Live-Test validieren.
Warum ist das für bayerische KMU wichtig?
Eine fehlerhafte robots.txt kann wichtige Seiten vom Crawling ausschließen. Für Unternehmen bedeutet das im schlimmsten Fall: gute Inhalte existieren, werden aber nicht sauber gefunden oder aktualisiert.
Unsere lokale Expertise direkt anwenden:
Verwandte Begriffe
- Crawler — Ein Crawler ist ein automatisiertes Programm, das Webseiten besucht, liest und Links verfolgt.
- Crawl-Budget — Die Anzahl an URLs, die der Googlebot innerhalb eines Zeitraums auf einer Website besucht und verarbeitet.
- Sitemap — Eine Übersicht wichtiger Website-URLs, die Nutzern oder Suchmaschinen Orientierung über vorhandene Inhalte gibt.
- Indexierung — Der Prozess, bei dem Google eine Webseite in seinen Suchindex aufnimmt, damit sie in Suchergebnissen erscheinen kann.
- User Agent — Ein User Agent identifiziert Browser, Crawler oder andere Programme gegenüber einem Webserver.