Was ein robots.txt-Checker tatsächlich macht
Ein robots.txt-Checker ruft die /robots.txt-Datei von Ihrer Domain ab, analysiert jeden User-Agent-Block und jede Disallow-Regel, testet dann, ob ein bestimmter Pfad für einen bestimmten Crawler zulässig oder blockiert ist. Er wendet die längste Übereinstimmungsregel an, wenn mehrere Muster überlappen, folgt der Prioritätsreihenfolge in der Spezifikation und meldet, ob eine Test-URL gecrawlt würde.
Die meisten Crawler suchen zunächst nach ihrem eigenen User-Agent-Block. Falls vorhanden, verwenden sie diese Regeln. Falls nicht, greifen sie auf den Platzhalter User-agent: *-Block zurück. Das bedeutet, dass eine Website Googlebot in /admin erlauben kann, während sie alle anderen Bots blockiert. Unser Checker simuliert diese Kaskade für jeden User-Agent, den Sie aus dem Dropdown User-Agent zum Testen auswählen.
Zwei häufige Fehler führen zu stillschweigenden Ausfällen von robots.txt-Dateien. Der erste sind Syntaxfehler: zusätzliche Leerzeichen, fehlende Doppelpunkte, Windows-Zeilenumbrüche oder Großbuchstaben „Disallow", wenn nur Kleinbuchstaben funktionieren. Der zweite sind widersprüchliche Regeln – Allow- und Disallow-Zeilen, die sich überlappen, wodurch unklar ist, ob ein Pfad blockiert ist. Unser Checker kennzeichnet beide und zeigt, welche Regel gewinnt.
So verwenden Sie diesen robots.txt-Checker
- Fügen Sie Ihre vollständige Domain in Site URL ein. Wir rufen
yourdomain.com/robots.txtautomatisch ab. Sie müssen/robots.txtnicht eingeben. - Wählen Sie einen User-Agent zum Testen aus dem Dropdown aus. Googlebot, Bingbot, GPTBot, ClaudeBot, CCBot, PerplexityBot, anthropic-ai oder * für Platzhalter. Dies ist die Crawler-Identität, die wir simulieren.
- Fügen Sie einen Pfad in Test path ein, wenn Sie eine bestimmte URL überprüfen möchten. Lassen Sie es leer, um den vollständig analysierten Regelsatz zu sehen. Ein Pfad sieht aus wie
/adminoder/blog/post-slug. - Klicken Sie auf Check robots.txt. Sie erhalten die analysierte Datei, Pro-Agent-Regeln, Sitemap-Links, Crawl-Verzögerung (falls gesetzt) und ein Urteil für Ihren Test-Pfad.
- Erweitern Sie Rule conflicts, wenn Zeilen gekennzeichnet sind. Wir zeigen sich überlappende Allow/Disallow-Zeilen und sagen Ihnen, welche ein echter Crawler befolgen würde.
Versuchen Sie, yourdomain.com mit User-Agent auf GPTBot und Test path auf /blog eingestellt zu testen. Wenn Ihre robots.txt keinen GPTBot-Block hat, aber alle Bots von /admin disallowt, ist der Blog erlaubt und Admin ist blockiert. Wechseln Sie den User-Agent zu ClaudeBot und das Ergebnis könnte sich ändern, wenn Sie einen ClaudeBot-spezifischen Block haben.
Warum das Testen pro User-Agent wichtig ist
Suchcrawler sind nicht mehr die einzigen Bots, die robots.txt lesen. KI-Trainings-Crawler – GPTBot von OpenAI, ClaudeBot von Anthropic, CCBot von Common Crawl, PerplexityBot und Google-Extended – respektieren jetzt robots.txt, um zu entscheiden, ob sie Ihren Inhalt für das Modelltraining scrapen können. Wenn Sie sie blockieren, bleiben Ihre Seiten aus den Trainingsdatensätzen heraus. Wenn Sie sie erlauben, aktivieren Sie sich.
Drei praktische Konsequenzen.
Richtlingenklarheit. Eine robots.txt, die User-agent: * / Disallow: / sagt, blockiert alle, einschließlich Google. Falls das nicht Ihre Absicht ist, benötigen Sie separate Blöcke pro Agent. Das Testen pro User-Agent zeigt auf, was jeder Bot sieht, bevor ein Modell Ihren Inhalt trainiert.
KI-Crawler-Kontrolle. 2026 möchten die meisten Website-Besitzer Suchbots rein, aber Trainings-Bots raus. Das erfordert explizite GPTBot-, ClaudeBot- und CCBot-Disallow-Blöcke. Konkurrenten ignorieren diese Agenten. Wir testen sie standardmäßig, weil sie wichtig sind.
Konflikterkennung. Wenn Sie sowohl Disallow: /blog als auch Allow: /blog/public haben, gewinnt die spezifischere Regel. Aber das manuelle Analysieren, welche Regel länger oder spezifischer ist, ist fehleranfällig. Das Testen zeigt Ihnen genau, was ein Bot tun würde, nicht was Sie denken, dass die Datei sagt.
Regelpriorität und Platzhalter
Die robots.txt-Spezifikation definiert eine Prioritätsreihenfolge, wenn mehrere Regeln den gleichen Pfad abgleichen. Die Regel mit dem längsten Übereinstimmungspräfix gewinnt. Wenn zwei Regeln die gleiche Länge haben, gewinnt die Allow-Regel über Disallow.
Platzhalter machen dies schwerer zu erfassen. Eine Zeile wie Disallow: /admin* blockiert /admin, /admin/users und /admin-panel. Eine spätere Zeile Allow: /admin/public setzt sie für diesen einen Ordner außer Kraft, weil /admin/public länger ist als /admin. Unser Checker bewertet beide und teilt Ihnen mit, welche zutrifft.
Der Platzhalter $ verankert das Ende eines Pfads. Disallow: /*.pdf$ blockiert alle PDF-Dateien, erlaubt aber /report.pdf.html, weil der Pfad nicht mit .pdf endet. Konkurrenten parsen $ oft falsch oder ignorieren es. Wir folgen der Google-Implementierung.
Der User-Agent-Name ist in der Spezifikation case-insensitive, also sind User-agent: googlebot und User-agent: Googlebot identisch. Disallow-Pfade sind auf den meisten Servern case-sensitive. /Admin und /admin sind unterschiedliche URLs. Unser Checker respektiert beide Regeln.
Sitemap-Validierung und Crawl-Direktiven
Jede robots.txt-Datei sollte mindestens eine Sitemap:-Zeile enthalten, die auf Ihre sitemap.xml-Datei verweist. Dies teilt Crawlern mit, wo sie die Liste der URLs finden, die Sie indiziert haben möchten. Unser Checker ruft jede in Ihrer robots.txt aufgelistete Sitemap-URL ab und meldet den HTTP-Status-Code. Wenn eine Sitemap 404 zurückgibt, können Crawler sie nicht verwenden und Sie verlieren ein Signal, das bei der Entdeckung hilft.
Mehrere Sitemap-Deklarationen sind zulässig. Wenn Sie separate Sitemaps für Posts, Seiten und Produkte haben, listen Sie alle drei auf. Wenn Sie einen Sitemap-Index verwenden, der auf untergeordnete Sitemaps verweist, listen Sie nur den Index auf. Vermeiden Sie, jede untergeordnete Sitemap einzeln aufzulisten, da dies die Datei verstopft und Informationen dupliziert, die bereits im Index vorhanden sind.
Die Direktive Crawl-delay: legt die Mindestanzahl von Sekunden fest, die ein Bot zwischen Anfragen an Ihren Server warten sollte. Googlebot ignoriert diese Direktive vollständig und verwendet seine eigene adaptive Crawl-Rate basierend auf der Serverantwortzeit. Bingbot, Yandex und einige kleinere Crawler respektieren sie. Eine Crawl-Verzögerung von 1 Sekunde ist sicher. Eine Verzögerung von 10 oder höher stoppt das Crawlen auf großen Websites praktisch. Verwenden Sie es nur, wenn Ihr Server normale Crawl-Raten nicht verarbeiten kann.
Eine weniger häufige Direktive ist Request-rate:, die eine Anzahl von Anfragen pro Zeitfenster festlegt. Wenige Crawler unterstützen sie und sie ist nicht Teil der offiziellen Spezifikation. Falls Sie sie in einer robots.txt sehen, ist es wahrscheinlich veraltet oder nicht standardisiert. Unser Checker notiert es, setzt es aber nicht durch, weil das Crawler-Verhalten variiert.
Syntaxfehler und Validierungs-Randfälle
Die robots.txt-Syntax ist unversöhnlich. Ein einzelner falscher Ort oder Tab kann eine Regel ungültig machen. Der Direktivenname – User-agent, Disallow, Allow, Sitemap, Crawl-delay – muss von einem Doppelpunkt ohne Leerzeichen davor und mindestens einem Leerzeichen oder Tab danach gefolgt werden. Disallow:/admin schlägt fehl. Disallow: /admin funktioniert. Unser Checker kennzeichnet Abstände und schlägt Korrektionen vor.
Windows-Zeilenumbrüche – \r\n statt \n – verursachen auf manchen Servern Probleme. Wenn eine robots.txt-Datei unter Windows bearbeitet und ohne Konvertierung hochgeladen wird, können Bots Zeilenumbrüche falsch interpretieren und mehrere Zeilen als eine behandeln. Unser Checker erkennt Nicht-Unix-Zeilenumbrüche und meldet sie als Warnung.
Kommentare in robots.txt beginnen mit #. Alles nach dem # auf dieser Zeile wird ignoriert. Ein häufiger Fehler ist, eine Direktive versehentlich zu kommentieren: # Disallow: /admin macht nichts. Wenn Sie Regeln sehen, die zutreffen sollten, aber nicht, überprüfen Sie auf umherschweifende #-Zeichen.
Leerzeilen trennen User-Agent-Blöcke. Eine Leerzeile beendet den aktuellen Block und der nächste User-agent: startet einen neuen. Wenn Sie User-agent: Googlebot, Disallow: /private, dann eine Leerzeile, dann Allow: /public haben, gilt die Allow-Regel nicht für Googlebot – sie startet einen neuen Block ohne User-Agent, was ungültig ist. Unser Checker kennzeichnet verwaiste Direktiven und schlägt vor, sie unter dem richtigen User-Agent zu gruppieren.
Häufige Fehler
- Googlebot versehentlich blockieren. Ein
User-agent: *-Block mitDisallow: /blockiert jeden Bot, einschließlich Google. Wenn Sie Googlebot rein möchten, fügen Sie einen separatenUser-agent: Googlebot-Block mitAllow: /vor dem Platzhalter-Block hinzu. Die Reihenfolge ist wichtig. - Den führenden Schrägstrich vergessen.
Disallow: adminmacht nichts. Es mussDisallow: /adminsein. Unser Checker kennzeichnet dies als wahrscheinlichen Syntaxfehler. - Nur Googlebot testen. Ihre robots.txt könnte Google erlauben, aber Bingbot oder GPTBot blockieren, ohne dass Sie es bemerken. Testen Sie alle Agenten, die Ihnen wichtig sind, nicht nur einen.
- KI-Crawler vergessen. Wenn Ihre Datei keinen GPTBot- oder ClaudeBot-Block hat, greifen diese Bots auf
User-agent: *zurück. Das könnte sie erlauben, wenn Sie dachten, alles wäre blockiert. Explizite Pro-Agent-Blöcke machen die Richtlinie eindeutig. - Annehmen, dass Sitemap-Links irgendwo anders validiert werden. Eine Sitemap-URL in robots.txt kann fehlerhaft sein, 404 zurückgeben oder auf eine XML-Datei verweisen, die nicht mehr existiert. Unser Checker testet den Link und meldet den Status-Code.
Erweiterte Tipps
- Testen Sie denselben Pfad nacheinander gegen mehrere User-Agents. Wenn sich das Ergebnis ändert, funktionieren Ihre Pro-Agent-Blöcke. Wenn es gleich bleibt, können Sie sich möglicherweise nur auf den Platzhalter-Block verlassen.
- Überprüfen Sie die Zeile Crawl-delay, falls vorhanden. Googlebot ignoriert sie, aber Bingbot und einige andere respektieren sie. Eine Verzögerung von 10 Sekunden kann das Crawlen auf großen Websites auf einen Stillstand verlangsamen.
- Schauen Sie sich die Zeilen Sitemap an. Mehrere Sitemap-Deklarationen sind zulässig. Wenn Sie einen Sitemap-Index haben, listen Sie ihn einmal auf, anstatt jede untergeordnete Sitemap zu wiederholen. Wir rufen jeden Link ab und bestätigen, dass er HTTP 200 zurückgibt.
- Testen Sie einen Pfad mit Abfrageparametern.
Disallow: /searchblockiert/search?q=testauf den meisten Servern, aberDisallow: /search$würde nicht, weil$keine Nachzeichen erwartet. Wenn Sie Abfragezeichenfolgen blockieren möchten, verwenden Sie das Sternchen:Disallow: /search*. - Laden Sie die analysierte Ausgabe als Referenz herunter. Wenn Sie robots.txt regenerieren oder CMSs wechseln, prüfen Sie gegen dieselben Test-Pfade erneut, um zu bestätigen, dass sich das Verhalten nicht geändert hat.
- Verwenden Sie den Konfliktbericht vor der Bereitstellung einer neuen robots.txt. Wenn sich zwei Regeln überlappen, kann Ihre lokale Interpretation von Googlebot unterscheiden. Das Testen beseitigt das Rätselraten.
Wenn Sie eine neue robots.txt-Datei von Grund auf mit Voreinstellungen für WordPress, Shopify oder Next.js generieren müssen, verwenden Sie unseren robots.txt-Datei-Generator. Er enthält explizite AI-Crawler-Schalter und gibt eine produktionsreife Datei mit garantiert gültiger Syntax aus. Prüfen Sie sie nach der Bereitstellung mit diesem Tool erneut. Wenn Sie sehen möchten, wie Googlebot die Seite nach Beachtung von robots.txt und Ausführung von JavaScript rendert, zeigt der Google-Crawler-Simulator den genauen HTML- und sichtbaren Text, den ein Bot indiziert. Um zu bestätigen, dass jede URL in Ihrer Sitemap erreichbar ist und 200 zurückgibt, verwenden Sie den Sitemap-Checker.