Skip to content
Live-Check · ruft deine URL server-seitig ab

Robots.txt Checker

Parse, test pro User-Agent (inklusive GPTBot/ClaudeBot), erkenne Regelkonflikte.

Eine robots.txt-Datei teilt Crawlern mit, auf welche Seiten sie zugreifen können und welche nicht. Die meisten Validatoren testen einen Bot und beenden sich. Dieser robots.txt-Checker testet pro User-Agent, einschließlich der KI-Crawler, die 2026 wichtig sind – GPTBot, ClaudeBot und PerplexityBot – erkennt Regelkonflikte, wenn mehrere Direktiven zutreffen, und überprüft, ob Ihre Sitemap-Links tatsächlich existieren.

Generate the whole content, not just check it.

BlazeHive writes SEO articles end to end from a single keyword. Outline, draft, meta, schema, internal links. Free trial, no card.

Start with BlazeHive Free trial

Was ein robots.txt-Checker tatsächlich macht

Ein robots.txt-Checker ruft die /robots.txt-Datei von Ihrer Domain ab, analysiert jeden User-Agent-Block und jede Disallow-Regel, testet dann, ob ein bestimmter Pfad für einen bestimmten Crawler zulässig oder blockiert ist. Er wendet die längste Übereinstimmungsregel an, wenn mehrere Muster überlappen, folgt der Prioritätsreihenfolge in der Spezifikation und meldet, ob eine Test-URL gecrawlt würde.

Die meisten Crawler suchen zunächst nach ihrem eigenen User-Agent-Block. Falls vorhanden, verwenden sie diese Regeln. Falls nicht, greifen sie auf den Platzhalter User-agent: *-Block zurück. Das bedeutet, dass eine Website Googlebot in /admin erlauben kann, während sie alle anderen Bots blockiert. Unser Checker simuliert diese Kaskade für jeden User-Agent, den Sie aus dem Dropdown User-Agent zum Testen auswählen.

Zwei häufige Fehler führen zu stillschweigenden Ausfällen von robots.txt-Dateien. Der erste sind Syntaxfehler: zusätzliche Leerzeichen, fehlende Doppelpunkte, Windows-Zeilenumbrüche oder Großbuchstaben „Disallow", wenn nur Kleinbuchstaben funktionieren. Der zweite sind widersprüchliche Regeln – Allow- und Disallow-Zeilen, die sich überlappen, wodurch unklar ist, ob ein Pfad blockiert ist. Unser Checker kennzeichnet beide und zeigt, welche Regel gewinnt.

So verwenden Sie diesen robots.txt-Checker

  1. Fügen Sie Ihre vollständige Domain in Site URL ein. Wir rufen yourdomain.com/robots.txt automatisch ab. Sie müssen /robots.txt nicht eingeben.
  2. Wählen Sie einen User-Agent zum Testen aus dem Dropdown aus. Googlebot, Bingbot, GPTBot, ClaudeBot, CCBot, PerplexityBot, anthropic-ai oder * für Platzhalter. Dies ist die Crawler-Identität, die wir simulieren.
  3. Fügen Sie einen Pfad in Test path ein, wenn Sie eine bestimmte URL überprüfen möchten. Lassen Sie es leer, um den vollständig analysierten Regelsatz zu sehen. Ein Pfad sieht aus wie /admin oder /blog/post-slug.
  4. Klicken Sie auf Check robots.txt. Sie erhalten die analysierte Datei, Pro-Agent-Regeln, Sitemap-Links, Crawl-Verzögerung (falls gesetzt) und ein Urteil für Ihren Test-Pfad.
  5. Erweitern Sie Rule conflicts, wenn Zeilen gekennzeichnet sind. Wir zeigen sich überlappende Allow/Disallow-Zeilen und sagen Ihnen, welche ein echter Crawler befolgen würde.

Versuchen Sie, yourdomain.com mit User-Agent auf GPTBot und Test path auf /blog eingestellt zu testen. Wenn Ihre robots.txt keinen GPTBot-Block hat, aber alle Bots von /admin disallowt, ist der Blog erlaubt und Admin ist blockiert. Wechseln Sie den User-Agent zu ClaudeBot und das Ergebnis könnte sich ändern, wenn Sie einen ClaudeBot-spezifischen Block haben.

Warum das Testen pro User-Agent wichtig ist

Suchcrawler sind nicht mehr die einzigen Bots, die robots.txt lesen. KI-Trainings-Crawler – GPTBot von OpenAI, ClaudeBot von Anthropic, CCBot von Common Crawl, PerplexityBot und Google-Extended – respektieren jetzt robots.txt, um zu entscheiden, ob sie Ihren Inhalt für das Modelltraining scrapen können. Wenn Sie sie blockieren, bleiben Ihre Seiten aus den Trainingsdatensätzen heraus. Wenn Sie sie erlauben, aktivieren Sie sich.

Drei praktische Konsequenzen.

Richtlingenklarheit. Eine robots.txt, die User-agent: * / Disallow: / sagt, blockiert alle, einschließlich Google. Falls das nicht Ihre Absicht ist, benötigen Sie separate Blöcke pro Agent. Das Testen pro User-Agent zeigt auf, was jeder Bot sieht, bevor ein Modell Ihren Inhalt trainiert.

KI-Crawler-Kontrolle. 2026 möchten die meisten Website-Besitzer Suchbots rein, aber Trainings-Bots raus. Das erfordert explizite GPTBot-, ClaudeBot- und CCBot-Disallow-Blöcke. Konkurrenten ignorieren diese Agenten. Wir testen sie standardmäßig, weil sie wichtig sind.

Konflikterkennung. Wenn Sie sowohl Disallow: /blog als auch Allow: /blog/public haben, gewinnt die spezifischere Regel. Aber das manuelle Analysieren, welche Regel länger oder spezifischer ist, ist fehleranfällig. Das Testen zeigt Ihnen genau, was ein Bot tun würde, nicht was Sie denken, dass die Datei sagt.

Regelpriorität und Platzhalter

Die robots.txt-Spezifikation definiert eine Prioritätsreihenfolge, wenn mehrere Regeln den gleichen Pfad abgleichen. Die Regel mit dem längsten Übereinstimmungspräfix gewinnt. Wenn zwei Regeln die gleiche Länge haben, gewinnt die Allow-Regel über Disallow.

Platzhalter machen dies schwerer zu erfassen. Eine Zeile wie Disallow: /admin* blockiert /admin, /admin/users und /admin-panel. Eine spätere Zeile Allow: /admin/public setzt sie für diesen einen Ordner außer Kraft, weil /admin/public länger ist als /admin. Unser Checker bewertet beide und teilt Ihnen mit, welche zutrifft.

Der Platzhalter $ verankert das Ende eines Pfads. Disallow: /*.pdf$ blockiert alle PDF-Dateien, erlaubt aber /report.pdf.html, weil der Pfad nicht mit .pdf endet. Konkurrenten parsen $ oft falsch oder ignorieren es. Wir folgen der Google-Implementierung.

Der User-Agent-Name ist in der Spezifikation case-insensitive, also sind User-agent: googlebot und User-agent: Googlebot identisch. Disallow-Pfade sind auf den meisten Servern case-sensitive. /Admin und /admin sind unterschiedliche URLs. Unser Checker respektiert beide Regeln.

Sitemap-Validierung und Crawl-Direktiven

Jede robots.txt-Datei sollte mindestens eine Sitemap:-Zeile enthalten, die auf Ihre sitemap.xml-Datei verweist. Dies teilt Crawlern mit, wo sie die Liste der URLs finden, die Sie indiziert haben möchten. Unser Checker ruft jede in Ihrer robots.txt aufgelistete Sitemap-URL ab und meldet den HTTP-Status-Code. Wenn eine Sitemap 404 zurückgibt, können Crawler sie nicht verwenden und Sie verlieren ein Signal, das bei der Entdeckung hilft.

Mehrere Sitemap-Deklarationen sind zulässig. Wenn Sie separate Sitemaps für Posts, Seiten und Produkte haben, listen Sie alle drei auf. Wenn Sie einen Sitemap-Index verwenden, der auf untergeordnete Sitemaps verweist, listen Sie nur den Index auf. Vermeiden Sie, jede untergeordnete Sitemap einzeln aufzulisten, da dies die Datei verstopft und Informationen dupliziert, die bereits im Index vorhanden sind.

Die Direktive Crawl-delay: legt die Mindestanzahl von Sekunden fest, die ein Bot zwischen Anfragen an Ihren Server warten sollte. Googlebot ignoriert diese Direktive vollständig und verwendet seine eigene adaptive Crawl-Rate basierend auf der Serverantwortzeit. Bingbot, Yandex und einige kleinere Crawler respektieren sie. Eine Crawl-Verzögerung von 1 Sekunde ist sicher. Eine Verzögerung von 10 oder höher stoppt das Crawlen auf großen Websites praktisch. Verwenden Sie es nur, wenn Ihr Server normale Crawl-Raten nicht verarbeiten kann.

Eine weniger häufige Direktive ist Request-rate:, die eine Anzahl von Anfragen pro Zeitfenster festlegt. Wenige Crawler unterstützen sie und sie ist nicht Teil der offiziellen Spezifikation. Falls Sie sie in einer robots.txt sehen, ist es wahrscheinlich veraltet oder nicht standardisiert. Unser Checker notiert es, setzt es aber nicht durch, weil das Crawler-Verhalten variiert.

Syntaxfehler und Validierungs-Randfälle

Die robots.txt-Syntax ist unversöhnlich. Ein einzelner falscher Ort oder Tab kann eine Regel ungültig machen. Der Direktivenname – User-agent, Disallow, Allow, Sitemap, Crawl-delay – muss von einem Doppelpunkt ohne Leerzeichen davor und mindestens einem Leerzeichen oder Tab danach gefolgt werden. Disallow:/admin schlägt fehl. Disallow: /admin funktioniert. Unser Checker kennzeichnet Abstände und schlägt Korrektionen vor.

Windows-Zeilenumbrüche – \r\n statt \n – verursachen auf manchen Servern Probleme. Wenn eine robots.txt-Datei unter Windows bearbeitet und ohne Konvertierung hochgeladen wird, können Bots Zeilenumbrüche falsch interpretieren und mehrere Zeilen als eine behandeln. Unser Checker erkennt Nicht-Unix-Zeilenumbrüche und meldet sie als Warnung.

Kommentare in robots.txt beginnen mit #. Alles nach dem # auf dieser Zeile wird ignoriert. Ein häufiger Fehler ist, eine Direktive versehentlich zu kommentieren: # Disallow: /admin macht nichts. Wenn Sie Regeln sehen, die zutreffen sollten, aber nicht, überprüfen Sie auf umherschweifende #-Zeichen.

Leerzeilen trennen User-Agent-Blöcke. Eine Leerzeile beendet den aktuellen Block und der nächste User-agent: startet einen neuen. Wenn Sie User-agent: Googlebot, Disallow: /private, dann eine Leerzeile, dann Allow: /public haben, gilt die Allow-Regel nicht für Googlebot – sie startet einen neuen Block ohne User-Agent, was ungültig ist. Unser Checker kennzeichnet verwaiste Direktiven und schlägt vor, sie unter dem richtigen User-Agent zu gruppieren.

Häufige Fehler

  • Googlebot versehentlich blockieren. Ein User-agent: *-Block mit Disallow: / blockiert jeden Bot, einschließlich Google. Wenn Sie Googlebot rein möchten, fügen Sie einen separaten User-agent: Googlebot-Block mit Allow: / vor dem Platzhalter-Block hinzu. Die Reihenfolge ist wichtig.
  • Den führenden Schrägstrich vergessen. Disallow: admin macht nichts. Es muss Disallow: /admin sein. Unser Checker kennzeichnet dies als wahrscheinlichen Syntaxfehler.
  • Nur Googlebot testen. Ihre robots.txt könnte Google erlauben, aber Bingbot oder GPTBot blockieren, ohne dass Sie es bemerken. Testen Sie alle Agenten, die Ihnen wichtig sind, nicht nur einen.
  • KI-Crawler vergessen. Wenn Ihre Datei keinen GPTBot- oder ClaudeBot-Block hat, greifen diese Bots auf User-agent: * zurück. Das könnte sie erlauben, wenn Sie dachten, alles wäre blockiert. Explizite Pro-Agent-Blöcke machen die Richtlinie eindeutig.
  • Annehmen, dass Sitemap-Links irgendwo anders validiert werden. Eine Sitemap-URL in robots.txt kann fehlerhaft sein, 404 zurückgeben oder auf eine XML-Datei verweisen, die nicht mehr existiert. Unser Checker testet den Link und meldet den Status-Code.

Erweiterte Tipps

  • Testen Sie denselben Pfad nacheinander gegen mehrere User-Agents. Wenn sich das Ergebnis ändert, funktionieren Ihre Pro-Agent-Blöcke. Wenn es gleich bleibt, können Sie sich möglicherweise nur auf den Platzhalter-Block verlassen.
  • Überprüfen Sie die Zeile Crawl-delay, falls vorhanden. Googlebot ignoriert sie, aber Bingbot und einige andere respektieren sie. Eine Verzögerung von 10 Sekunden kann das Crawlen auf großen Websites auf einen Stillstand verlangsamen.
  • Schauen Sie sich die Zeilen Sitemap an. Mehrere Sitemap-Deklarationen sind zulässig. Wenn Sie einen Sitemap-Index haben, listen Sie ihn einmal auf, anstatt jede untergeordnete Sitemap zu wiederholen. Wir rufen jeden Link ab und bestätigen, dass er HTTP 200 zurückgibt.
  • Testen Sie einen Pfad mit Abfrageparametern. Disallow: /search blockiert /search?q=test auf den meisten Servern, aber Disallow: /search$ würde nicht, weil $ keine Nachzeichen erwartet. Wenn Sie Abfragezeichenfolgen blockieren möchten, verwenden Sie das Sternchen: Disallow: /search*.
  • Laden Sie die analysierte Ausgabe als Referenz herunter. Wenn Sie robots.txt regenerieren oder CMSs wechseln, prüfen Sie gegen dieselben Test-Pfade erneut, um zu bestätigen, dass sich das Verhalten nicht geändert hat.
  • Verwenden Sie den Konfliktbericht vor der Bereitstellung einer neuen robots.txt. Wenn sich zwei Regeln überlappen, kann Ihre lokale Interpretation von Googlebot unterscheiden. Das Testen beseitigt das Rätselraten.

Wenn Sie eine neue robots.txt-Datei von Grund auf mit Voreinstellungen für WordPress, Shopify oder Next.js generieren müssen, verwenden Sie unseren robots.txt-Datei-Generator. Er enthält explizite AI-Crawler-Schalter und gibt eine produktionsreife Datei mit garantiert gültiger Syntax aus. Prüfen Sie sie nach der Bereitstellung mit diesem Tool erneut. Wenn Sie sehen möchten, wie Googlebot die Seite nach Beachtung von robots.txt und Ausführung von JavaScript rendert, zeigt der Google-Crawler-Simulator den genauen HTML- und sichtbaren Text, den ein Bot indiziert. Um zu bestätigen, dass jede URL in Ihrer Sitemap erreichbar ist und 200 zurückgibt, verwenden Sie den Sitemap-Checker.

Generate the whole content, not just check it.

BlazeHive writes SEO articles end to end from a single keyword. Outline, draft, meta, schema, internal links. Free trial, no card.

Start with BlazeHive Free trial

Häufig gestellte Fragen

Was ist eine robots.txt-Datei?

Eine robots.txt-Datei ist eine Klartextdatei im Root Ihrer Domain, die Crawlern mitteilt, auf welche Pfade sie zugreifen können und welche nicht. Sie befindet sich genau an einer Stelle: /robots.txt. Googlebot überprüft sie vor jedem Crawl, ebenso wie Bingbot und die großen KI-Crawler (GPTBot (OpenAI), ClaudeBot (Anthropic), PerplexityBot, CCBot (Common Crawl), Google-Extended). Die Datei verwendet eine einfache Grammatik. Sie schreiben einen oder mehrere User-Agent-Blöcke, gefolgt von Allow- und Disallow-Regeln. Eine Sitemap-Zeile oben zeigt Crawlern, wo sie Ihren XML-Index finden, damit sie nicht die Struktur erraten müssen. Fügen Sie eine beliebige Website-URL in unseren robots.txt-Checker ein, wählen Sie einen User-Agent und Sie sehen die analysierte Regeltabelle plus welche Regel für diesen bestimmten Bot auf diesem bestimmten Pfad gewinnt. Wenn Sie noch keine Datei haben, generieren Sie eine mit unserem robots.txt-Generator und der richtigen, eingebauten CMS-Voreinstellung.

Was testet ein robots.txt-Checker tatsächlich?

Ein echter robots.txt-Checker macht vier Dinge. Er ruft die Datei ab und bestätigt, dass sie mit einem 200-Status und dem richtigen Content-Type erreichbar ist. Er analysiert die Syntax, sodass Sie Tippfehler fangen, die Regeln stillschweigend brechen: falsche Großschreibung auf User-Agent, fehlende Doppelpunkte, umherschweifende BOM-Zeichen am Anfang der Datei. Er löst einen bestimmten Pfad für einen bestimmten Bot auf, sodass Sie „ist /admin für GPTBot jetzt blockiert?" beantworten können, ohne zu raten. Und er erkennt Regel-Reihenfolge-Konflikte, bei denen zwei Bots unterschiedliche Regeln von sich überlappenden User-Agent-Blöcken erben. Die meisten kostenlosen Checker stoppen bei Schritt eins. Unserer läuft den vollen Satz. Legen Sie Site URL fest, wählen Sie den Bot aus User-Agent, legen Sie einen optionalen Test path ab und Sie erhalten ein Urteil pro Regel. Wenn Sie eine Korrektur versenden, bestätigen Sie die Änderung mit einem zweiten Durchgang im Checker, bevor Sie zu anderen Arbeiten übergehen.

Wo finde ich meine robots.txt-Datei?

Geben Sie Ihre Domain gefolgt von /robots.txt in einen beliebigen Browser ein. Wenn https://www.example.com/robots.txt einen 200 zurückgibt und Klartext anzeigt, haben Sie eine. Wenn es 404 zurückgibt oder Ihre CMS-Homepage, nicht. Die Datei muss genau im Root der Domain sitzen. Unterverzeichnis-Pfade wie /blog/robots.txt werden von jedem Crawler vollständig ignoriert. Subdomänen sind separat: blog.example.com und www.example.com benötigen jeweils ihre eigene Datei bei ihrem eigenen Root. WordPress-Websites haben normalerweise eine virtuelle, die vom SEO-Plugin generiert wird; Shopify generiert automatisch eine und sperrt den größten Teil davon; Next.js und Astro erfordern, dass Sie eine statische Datei unter /public versenden. Wenn Sie nicht sicher sind, was Crawler tatsächlich sehen, fügen Sie Ihre URL in unseren robots.txt-Checker ein und wir rufen sie mit den exakten Headern ab, die ein echter Bot sendet, sodass das Ergebnis der Crawler-Realität entspricht. Für einen sauberen Rewrite mit eingebauten CMS-Voreinstellungen verwenden Sie den Generator.

Wie behebe ich einen „blocked by robots.txt"-Fehler in der Search Console?

Die Search Console kennzeichnet „blocked by robots.txt", wenn eine Disallow-Regel die URL abdeckt, die Google crawlen wollte. Öffnen Sie das URL-Inspektions-Tool, um zu sehen, welche Regel Google abgeglichen hat. Führen Sie dann dieselbe URL durch unseren robots.txt-Checker mit User-Agent auf Googlebot und dem blockierten Pfad eingefügt in Test path durch. Der Checker zeigt Ihnen die genaue Regel, die abgeglichen wurde, und den User-Agent-Block, aus dem sie kam, sodass Sie die Quelle beheben können, anstatt zu raten. Drei Korrektionen decken fast jeden Fall ab. Entfernen Sie die offendierenden Disallow-Zeile. Verengen Sie sie mit einem spezifischeren Pfad. Oder fügen Sie oben eine Allow-Regel hinzu (die längere Übereinstimmung gewinnt bei Überlappung). Versenden Sie die Änderung, testen Sie denselben Pfad erneut im Checker, dann fordern Sie die Indexierung in der Search Console zurück an. Wenn Seiten immer noch blockiert aussehen, könnte die gecachte Kopie von Google eine Rolle spielen; sie aktualisiert robots.txt ungefähr alle 24 Stunden.

Sollte ich KI-Crawler in robots.txt blockieren?

Das hängt davon ab, was Sie optimieren. Blockieren Sie sie, wenn Ihr Inhalt das Produkt ist: Verlage, kostenpflichtige Forschung, Abonnement-Archive, alles, bei dem kostenlose Trainingsdaten das Geschäft schädigen. Erlauben Sie sie, wenn Sie in ChatGPT- und Claude-Antworten zitiert werden möchten, wo Sie als zitierte Quelle den Referral-Traffic zurück auf Ihre Website lenken. Die 2026-Liste wert Nennung explizit: GPTBot (OpenAI), ClaudeBot und anthropic-ai (Anthropic), CCBot (Common Crawl, das viele Modelle trainiert), PerplexityBot und Google-Extended (kontrolliert die Trainingsnutzung von Googlebot-gecrawlten Seiten, ohne Ihre Rankings in der normalen Google-Suche zu beeinflussen). Unser robots.txt-Generator gibt Ihnen pro Crawler ein Kontrollkästchen, sodass Sie pro Bot entscheiden, nicht pro alles. Nachdem Sie versenden, testen Sie jeden mit unserem Checker gegen einen echten Pfad, um zu bestätigen, dass die Regel für diesen Bot wie erwartet aufgelöst wird. Die meisten Fehler kommen von Regel-Reihenfolge-Konflikten zwischen sich überlappenden User-Agent-Blöcken, nicht von fehlenden Einträgen.

Wie sollte eine robots.txt-Datei strukturiert sein?

Beginnen Sie mit einer Sitemap-Zeile, die auf Ihren XML-Index verweist. Gruppieren Sie dann Regeln nach User-Agent. Der Platzhalter-Block (User-agent: *) fängt jeden Bot ab, der nicht anderswo benannt ist, also legen Sie ihn zuletzt. Darüber hinaus fügen Sie benannte Blöcke für Bots hinzu, die Sie anders behandeln möchten: Googlebot, Bingbot, GPTBot, ClaudeBot, CCBot, PerplexityBot, Google-Extended. Jeder Block kann mehrere Allow- und Disallow-Zeilen haben. Die längere, spezifischere Übereinstimmung gewinnt, wenn sich Regeln überlappen. Halten Sie Pfade case-sensitive: Disallow: /Admin blockiert /admin nicht. Listen Sie ein Sitemap pro Domain auf, einmal oben deklariert. Halten Sie die Datei unter 500 KB oder Google ignoriert Zeilen nach diesem Punkt. Unser robots.txt-Generator setzt all dies für Sie mit einer CMS-Voreinstellung und AI-Crawler-Schaltern auf. Nachdem Sie veröffentlicht haben, überprüfen Sie, ob die Struktur mit unserem Checker gegen eine Handvoll echter URLs und jeden benannten Bot ordnungsgemäß analysiert wird, bevor Sie das Ticket schließen.

Was ist der Unterschied zwischen Disallow und noindex?

Disallow in robots.txt teilt einem Bot mit, eine URL nicht zu crawlen. Es teilt dem Bot nicht mit, sie nicht zu indizieren. Wenn eine andere Website auf eine Disallowed-Seite verlinkt, kann Google die URL immer noch in den Suchergebnissen mit „keine Beschreibung verfügbar" darunter aufführen. Um eine Seite tatsächlich aus dem Index zu halten, verwenden Sie ein Meta-Robots-noindex-Tag auf der Seite selbst oder einen X-Robots-Tag-noindex-Header in der HTTP-Antwort. Der Haken: Google muss die Seite crawlen, um das noindex-Tag zu sehen. Wenn Sie also sowohl Disallow als auch noindex haben, tritt noindex nie in Kraft und die Seite bleibt in den Ergebnissen erhalten. Wählen Sie eins pro Seite. Disallow ist für Crawl-Budget (Blockierung von Admin, interner Suche, Filter-URLs). Noindex ist, um Inhalte vollständig aus Ergebnissen zu halten. Für eine vollständige Seiten-Audit von Robots-Direktiven verwenden Sie unseren Crawler-Simulator zusammen mit dem Website-Metadaten-Checker.

Funktioniert robots.txt 2026 noch?

Ja, für Crawler, die sich dafür entscheiden, es zu respektieren. Googlebot, Bingbot und die großen KI-Crawler (GPTBot, ClaudeBot, PerplexityBot, CCBot, Google-Extended) respektieren alle robots.txt als Richtlinie. Rogue-Scraper ignorieren es, weil die Datei eine höfliche Anfrage ist, keine Firewall. Wenn Sie harte Blockierung benötigen, fügen Sie serverseitige Regeln hinzu: IP-Sperrlisten, Cloudflare-Bot-Management, Rate Limiting oder Authentifizierung vor den sensiblen Pfaden. Verwenden Sie robots.txt für das, was es gut kann: formen Sie, auf welche Seiten die Bots, auf die Sie sich kümmern, ihr Crawl-Budget aufwenden. Der 2026-Unterschied ist KI. Vor fünf Jahren bedeutete „die Bots" Google und Bing. Heute ist die Liste länger und jeder KI-Crawler verwendet einen anderen User-Agent-Namen. Unser Checker testet jeden in einem Klick, sodass Sie genau sehen, was jeder Bot sieht. Koppeln Sie ihn mit unserem Crawler-Simulator für eine gernderte Seiten-Ansicht.

Kann ich Platzhalter in robots.txt verwenden?

Ja, zwei Platzhalter werden unterstützt und von allen großen Bots verstanden. Das Sternchen () gleicht eine beliebige Zeichenfolge ab, und das Dollarzeichen ($) verankert das Muster am Ende einer URL. Disallow: /.pdf$ blockiert jede URL, die mit .pdf endet. Disallow: /?sort= blockiert jede URL mit einem sort-Parameter irgendwo darin. Kombinieren Sie sie: Disallow: /search?&page=$ blockiert paginierte interne Suchergebnisse, lässt aber die Hauptsuchseite crawlbar. Platzhalter funktionieren nicht in User-Agent-Zeilen, sodass Sie nicht User-Agent: Google* schreiben können und jeden Google-Bot treffen. Nennen Sie jeden explizit (Googlebot, Googlebot-Image, Googlebot-News). Die längere Literalübereinstimmung gewinnt über eine kürzere Muster-Übereinstimmung. Testen Sie Platzhalterregeln mit einem konkreten Pfad in unserem Checker, weil mentale Modelle schnell bei verschachtelten Parametern, Abfragezeichenfolgen und sich überlappenden Mustern brechen, die auf dem Papier fein aussehen. Für eine saubere Baseline generieren Sie einen mit unserem Generator und iterieren Sie von dort mit Test-Pfaden.

Schützt robots.txt sensible Seiten?

Nein. Robots.txt ist ein öffentliches Dokument, das jeder bei yourdomain.com/robots.txt lesen kann, indem er es in einen Browser eingibt. Das Auflisten eines Pfads dort teilt jedem Crawler, jedem Konkurrenten und jedem neugierigen Menschen mit, dass der Pfad auf Ihrer Website existiert. Bei Staging-URLs, Admin-Panels oder privaten Dateien ist das das Gegenteil von dem, was Sie möchten: Sie haben sie gerade beworben. Echter Schutz kommt von serverseitigen Kontrollen: Passwort-Authentifizierung, IP-Zulassungslisten, VPN-Zugriff oder einfach nicht, die URL auf einem öffentlichen Server überhaupt nicht zu offenbaren. Ein noindex-Meta-Tag hält die Seite aus den Suchergebnissen heraus, wenn die Seite erreichbar ist, Sie aber möchten, dass sie privat von Suchenden bleibt. Für wirklich versteckte Inhalte verlinken Sie nicht darauf, listen Sie nicht in Sitemaps auf und sperren Sie es mit Auth. Verwenden Sie robots.txt für Crawl-Budget-Shaping auf Seiten, die Sie nicht dagegen haben möchten, dass sie öffentlich sind. Überprüfen Sie, was mit unserem Metadaten-Checker offengelegt wird, und bestätigen Sie robots-Regeln mit unserem robots.txt-Checker.

Verwandte kostenlose Tools

Alle Tools →