Question 1

Was ist eine robots.txt-Datei?

Accepted Answer

Eine robots.txt-Datei ist eine Klartextdatei im Root Ihrer Domain, die Crawlern mitteilt, auf welche Pfade sie zugreifen können und welche nicht. Sie befindet sich genau an einer Stelle: /robots.txt. Googlebot überprüft sie vor jedem Crawl, ebenso wie Bingbot und die großen KI-Crawler (GPTBot (OpenAI), ClaudeBot (Anthropic), PerplexityBot, CCBot (Common Crawl), Google-Extended). Die Datei verwendet eine einfache Grammatik. Sie schreiben einen oder mehrere User-Agent-Blöcke, gefolgt von Allow- und Disallow-Regeln. Eine Sitemap-Zeile oben zeigt Crawlern, wo sie Ihren XML-Index finden, damit sie nicht die Struktur erraten müssen. Fügen Sie eine beliebige Website-URL in unseren robots.txt-Checker ein, wählen Sie einen User-Agent und Sie sehen die analysierte Regeltabelle plus welche Regel für diesen bestimmten Bot auf diesem bestimmten Pfad gewinnt. Wenn Sie noch keine Datei haben, generieren Sie eine mit unserem robots.txt-Generator und der richtigen, eingebauten CMS-Voreinstellung.

Question 2

Was testet ein robots.txt-Checker tatsächlich?

Accepted Answer

Ein echter robots.txt-Checker macht vier Dinge. Er ruft die Datei ab und bestätigt, dass sie mit einem 200-Status und dem richtigen Content-Type erreichbar ist. Er analysiert die Syntax, sodass Sie Tippfehler fangen, die Regeln stillschweigend brechen: falsche Großschreibung auf User-Agent, fehlende Doppelpunkte, umherschweifende BOM-Zeichen am Anfang der Datei. Er löst einen bestimmten Pfad für einen bestimmten Bot auf, sodass Sie „ist /admin für GPTBot jetzt blockiert?" beantworten können, ohne zu raten. Und er erkennt Regel-Reihenfolge-Konflikte, bei denen zwei Bots unterschiedliche Regeln von sich überlappenden User-Agent-Blöcken erben. Die meisten kostenlosen Checker stoppen bei Schritt eins. Unserer läuft den vollen Satz. Legen Sie Site URL fest, wählen Sie den Bot aus User-Agent , legen Sie einen optionalen Test path ab und Sie erhalten ein Urteil pro Regel. Wenn Sie eine Korrektur versenden, bestätigen Sie die Änderung mit einem zweiten Durchgang im Checker, bevor Sie zu anderen Arbeiten übergehen.

Question 3

Wo finde ich meine robots.txt-Datei?

Accepted Answer

Geben Sie Ihre Domain gefolgt von /robots.txt in einen beliebigen Browser ein. Wenn https://www.example.com/robots.txt einen 200 zurückgibt und Klartext anzeigt, haben Sie eine. Wenn es 404 zurückgibt oder Ihre CMS-Homepage, nicht. Die Datei muss genau im Root der Domain sitzen. Unterverzeichnis-Pfade wie /blog/robots.txt werden von jedem Crawler vollständig ignoriert. Subdomänen sind separat: blog.example.com und www.example.com benötigen jeweils ihre eigene Datei bei ihrem eigenen Root. WordPress-Websites haben normalerweise eine virtuelle, die vom SEO-Plugin generiert wird; Shopify generiert automatisch eine und sperrt den größten Teil davon; Next.js und Astro erfordern, dass Sie eine statische Datei unter /public versenden. Wenn Sie nicht sicher sind, was Crawler tatsächlich sehen, fügen Sie Ihre URL in unseren robots.txt-Checker ein und wir rufen sie mit den exakten Headern ab, die ein echter Bot sendet, sodass das Ergebnis der Crawler-Realität entspricht. Für einen sauberen Rewrite mit eingebauten CMS-Voreinstellungen verwenden Sie den Generator .

Question 4

Wie behebe ich einen „blocked by robots.txt"-Fehler in der Search Console?

Accepted Answer

Die Search Console kennzeichnet „blocked by robots.txt", wenn eine Disallow-Regel die URL abdeckt, die Google crawlen wollte. Öffnen Sie das URL-Inspektions-Tool, um zu sehen, welche Regel Google abgeglichen hat. Führen Sie dann dieselbe URL durch unseren robots.txt-Checker mit User-Agent auf Googlebot und dem blockierten Pfad eingefügt in Test path durch. Der Checker zeigt Ihnen die genaue Regel, die abgeglichen wurde, und den User-Agent-Block, aus dem sie kam, sodass Sie die Quelle beheben können, anstatt zu raten. Drei Korrektionen decken fast jeden Fall ab. Entfernen Sie die offendierenden Disallow-Zeile. Verengen Sie sie mit einem spezifischeren Pfad. Oder fügen Sie oben eine Allow-Regel hinzu (die längere Übereinstimmung gewinnt bei Überlappung). Versenden Sie die Änderung, testen Sie denselben Pfad erneut im Checker, dann fordern Sie die Indexierung in der Search Console zurück an. Wenn Seiten immer noch blockiert aussehen, könnte die gecachte Kopie von Google eine Rolle spielen; sie aktualisiert robots.txt ungefähr alle 24 Stunden.

Question 5

Sollte ich KI-Crawler in robots.txt blockieren?

Accepted Answer

Das hängt davon ab, was Sie optimieren. Blockieren Sie sie, wenn Ihr Inhalt das Produkt ist: Verlage, kostenpflichtige Forschung, Abonnement-Archive, alles, bei dem kostenlose Trainingsdaten das Geschäft schädigen. Erlauben Sie sie, wenn Sie in ChatGPT- und Claude-Antworten zitiert werden möchten, wo Sie als zitierte Quelle den Referral-Traffic zurück auf Ihre Website lenken. Die 2026-Liste wert Nennung explizit: GPTBot (OpenAI), ClaudeBot und anthropic-ai (Anthropic), CCBot (Common Crawl, das viele Modelle trainiert), PerplexityBot und Google-Extended (kontrolliert die Trainingsnutzung von Googlebot-gecrawlten Seiten, ohne Ihre Rankings in der normalen Google-Suche zu beeinflussen). Unser robots.txt-Generator gibt Ihnen pro Crawler ein Kontrollkästchen, sodass Sie pro Bot entscheiden, nicht pro alles. Nachdem Sie versenden, testen Sie jeden mit unserem Checker gegen einen echten Pfad, um zu bestätigen, dass die Regel für diesen Bot wie erwartet aufgelöst wird. Die meisten Fehler kommen von Regel-Reihenfolge-Konflikten zwischen sich überlappenden User-Agent-Blöcken, nicht von fehlenden Einträgen.

Question 6

Wie sollte eine robots.txt-Datei strukturiert sein?

Accepted Answer

Beginnen Sie mit einer Sitemap-Zeile, die auf Ihren XML-Index verweist. Gruppieren Sie dann Regeln nach User-Agent. Der Platzhalter-Block (User-agent: *) fängt jeden Bot ab, der nicht anderswo benannt ist, also legen Sie ihn zuletzt. Darüber hinaus fügen Sie benannte Blöcke für Bots hinzu, die Sie anders behandeln möchten: Googlebot, Bingbot, GPTBot, ClaudeBot, CCBot, PerplexityBot, Google-Extended. Jeder Block kann mehrere Allow- und Disallow-Zeilen haben. Die längere, spezifischere Übereinstimmung gewinnt, wenn sich Regeln überlappen. Halten Sie Pfade case-sensitive: Disallow: /Admin blockiert /admin nicht. Listen Sie ein Sitemap pro Domain auf, einmal oben deklariert. Halten Sie die Datei unter 500 KB oder Google ignoriert Zeilen nach diesem Punkt. Unser robots.txt-Generator setzt all dies für Sie mit einer CMS-Voreinstellung und AI-Crawler-Schaltern auf. Nachdem Sie veröffentlicht haben, überprüfen Sie, ob die Struktur mit unserem Checker gegen eine Handvoll echter URLs und jeden benannten Bot ordnungsgemäß analysiert wird, bevor Sie das Ticket schließen.

Question 7

Was ist der Unterschied zwischen Disallow und noindex?

Accepted Answer

Disallow in robots.txt teilt einem Bot mit, eine URL nicht zu crawlen. Es teilt dem Bot nicht mit, sie nicht zu indizieren. Wenn eine andere Website auf eine Disallowed-Seite verlinkt, kann Google die URL immer noch in den Suchergebnissen mit „keine Beschreibung verfügbar" darunter aufführen. Um eine Seite tatsächlich aus dem Index zu halten, verwenden Sie ein Meta-Robots-noindex-Tag auf der Seite selbst oder einen X-Robots-Tag-noindex-Header in der HTTP-Antwort. Der Haken: Google muss die Seite crawlen, um das noindex-Tag zu sehen. Wenn Sie also sowohl Disallow als auch noindex haben, tritt noindex nie in Kraft und die Seite bleibt in den Ergebnissen erhalten. Wählen Sie eins pro Seite. Disallow ist für Crawl-Budget (Blockierung von Admin, interner Suche, Filter-URLs). Noindex ist, um Inhalte vollständig aus Ergebnissen zu halten. Für eine vollständige Seiten-Audit von Robots-Direktiven verwenden Sie unseren Crawler-Simulator zusammen mit dem Website-Metadaten-Checker .

Question 8

Funktioniert robots.txt 2026 noch?

Accepted Answer

Ja, für Crawler, die sich dafür entscheiden, es zu respektieren. Googlebot, Bingbot und die großen KI-Crawler (GPTBot, ClaudeBot, PerplexityBot, CCBot, Google-Extended) respektieren alle robots.txt als Richtlinie. Rogue-Scraper ignorieren es, weil die Datei eine höfliche Anfrage ist, keine Firewall. Wenn Sie harte Blockierung benötigen, fügen Sie serverseitige Regeln hinzu: IP-Sperrlisten, Cloudflare-Bot-Management, Rate Limiting oder Authentifizierung vor den sensiblen Pfaden. Verwenden Sie robots.txt für das, was es gut kann: formen Sie, auf welche Seiten die Bots, auf die Sie sich kümmern, ihr Crawl-Budget aufwenden. Der 2026-Unterschied ist KI. Vor fünf Jahren bedeutete „die Bots" Google und Bing. Heute ist die Liste länger und jeder KI-Crawler verwendet einen anderen User-Agent-Namen. Unser Checker testet jeden in einem Klick, sodass Sie genau sehen, was jeder Bot sieht. Koppeln Sie ihn mit unserem Crawler-Simulator für eine gernderte Seiten-Ansicht.

Question 9

Kann ich Platzhalter in robots.txt verwenden?

Accepted Answer

Ja, zwei Platzhalter werden unterstützt und von allen großen Bots verstanden. Das Sternchen ( ) gleicht eine beliebige Zeichenfolge ab, und das Dollarzeichen ($) verankert das Muster am Ende einer URL. Disallow: / .pdf$ blockiert jede URL, die mit .pdf endet. Disallow: / ?sort= blockiert jede URL mit einem sort-Parameter irgendwo darin. Kombinieren Sie sie: Disallow: /search? &page=$ blockiert paginierte interne Suchergebnisse, lässt aber die Hauptsuchseite crawlbar. Platzhalter funktionieren nicht in User-Agent-Zeilen, sodass Sie nicht User-Agent: Google* schreiben können und jeden Google-Bot treffen. Nennen Sie jeden explizit (Googlebot, Googlebot-Image, Googlebot-News). Die längere Literalübereinstimmung gewinnt über eine kürzere Muster-Übereinstimmung. Testen Sie Platzhalterregeln mit einem konkreten Pfad in unserem Checker , weil mentale Modelle schnell bei verschachtelten Parametern, Abfragezeichenfolgen und sich überlappenden Mustern brechen, die auf dem Papier fein aussehen. Für eine saubere Baseline generieren Sie einen mit unserem Generator und iterieren Sie von dort mit Test-Pfaden.

Question 10

Schützt robots.txt sensible Seiten?

Accepted Answer

Nein. Robots.txt ist ein öffentliches Dokument, das jeder bei yourdomain.com/robots.txt lesen kann, indem er es in einen Browser eingibt. Das Auflisten eines Pfads dort teilt jedem Crawler, jedem Konkurrenten und jedem neugierigen Menschen mit, dass der Pfad auf Ihrer Website existiert. Bei Staging-URLs, Admin-Panels oder privaten Dateien ist das das Gegenteil von dem, was Sie möchten: Sie haben sie gerade beworben. Echter Schutz kommt von serverseitigen Kontrollen: Passwort-Authentifizierung, IP-Zulassungslisten, VPN-Zugriff oder einfach nicht, die URL auf einem öffentlichen Server überhaupt nicht zu offenbaren. Ein noindex-Meta-Tag hält die Seite aus den Suchergebnissen heraus, wenn die Seite erreichbar ist, Sie aber möchten, dass sie privat von Suchenden bleibt. Für wirklich versteckte Inhalte verlinken Sie nicht darauf, listen Sie nicht in Sitemaps auf und sperren Sie es mit Auth. Verwenden Sie robots.txt für Crawl-Budget-Shaping auf Seiten, die Sie nicht dagegen haben möchten, dass sie öffentlich sind. Überprüfen Sie, was mit unserem Metadaten-Checker offengelegt wird, und bestätigen Sie robots-Regeln mit unserem robots.txt-Checker .

Robots.txt Checker

Generate the whole content, not just check it.

Was ein robots.txt-Checker tatsächlich macht

So verwenden Sie diesen robots.txt-Checker

Warum das Testen pro User-Agent wichtig ist

Regelpriorität und Platzhalter

Sitemap-Validierung und Crawl-Direktiven

Syntaxfehler und Validierungs-Randfälle

Häufige Fehler

Erweiterte Tipps

Generate the whole content, not just check it.

Häufig gestellte Fragen

Verwandte kostenlose Tools