Skip to content
Vérification en direct · récupère votre URL côté serveur

Robots.txt Checker

Analysez, testez par user-agent (dont GPTBot/ClaudeBot), détectez les conflits de règles.

Un fichier robots.txt indique aux crawlers quelles pages ils peuvent et ne peuvent pas consulter. La plupart des validateurs testent un seul bot et s'arrêtent. Ce Robots.txt Checker teste par user-agent, y compris les crawlers IA qui comptent en 2026-GPTBot, ClaudeBot et PerplexityBot-détecte les conflits de règles quand plusieurs directives s'appliquent, et valide si vos liens sitemap existent réellement.

Generate the whole content, not just check it.

BlazeHive writes SEO articles end to end from a single keyword. Outline, draft, meta, schema, internal links. Free trial, no card.

Start with BlazeHive Free trial

Ce qu'un vérificateur robots.txt fait réellement

Un vérificateur robots.txt récupère le fichier /robots.txt de votre domaine, analyse chaque bloc user-agent et règle disallow, puis teste si un chemin donné est autorisé ou bloqué pour un crawler spécifique. Il applique la règle la plus longue correspondante quand plusieurs motifs se chevauchent, suit l'ordre de priorité dans la spec, et signale si une URL de test serait crawlée.

La plupart des crawlers cherchent d'abord leur propre bloc user-agent. S'il existe, ils utilisent ces règles. Sinon, ils reviennent au bloc wildcard User-agent: *. Cela signifie qu'un site peut autoriser Googlebot dans /admin tout en bloquant tous les autres bots. Notre vérificateur simule cette cascade pour n'importe quel user-agent que vous choisissez dans le menu déroulant User-agent à tester.

Deux erreurs courantes cassent les fichiers robots.txt en silence. La première est les erreurs de syntaxe : espaces supplémentaires, deux-points manquants, fins de ligne Windows, ou "Disallow" en majuscules quand seul le minuscule fonctionne. La seconde est les règles conflictuelles-les lignes allow et disallow qui se chevauchent, rendant ambigü si un chemin est bloqué. Notre vérificateur signale les deux et montre quelle règle gagne.

Comment utiliser ce vérificateur robots.txt

  1. Collez votre domaine complet dans Site URL. Nous récupérons automatiquement votredomaine.com/robots.txt. Pas besoin de taper /robots.txt.
  2. Choisissez un User-agent à tester dans le menu déroulant. Googlebot, Bingbot, GPTBot, ClaudeBot, CCBot, PerplexityBot, anthropic-ai, ou * pour wildcard. C'est l'identité du crawler que nous simulons.
  3. Collez un chemin dans Test path si vous voulez vérifier une URL spécifique. Laissez-le vide pour voir l'ensemble des règles parsé. Un chemin ressemble à /admin ou /blog/post-slug.
  4. Cliquez sur Check robots.txt. Vous obtenez le fichier parsé, les règles par agent, les liens sitemap, le crawl-delay s'il est défini, et un verdict pour votre chemin de test.
  5. Développez Rule conflicts si des lignes sont signalées. Nous affichons les lignes allow/disallow qui se chevauchent et vous disons laquelle un vrai crawler suivrait.

Essayez de tester votredomaine.com avec User-agent défini sur GPTBot et Test path défini sur /blog. Si votre robots.txt n'a pas de bloc GPTBot mais bloque tous les bots de /admin, le blog est autorisé et admin est bloqué. Changez le user-agent en ClaudeBot et le résultat pourrait changer si vous avez un bloc spécifique à ClaudeBot.

Pourquoi tester par user-agent est important

Les crawlers de recherche ne sont plus les seuls bots qui lisent robots.txt. Les crawlers d'entraînement IA-GPTBot d'OpenAI, ClaudeBot d'Anthropic, CCBot de Common Crawl, PerplexityBot, et Google-Extended-respectent maintenant robots.txt pour décider s'ils peuvent scraper votre contenu pour l'entraînement des modèles. Si vous les bloquez, vos pages restent hors des datasets d'entraînement. Si vous les autorisez, vous optez pour.

Trois conséquences pratiques.

Clarté des politiques. Un robots.txt qui dit User-agent: * / Disallow: / bloque tout le monde, y compris Google. Si ce n'est pas votre intention, vous avez besoin de blocs séparés par agent. Tester par user-agent révèle ce que chaque bot voit avant qu'un modèle s'entraîne sur votre contenu.

Contrôle du crawler IA. En 2026, la plupart des propriétaires de sites veulent les bots de recherche mais pas les bots d'entraînement. Cela nécessite des blocs disallow explicites pour GPTBot, ClaudeBot et CCBot. Les concurrents ignorent ces agents. Nous les testons par défaut parce qu'ils comptent.

Détection des conflits. Quand vous avez à la fois Disallow: /blog et Allow: /blog/public, la règle la plus spécifique gagne. Mais parser à la main quelle règle est la plus longue ou la plus spécifique est sujet à erreur. Tester montre exactement ce qu'un bot ferait, pas ce que vous pensez que le fichier dit.

Priorité des règles et wildcards

La spec robots.txt définit un ordre de priorité quand plusieurs règles correspondent au même chemin. La règle avec le préfixe correspondant le plus long gagne. Si deux règles ont la même longueur, la règle allow gagne sur disallow.

Les wildcards rendent cela plus difficile à voir. Une ligne comme Disallow: /admin* bloque /admin, /admin/users, et /admin-panel. Une ligne plus tard Allow: /admin/public l'annule pour ce seul dossier parce que /admin/public est plus long que /admin. Notre vérificateur évalue les deux et vous dit laquelle s'applique.

Le wildcard $ ancre la fin d'un chemin. Disallow: /*.pdf$ bloque tous les fichiers PDF mais permet /report.pdf.html parce que le chemin ne se termine pas par .pdf. Les concurrents parsent souvent $ incorrectement ou l'ignorent. Nous correspondons à l'implémentation Google.

Le nom du user-agent n'est pas sensible à la casse dans la spec, donc User-agent: googlebot et User-agent: Googlebot sont identiques. Les chemins Disallow sont sensibles à la casse sur la plupart des serveurs. /Admin et /admin sont des URLs différentes. Notre vérificateur respecte les deux règles.

Validation du sitemap et directives de crawl

Chaque fichier robots.txt devrait inclure au moins une ligne Sitemap: pointant vers votre fichier sitemap.xml. Cela dit aux crawlers où trouver la liste des URLs que vous voulez indexées. Notre vérificateur récupère chaque URL sitemap listée dans votre robots.txt et rapporte le code de statut HTTP. Si un sitemap retourne 404, les crawlers ne peuvent pas l'utiliser, et vous perdez un signal qui aide à la découverte.

Plusieurs déclarations de sitemap sont valides. Si vous avez des sitemaps séparés pour les posts, pages et produits, listez les trois. Si vous utilisez un index sitemap qui référence des sitemaps enfants, listez seulement l'index. Évitez de lister chaque sitemap enfant individuellement parce que cela encombre le fichier et duplique les informations déjà dans l'index.

La directive Crawl-delay: définit le nombre minimum de secondes qu'un bot devrait attendre entre les requêtes vers votre serveur. Googlebot ignore complètement cette directive et utilise son propre taux de crawl adaptatif basé sur le temps de réponse du serveur. Bingbot, Yandex et certains crawlers plus petits le respectent. Un crawl-delay de 1 seconde est sûr. Un délai de 10 ou plus arrête effectivement la plupart du crawling sur les grands sites. Ne l'utilisez que si votre serveur ne peut pas gérer les taux de crawl normaux.

Une directive moins courante est Request-rate:, qui définit un nombre de requêtes par fenêtre de temps. Peu de crawlers la supportent, et elle ne fait pas partie de la spec officielle. Si vous la voyez dans un robots.txt, c'est probablement du legacy ou non-standard. Notre vérificateur la note mais ne la force pas parce que le comportement du crawler varie.

Erreurs de syntaxe et cas limites de validation

La syntaxe robots.txt est inflexible. Un seul espace mal placé ou une tabulation peut invalider une règle. Le nom de la directive-User-agent, Disallow, Allow, Sitemap, Crawl-delay-doit être suivi d'un deux-points sans espace avant et au moins un espace ou une tabulation après. Disallow:/admin échoue. Disallow: /admin fonctionne. Notre vérificateur signale les problèmes d'espacement et suggère des correctifs.

Les fins de ligne Windows-\r\n au lieu de \n-causent des problèmes sur certains serveurs. Quand un fichier robots.txt est édité sous Windows et uploadé sans conversion, les bots peuvent mal lire les sauts de ligne et traiter plusieurs lignes comme une. Notre vérificateur détecte les fins de ligne non-Unix et les rapporte comme un avertissement.

Les commentaires dans robots.txt commencent par #. Tout ce qui suit le # sur cette ligne est ignoré. Une erreur courante est de commenter accidentellement une directive : # Disallow: /admin ne fait rien. Si vous voyez des règles qui devraient s'appliquer mais ne s'appliquent pas, cherchez les caractères # errants.

Les lignes vides séparent les blocs user-agent. Une ligne vide termine le bloc actuel, et le prochain User-agent: en commence un nouveau. Si vous avez User-agent: Googlebot, Disallow: /private, puis une ligne vide, puis Allow: /public, la règle allow ne s'applique pas à Googlebot-elle commence un nouveau bloc sans user-agent, ce qui est invalide. Notre vérificateur signale les directives orphelines et suggère de les grouper sous le bon user-agent.

Erreurs courantes

  • Bloquer Googlebot par accident. Un bloc User-agent: * avec Disallow: / bloque chaque bot, y compris Google. Si vous voulez que Googlebot entre, ajoutez un bloc User-agent: Googlebot séparé avec Allow: / avant le bloc wildcard. L'ordre compte.
  • Oublier la barre oblique de tête. Disallow: admin ne fait rien. Ça doit être Disallow: /admin. Notre vérificateur signale ceci comme une probable erreur de syntaxe.
  • Tester uniquement Googlebot. Votre robots.txt pourrait autoriser Google mais bloquer Bingbot ou GPTBot sans que vous le remarquiez. Testez tous les agents qui vous importent, pas juste un.
  • Laisser de côté les crawlers IA. Si votre fichier n'a pas de bloc GPTBot ou ClaudeBot, ces bots reviennent à User-agent: *. Cela pourrait les autoriser quand vous pensiez que tout était bloqué. Les blocs explicites par agent rendent la politique sans ambiguïté.
  • Supposer que les liens sitemap sont validés ailleurs. Une URL sitemap dans robots.txt peut être cassée, retourner 404, ou pointer vers un fichier XML qui n'existe plus. Notre vérificateur teste le lien et rapporte le code de statut.

Conseils avancés

  • Testez le même chemin par rapport à plusieurs user-agents en succession. Si le résultat change, vos blocs par agent fonctionnent. Si ça reste le même, vous vous appuyez peut-être uniquement sur le bloc wildcard.
  • Vérifiez la ligne Crawl-delay si présente. Googlebot l'ignore, mais Bingbot et certains autres la respectent. Un délai de 10 secondes peut ralentir un crawl à quasi-arrêt sur les grands sites.
  • Regardez les lignes Sitemap. Plusieurs déclarations de sitemap sont valides. Si vous avez un index sitemap, listez-le une fois plutôt que de répéter chaque sous-sitemap. Nous récupérons chaque lien et confirmons qu'il retourne HTTP 200.
  • Testez un chemin avec des paramètres de requête. Disallow: /search bloque /search?q=test sur la plupart des serveurs, mais Disallow: /search$ ne le ferait pas parce que $ s'attend à aucun caractère de fin. Si vous voulez bloquer les chaînes de requête, utilisez l'astérisque : Disallow: /search*.
  • Téléchargez la sortie parsée comme référence. Quand vous régénérez robots.txt ou changez de CMS, re-vérifiez par rapport aux mêmes chemins de test pour confirmer que le comportement n'a pas changé.
  • Utilisez le rapport de conflit avant de déployer un nouveau robots.txt. Si deux règles se chevauchent, votre interprétation locale pourrait différer de celle de Googlebot. Tester élimine les suppositions.

Si vous avez besoin de générer un nouveau fichier robots.txt à partir de zéro avec des presets pour WordPress, Shopify, ou Next.js, utilisez notre générateur de fichier robots.txt. Il inclut des bascules explicites pour les crawlers IA et produit un fichier prêt pour la production avec une syntaxe garantie valide. Après le déploiement, re-vérifiez-le avec cet outil. Si vous voulez voir comment Googlebot rend la page après avoir respecté robots.txt et exécuté JavaScript, le simulateur de crawler Google affiche le HTML exact et le texte visible qu'un bot indexe. Pour confirmer que chaque URL de votre sitemap est accessible et retourne 200, utilisez le vérificateur de sitemap.

Generate the whole content, not just check it.

BlazeHive writes SEO articles end to end from a single keyword. Outline, draft, meta, schema, internal links. Free trial, no card.

Start with BlazeHive Free trial

Questions fréquemment posées

Qu'est-ce qu'un fichier robots.txt ?

Un fichier robots.txt est un fichier texte brut à la racine de votre domaine qui indique aux crawlers quels chemins ils peuvent et ne peuvent pas demander. Il vit à exactement une seule location : /robots.txt. Googlebot le vérifie avant chaque crawl, et tout comme Bingbot, GPTBot (OpenAI), ClaudeBot (Anthropic), CCBot (Common Crawl), PerplexityBot, et Google-Extended. Le fichier utilise une grammaire simple. Vous écrivez un ou plusieurs blocs User-agent, chacun suivi de règles Allow et Disallow. Une ligne Sitemap près du haut pointe les crawlers vers votre index XML pour qu'ils n'aient pas à deviner la structure. Collez n'importe quelle URL de site dans notre vérificateur robots.txt, choisissez un User-agent, et vous verrez la table des règles parsées plus quelle règle gagne pour ce bot spécifique sur ce chemin spécifique. Si vous n'avez pas encore de fichier, générez-en un avec notre générateur robots.txt et le preset CMS correct intégré.

Qu'est-ce qu'un vérificateur robots.txt teste réellement ?

Un vérificateur robots.txt réel fait quatre choses. Il récupère le fichier et confirme qu'il est accessible avec un statut 200 et le bon type de contenu. Il parse la syntaxe pour que vous attrapiez les typos qui cassent silencieusement les règles : mauvaise capitalisation sur User-agent, deux-points manquants, caractères BOM errants au début du fichier. Il résout un chemin spécifique pour un bot spécifique pour que vous puissiez répondre à "est-ce que /admin est bloqué pour GPTBot en ce moment ?" sans deviner. Et il détecte les conflits d'ordre de règle où deux bots héritent de règles différentes à partir de blocs User-agent qui se chevauchent. La plupart des vérificateurs gratuits s'arrêtent à l'étape un. Le nôtre exécute l'ensemble complet. Définissez Site URL, choisissez le bot dans User-agent, déposez un optionnel Test path, et vous obtenez un verdict par règle. Quand vous livrez un correctif, confirmez le changement avec un deuxième passage dans le vérificateur avant de passer à d'autres travaux.

Où trouver mon fichier robots.txt ?

Tapez votre domaine suivi de /robots.txt dans n'importe quel navigateur. Si https://www.example.com/robots.txt retourne un 200 et affiche du texte brut, vous en avez un. S'il retourne 404 ou votre page d'accueil CMS, vous n'en avez pas. Le fichier doit se trouver à la racine exacte du domaine. Les chemins de sous-répertoire comme /blog/robots.txt sont complètement ignorés par chaque crawler. Les sous-domaines sont séparés : blog.example.com et www.example.com ont chacun besoin de leur propre fichier à leur propre racine. Les sites WordPress ont généralement un virtuel généré par le plugin SEO ; Shopify en génère un automatiquement et en verrouille la majeure partie ; Next.js et Astro ont besoin que vous livriez un fichier statique sous /public. Si vous n'êtes pas sûr de ce que les crawlers voient réellement, collez votre URL dans notre vérificateur robots.txt et nous la récupérons avec les en-têtes exacts qu'un vrai bot envoie pour que le résultat correspond à la réalité du crawler. Pour une réécriture propre avec les presets CMS intégrés, utilisez le générateur.

Comment corriger une erreur "bloqué par robots.txt" dans Search Console ?

Search Console signale "bloqué par robots.txt" quand une règle Disallow couvre l'URL que Google a tenté de crawler. Ouvrez l'outil URL Inspection pour voir quelle règle Google a correspond. Ensuite, exécutez la même URL via notre vérificateur robots.txt avec User-agent défini sur Googlebot et le chemin bloqué collé dans Test path. Le vérificateur montre vous la règle exacte qui a correspondu et le bloc User-agent dont elle provient, pour que vous puissiez corriger la source au lieu de deviner. Trois correctifs couvrent presque chaque cas. Supprimez la ligne Disallow offensante. Affinez-la avec un chemin plus spécifique. Ou ajoutez une règle Allow au-dessus (la correspondance plus longue gagne sur le chevauchement). Livrez le changement, testez le même chemin à nouveau dans le vérificateur, puis demandez l'indexation dans Search Console. Si les pages semblent toujours bloquées, la copie mise en cache de Google pourrait être en jeu ; elle rafraîchit robots.txt environ toutes les 24 heures.

Dois-je bloquer les crawlers IA dans robots.txt ?

Cela dépend de ce que vous optimisez. Bloquez-les si votre contenu est le produit : éditeurs, recherche payante, archives d'abonnement, n'importe quoi où les données d'entraînement gratuites font du mal aux affaires. Autorisez-les si vous voulez être cité dans les réponses de ChatGPT et Claude, où être la source citée génère du trafic de renvoi vers votre site. La liste 2026 qui vaut la peine d'être nommée explicitement : GPTBot (OpenAI), ClaudeBot et anthropic-ai (Anthropic), CCBot (Common Crawl, qui entraîne de nombreux modèles), PerplexityBot, et Google-Extended (contrôle l'utilisation d'entraînement des pages crawlées par Googlebot sans affecter vos classements dans la recherche Google normale). Notre générateur robots.txt vous donne une case à cocher par crawler pour que vous décidiez par bot, pas par tout. Après votre livraison, testez chacun avec notre vérificateur par rapport à un chemin réel pour confirmer que la règle se résout comme vous l'attendez pour ce bot. La plupart des bugs proviennent des conflits d'ordre de règle entre les blocs User-agent qui se chevauchent, pas les entrées manquantes.

Comment un fichier robots.txt doit-il être structuré ?

Commencez avec une ligne Sitemap pointant vers votre index XML. Ensuite, groupez les règles par User-agent. Le bloc wildcard (User-agent: *) attrape chaque bot non nommé ailleurs, donc mettez-le en dernier. Au-dessus, ajoutez des blocs nommés pour les bots que vous voulez traiter différemment : Googlebot, Bingbot, GPTBot, ClaudeBot, CCBot, PerplexityBot, Google-Extended. Chaque bloc peut avoir plusieurs lignes Allow et Disallow. La correspondance plus longue et plus spécifique gagne quand les règles se chevauchent. Gardez les chemins sensibles à la casse : Disallow: /Admin ne bloque pas /admin. Listez un Sitemap par domaine, déclaré une fois près du haut. Gardez le fichier sous 500 KB ou Google commence à ignorer les lignes au-delà de ce point. Notre générateur robots.txt échafaude tout cela pour vous avec un preset CMS et des bascules pour les crawlers IA. Une fois que vous publiez, vérifiez que la structure parse correctement avec notre vérificateur par rapport à une poignée d'URLs réelles et chaque bot nommé avant de fermer le ticket.

Quelle est la différence entre Disallow et noindex ?

Disallow dans robots.txt dit à un bot de ne pas crawler une URL. Cela ne dit pas au bot de ne pas l'indexer. Si un autre site renvoie vers une page Disallowed, Google peut toujours lister l'URL dans les résultats de recherche avec "pas de description disponible" en dessous. Pour vraiment garder une page hors de l'index, utilisez une balise meta robots noindex sur la page elle-même, ou un en-tête X-Robots-Tag noindex dans la réponse HTTP. L'attrape : Google doit crawler la page pour voir la balise noindex. Donc si vous à la fois Disallow et noindex, noindex ne prend jamais effet et la page s'attarde dans les résultats. Choisissez-en un par page. Disallow est pour la priorité de crawl (bloquer admin, recherche interne, URLs de filtre). Noindex est pour garder le contenu complètement hors des résultats. Pour un audit complet au niveau de la page des directives robots, utilisez notre simulateur de crawler aux côtés du vérificateur de métadonnées de site web.

Est-ce que robots.txt fonctionne toujours en 2026 ?

Oui, pour les crawlers qui choisissent de le respecter. Googlebot, Bingbot, et les crawlers IA majeurs (GPTBot, ClaudeBot, PerplexityBot, CCBot, Google-Extended) respectent tous robots.txt comme une question de politique. Les scrapeurs voyous l'ignorent parce que le fichier est une requête polie, pas un pare-feu. Si vous avez besoin d'un blocage dur, ajoutez des règles côté serveur : listes de refus IP, gestion des bots Cloudflare, limitation de débit, ou authentification devant les chemins sensibles. Utilisez robots.txt pour ce qu'il fait bien : façonner quelles pages les bots qui vous intéressent dépensent leur priorité de crawl sur. La différence 2026 est l'IA. Il y a cinq ans, "les bots" signifiaient Google et Bing. Aujourd'hui la liste est plus longue et chaque crawler IA utilise un nom User-agent différent. Notre vérificateur teste n'importe lequel d'eux en un clic pour que vous puissiez voir exactement ce que chaque bot voit. Appairez-le avec notre simulateur de crawler pour une vue de page rendue.

Puis-je utiliser des wildcards dans robots.txt ?

Oui, deux wildcards sont supportés et compris par tous les bots majeurs. L'astérisque () correspond à n'importe quelle séquence de caractères, et le signe dollar ($) ancre le motif à la fin d'une URL. Disallow: /.pdf$ bloque chaque URL se terminant par .pdf. Disallow: /?sort= bloque n'importe quelle URL avec un paramètre sort n'importe où dedans. Combinez-les : Disallow: /search?&page=$ bloque les résultats de recherche interne paginés mais laisse la page de recherche principale crawlable. Les wildcards ne fonctionnent pas dans les lignes User-agent, donc vous ne pouvez pas écrire User-agent: Google* et atteindre chaque bot Google. Nommez-en chacun explicitement (Googlebot, Googlebot-Image, Googlebot-News). La correspondance littérale plus longue gagne sur une correspondance de motif plus courte. Testez les règles wildcard avec un chemin concret dans notre vérificateur parce que les modèles mentaux s'effondrent vite avec les paramètres imbriqués, les chaînes de requête, et les motifs qui se chevauchent et qui semblent bien sur papier. Pour une ligne de base propre, générez-en un avec notre générateur et itérez à partir de là avec des chemins de test.

Est-ce que robots.txt protégera les pages sensibles ?

Non. Robots.txt est un document public que n'importe qui peut lire à votredomaine.com/robots.txt en le tapant dans un navigateur. Lister un chemin là indique à chaque crawler, chaque concurrent, et chaque humain curieux que le chemin existe sur votre site. Pour les URLs de staging, les panneaux d'administration, ou les fichiers privés, c'est l'opposé de ce que vous voulez : vous venez de les annoncer. La vraie protection vient des contrôles côté serveur : authentification par mot de passe, listes d'autorisation IP, accès VPN uniquement, ou simplement ne pas exposer l'URL sur un serveur public du tout. Une balise meta noindex garde la page hors des résultats de recherche si la page est accessible mais que vous la voulez privée des chercheurs. Pour le contenu vraiment caché, ne créez pas de lien vers lui, ne le listez pas dans les sitemaps, et gardez-le avec auth. Utilisez robots.txt pour la mise en forme de la priorité de crawl sur les pages que vous ne dérangez pas être public. Auditez ce qui est exposé avec notre vérificateur de métadonnées et confirmez les règles robots avec notre vérificateur robots.txt.

Outils gratuits associés

Tous les outils →