Question 1

Qu'est-ce qu'un fichier robots.txt ?

Accepted Answer

Un fichier robots.txt est un fichier texte brut à la racine de votre domaine qui indique aux crawlers quels chemins ils peuvent et ne peuvent pas demander. Il vit à exactement une seule location : /robots.txt. Googlebot le vérifie avant chaque crawl, et tout comme Bingbot, GPTBot (OpenAI), ClaudeBot (Anthropic), CCBot (Common Crawl), PerplexityBot, et Google-Extended. Le fichier utilise une grammaire simple. Vous écrivez un ou plusieurs blocs User-agent, chacun suivi de règles Allow et Disallow. Une ligne Sitemap près du haut pointe les crawlers vers votre index XML pour qu'ils n'aient pas à deviner la structure. Collez n'importe quelle URL de site dans notre vérificateur robots.txt , choisissez un User-agent , et vous verrez la table des règles parsées plus quelle règle gagne pour ce bot spécifique sur ce chemin spécifique. Si vous n'avez pas encore de fichier, générez-en un avec notre générateur robots.txt et le preset CMS correct intégré.

Question 2

Qu'est-ce qu'un vérificateur robots.txt teste réellement ?

Accepted Answer

Un vérificateur robots.txt réel fait quatre choses. Il récupère le fichier et confirme qu'il est accessible avec un statut 200 et le bon type de contenu. Il parse la syntaxe pour que vous attrapiez les typos qui cassent silencieusement les règles : mauvaise capitalisation sur User-agent, deux-points manquants, caractères BOM errants au début du fichier. Il résout un chemin spécifique pour un bot spécifique pour que vous puissiez répondre à "est-ce que /admin est bloqué pour GPTBot en ce moment ?" sans deviner. Et il détecte les conflits d'ordre de règle où deux bots héritent de règles différentes à partir de blocs User-agent qui se chevauchent. La plupart des vérificateurs gratuits s'arrêtent à l'étape un. Le nôtre exécute l'ensemble complet. Définissez Site URL , choisissez le bot dans User-agent , déposez un optionnel Test path , et vous obtenez un verdict par règle. Quand vous livrez un correctif, confirmez le changement avec un deuxième passage dans le vérificateur avant de passer à d'autres travaux.

Question 3

Où trouver mon fichier robots.txt ?

Accepted Answer

Tapez votre domaine suivi de /robots.txt dans n'importe quel navigateur. Si https://www.example.com/robots.txt retourne un 200 et affiche du texte brut, vous en avez un. S'il retourne 404 ou votre page d'accueil CMS, vous n'en avez pas. Le fichier doit se trouver à la racine exacte du domaine. Les chemins de sous-répertoire comme /blog/robots.txt sont complètement ignorés par chaque crawler. Les sous-domaines sont séparés : blog.example.com et www.example.com ont chacun besoin de leur propre fichier à leur propre racine. Les sites WordPress ont généralement un virtuel généré par le plugin SEO ; Shopify en génère un automatiquement et en verrouille la majeure partie ; Next.js et Astro ont besoin que vous livriez un fichier statique sous /public. Si vous n'êtes pas sûr de ce que les crawlers voient réellement, collez votre URL dans notre vérificateur robots.txt et nous la récupérons avec les en-têtes exacts qu'un vrai bot envoie pour que le résultat correspond à la réalité du crawler. Pour une réécriture propre avec les presets CMS intégrés, utilisez le générateur .

Question 4

Comment corriger une erreur "bloqué par robots.txt" dans Search Console ?

Accepted Answer

Search Console signale "bloqué par robots.txt" quand une règle Disallow couvre l'URL que Google a tenté de crawler. Ouvrez l'outil URL Inspection pour voir quelle règle Google a correspond. Ensuite, exécutez la même URL via notre vérificateur robots.txt avec User-agent défini sur Googlebot et le chemin bloqué collé dans Test path . Le vérificateur montre vous la règle exacte qui a correspondu et le bloc User-agent dont elle provient, pour que vous puissiez corriger la source au lieu de deviner. Trois correctifs couvrent presque chaque cas. Supprimez la ligne Disallow offensante. Affinez-la avec un chemin plus spécifique. Ou ajoutez une règle Allow au-dessus (la correspondance plus longue gagne sur le chevauchement). Livrez le changement, testez le même chemin à nouveau dans le vérificateur, puis demandez l'indexation dans Search Console. Si les pages semblent toujours bloquées, la copie mise en cache de Google pourrait être en jeu ; elle rafraîchit robots.txt environ toutes les 24 heures.

Question 5

Dois-je bloquer les crawlers IA dans robots.txt ?

Accepted Answer

Cela dépend de ce que vous optimisez. Bloquez-les si votre contenu est le produit : éditeurs, recherche payante, archives d'abonnement, n'importe quoi où les données d'entraînement gratuites font du mal aux affaires. Autorisez-les si vous voulez être cité dans les réponses de ChatGPT et Claude, où être la source citée génère du trafic de renvoi vers votre site. La liste 2026 qui vaut la peine d'être nommée explicitement : GPTBot (OpenAI), ClaudeBot et anthropic-ai (Anthropic), CCBot (Common Crawl, qui entraîne de nombreux modèles), PerplexityBot, et Google-Extended (contrôle l'utilisation d'entraînement des pages crawlées par Googlebot sans affecter vos classements dans la recherche Google normale). Notre générateur robots.txt vous donne une case à cocher par crawler pour que vous décidiez par bot, pas par tout. Après votre livraison, testez chacun avec notre vérificateur par rapport à un chemin réel pour confirmer que la règle se résout comme vous l'attendez pour ce bot. La plupart des bugs proviennent des conflits d'ordre de règle entre les blocs User-agent qui se chevauchent, pas les entrées manquantes.

Question 6

Comment un fichier robots.txt doit-il être structuré ?

Accepted Answer

Commencez avec une ligne Sitemap pointant vers votre index XML. Ensuite, groupez les règles par User-agent. Le bloc wildcard (User-agent: *) attrape chaque bot non nommé ailleurs, donc mettez-le en dernier. Au-dessus, ajoutez des blocs nommés pour les bots que vous voulez traiter différemment : Googlebot, Bingbot, GPTBot, ClaudeBot, CCBot, PerplexityBot, Google-Extended. Chaque bloc peut avoir plusieurs lignes Allow et Disallow. La correspondance plus longue et plus spécifique gagne quand les règles se chevauchent. Gardez les chemins sensibles à la casse : Disallow: /Admin ne bloque pas /admin. Listez un Sitemap par domaine, déclaré une fois près du haut. Gardez le fichier sous 500 KB ou Google commence à ignorer les lignes au-delà de ce point. Notre générateur robots.txt échafaude tout cela pour vous avec un preset CMS et des bascules pour les crawlers IA. Une fois que vous publiez, vérifiez que la structure parse correctement avec notre vérificateur par rapport à une poignée d'URLs réelles et chaque bot nommé avant de fermer le ticket.

Question 7

Quelle est la différence entre Disallow et noindex ?

Accepted Answer

Disallow dans robots.txt dit à un bot de ne pas crawler une URL. Cela ne dit pas au bot de ne pas l'indexer. Si un autre site renvoie vers une page Disallowed, Google peut toujours lister l'URL dans les résultats de recherche avec "pas de description disponible" en dessous. Pour vraiment garder une page hors de l'index, utilisez une balise meta robots noindex sur la page elle-même, ou un en-tête X-Robots-Tag noindex dans la réponse HTTP. L'attrape : Google doit crawler la page pour voir la balise noindex. Donc si vous à la fois Disallow et noindex, noindex ne prend jamais effet et la page s'attarde dans les résultats. Choisissez-en un par page. Disallow est pour la priorité de crawl (bloquer admin, recherche interne, URLs de filtre). Noindex est pour garder le contenu complètement hors des résultats. Pour un audit complet au niveau de la page des directives robots, utilisez notre simulateur de crawler aux côtés du vérificateur de métadonnées de site web .

Question 8

Est-ce que robots.txt fonctionne toujours en 2026 ?

Accepted Answer

Oui, pour les crawlers qui choisissent de le respecter. Googlebot, Bingbot, et les crawlers IA majeurs (GPTBot, ClaudeBot, PerplexityBot, CCBot, Google-Extended) respectent tous robots.txt comme une question de politique. Les scrapeurs voyous l'ignorent parce que le fichier est une requête polie, pas un pare-feu. Si vous avez besoin d'un blocage dur, ajoutez des règles côté serveur : listes de refus IP, gestion des bots Cloudflare, limitation de débit, ou authentification devant les chemins sensibles. Utilisez robots.txt pour ce qu'il fait bien : façonner quelles pages les bots qui vous intéressent dépensent leur priorité de crawl sur. La différence 2026 est l'IA. Il y a cinq ans, "les bots" signifiaient Google et Bing. Aujourd'hui la liste est plus longue et chaque crawler IA utilise un nom User-agent différent. Notre vérificateur teste n'importe lequel d'eux en un clic pour que vous puissiez voir exactement ce que chaque bot voit. Appairez-le avec notre simulateur de crawler pour une vue de page rendue.

Question 9

Puis-je utiliser des wildcards dans robots.txt ?

Accepted Answer

Oui, deux wildcards sont supportés et compris par tous les bots majeurs. L'astérisque ( ) correspond à n'importe quelle séquence de caractères, et le signe dollar ($) ancre le motif à la fin d'une URL. Disallow: / .pdf$ bloque chaque URL se terminant par .pdf. Disallow: / ?sort= bloque n'importe quelle URL avec un paramètre sort n'importe où dedans. Combinez-les : Disallow: /search? &page=$ bloque les résultats de recherche interne paginés mais laisse la page de recherche principale crawlable. Les wildcards ne fonctionnent pas dans les lignes User-agent, donc vous ne pouvez pas écrire User-agent: Google* et atteindre chaque bot Google. Nommez-en chacun explicitement (Googlebot, Googlebot-Image, Googlebot-News). La correspondance littérale plus longue gagne sur une correspondance de motif plus courte. Testez les règles wildcard avec un chemin concret dans notre vérificateur parce que les modèles mentaux s'effondrent vite avec les paramètres imbriqués, les chaînes de requête, et les motifs qui se chevauchent et qui semblent bien sur papier. Pour une ligne de base propre, générez-en un avec notre générateur et itérez à partir de là avec des chemins de test.

Question 10

Est-ce que robots.txt protégera les pages sensibles ?

Accepted Answer

Non. Robots.txt est un document public que n'importe qui peut lire à votredomaine.com/robots.txt en le tapant dans un navigateur. Lister un chemin là indique à chaque crawler, chaque concurrent, et chaque humain curieux que le chemin existe sur votre site. Pour les URLs de staging, les panneaux d'administration, ou les fichiers privés, c'est l'opposé de ce que vous voulez : vous venez de les annoncer. La vraie protection vient des contrôles côté serveur : authentification par mot de passe, listes d'autorisation IP, accès VPN uniquement, ou simplement ne pas exposer l'URL sur un serveur public du tout. Une balise meta noindex garde la page hors des résultats de recherche si la page est accessible mais que vous la voulez privée des chercheurs. Pour le contenu vraiment caché, ne créez pas de lien vers lui, ne le listez pas dans les sitemaps, et gardez-le avec auth. Utilisez robots.txt pour la mise en forme de la priorité de crawl sur les pages que vous ne dérangez pas être public. Auditez ce qui est exposé avec notre vérificateur de métadonnées et confirmez les règles robots avec notre vérificateur robots.txt .

Robots.txt Checker

Generate the whole content, not just check it.

Ce qu'un vérificateur robots.txt fait réellement

Comment utiliser ce vérificateur robots.txt

Pourquoi tester par user-agent est important

Priorité des règles et wildcards

Validation du sitemap et directives de crawl

Erreurs de syntaxe et cas limites de validation

Erreurs courantes

Conseils avancés

Generate the whole content, not just check it.

Questions fréquemment posées

Outils gratuits associés