Skip to content
Vérification en direct · récupère votre URL côté serveur

Sitemap Checker

Crawlez jusqu'à 200 URLs — codes de statut, doublons, pages orphelines, ancienneté de lastmod.

Un fichier sitemap.xml indique aux moteurs de recherche quelles pages existent et à quelle fréquence elles changent. La plupart des validateurs analysent le XML et s'arrêtent. Ce Sitemap Checker valide la structure, récupère les codes de statut HTTP pour chaque URL listée, détecte les doublons, signale les pages orphelines qui figurent dans votre sitemap mais ne sont pas liées depuis votre page d'accueil, et vérifie que les horodatages lastmod sont suffisamment récents pour justifier la priorité de crawl.

Generate the whole content, not just check it.

BlazeHive writes SEO articles end to end from a single keyword. Outline, draft, meta, schema, internal links. Free trial, no card.

Start with BlazeHive Free trial

Ce qu'un vérificateur de sitemap fait réellement

Un vérificateur de sitemap récupère votre fichier sitemap.xml, analyse chaque entrée <url>, extrait les balises <loc>, <lastmod>, <changefreq> et <priority>, puis effectue une requête HTTP HEAD sur chaque URL pour confirmer qu'elle retourne 200. Il signale les redirections, les 404, les erreurs serveur, vérifie les doublons d'URL et compare votre structure de sitemap par rapport à la spécification XML sitemap.

Si votre sitemap est un index de sitemap—un fichier qui liste d'autres fichiers sitemap au lieu d'URL individuelles—nous suivons chaque référence, récupérons chaque sitemap enfant et agrégeons les résultats. Une seule vérification couvre votre arborescence entière de sitemap jusqu'à 200 URL en mode complet ou 50 URL en mode exemple.

Trois catégories de problèmes apparaissent dans chaque audit de sitemap. Les URL cassées qui retournent 404 ou 500. Les URL dupliquées listées plus d'une fois, ce qui gaspille le budget de crawl. Et les URL orphelines qui apparaissent dans le sitemap mais n'ont zéro lien interne, ce qui signifie qu'un utilisateur ne peut pas les atteindre en cliquant sur votre site. Notre vérificateur signale les trois en une seule passe.

Comment utiliser ce vérificateur de sitemap

  1. Collez votre URL de sitemap dans Sitemap URL. Habituellement https://www.yourdomain.com/sitemap.xml ou https://www.yourdomain.com/sitemap_index.xml.
  2. Choisissez une Crawl depth dans le menu déroulant. Index only valide la structure XML sans récupérer les URL. All referenced sitemaps suit chaque sitemap listé dans un index. Sample 50 URLs vérifie les codes de statut pour 50 URL aléatoires. Full - up to 200 URLs vérifie chaque URL trouvée, jusqu'à la limite.
  3. Cliquez sur Check sitemap. Vous obtenez un tableau récapitulatif avec le total des URL, la ventilation des codes de statut, le nombre de doublons, l'âge moyen de lastmod et toute erreur de schéma XML.
  4. Développez Problem URLs pour voir une liste ligne par ligne des 404, 301, doublons et pages orphelines. Chaque ligne affiche l'URL, le statut, la date de lastmod et la correction recommandée.
  5. Cliquez sur Download CSV pour exporter le rapport complet. Utilisez-le pour corriger les problèmes en masse dans votre CMS ou transmettez-le à un développeur.

Essayez de vérifier un sitemap contenant plusieurs fichiers. Si votre index de sitemap liste cinq sous-sitemaps et que l'un retourne 404, nous signalons la référence cassée et ignorons ce fichier. Les quatre autres sont toujours vérifiés. Si vous avez un sitemap plat avec 10 000 URL, choisissez d'abord Sample 50 pour faire une vérification ponctuelle avant d'exécuter le crawl complet.

Pourquoi les codes de statut comptent plus que la validité XML

Un sitemap peut être un XML parfaitement valide et nuire à votre SEO. Si 30 URL retournent 404, Google gaspille le budget de crawl en récupérant des pages qui n'existent pas. Si 50 URL sont des redirections 301, Google doit suivre la redirection, ce qui double le nombre de requêtes et ralentit l'indexation. Si les URL retournent des erreurs 500, Google pourrait les supprimer de l'index entièrement.

Trois conséquences pratiques.

Budget de crawl. Google alloue un budget de crawl quotidien à chaque site en fonction de la vitesse du serveur, de l'autorité du site et de la demande de crawl. Chaque 404 ou redirection dans votre sitemap retranche de ce budget sans indexer de nouveau contenu. Nettoyer le sitemap avant de le soumettre à Search Console fait compter chaque crawl.

Couverture d'index. Les URL avec des codes de statut 4xx ou 5xx peuvent être exclues de l'index après des défaillances répétées. Si ces pages sont importantes—pages de produits, articles de blog avec des backlinks, pages d'accueil pour des campagnes payantes—vous perdez du trafic. Une vérification de sitemap détecte cela avant que les dégâts s'accumulent.

Précision de lastmod. La balise <lastmod> indique à Google quand une page a été mise à jour pour la dernière fois. Si chaque page a le même lastmod depuis trois ans, Google apprend que votre sitemap est obsolète et pourrait crawler moins souvent. Si lastmod est toujours « hier » même quand le contenu n'a pas changé, Google apprend à l'ignorer. Notre vérificateur signale l'âge moyen de lastmod et signale les motifs suspects.

URL dupliquées et incompatibilités canoniques

Une URL dupliquée dans un sitemap signifie généralement que la même loc apparaît deux fois, souvent avec une différence de barre oblique finale ou une incompatibilité de protocole. /page et /page/ sont des URL différentes pour un analyseur, même si votre serveur les traite comme identiques. http://example.com/page et https://example.com/page sont différents. Notre vérificateur normalise ces motifs et les signale comme des doublons probables.

Si votre sitemap liste /page mais que cette URL redirige vers /page/, la redirection gaspille une requête. Il est préférable de lister la destination finale dans le sitemap et de corriger la redirection au niveau du serveur. Nous affichons la chaîne de redirection et recommandons de lister la version avec le statut 200.

Les incompatibilités canoniques sont un problème connexe. Si votre sitemap inclut /page-a mais que cette page a une balise <link rel="canonical" href="/page-b">, Google voit un conflit. Le sitemap dit « indexez page-a » mais la page dit « je suis un doublon de page-b ». Google peut choisir d'ignorer l'entrée du sitemap. Exécutez un vérificateur canonique sur les URL signalées pour confirmer que le canonique correspond à la loc du sitemap.

Pages orphelines et crawlabilité

Une page orpheline est dans votre sitemap mais n'a pas de liens internes pointant vers elle. Un bot peut la trouver via le sitemap, mais un humain ne peut pas la atteindre en naviguant sur votre site. C'est courant après les migrations de contenu, quand d'anciennes URL restent dans le sitemap mais le menu de navigation a été mis à jour.

Les pages orphelines ne sont pas toujours mauvaises. Une page de destination pour une campagne d'annonces payantes peut être orpheline volontairement pour contrôler l'accès. Mais les articles de blog ou les pages de produits orphelines signalent un problème de structure du site. Si la page doit être accessible, ajoutez des liens internes. Si elle ne devrait pas exister, supprimez-la du sitemap et 301 la vers une page active.

Notre vérificateur détecte les pages orphelines probables en comparant les URL du sitemap à votre graphe de liens internes. Si une URL apparaît dans le sitemap mais n'a zéro lien entrant des pages que nous avons crawlées, nous la signalons. Cette heuristique détecte la plupart des pages orphelines sans nécessiter un crawl complet du site.

Erreurs courantes

  • Soumettre un index de sitemap à un outil qui s'attend à des sitemaps plats. La plupart des validateurs choquent sur les index ou testent seulement le fichier d'index lui-même. Le nôtre suit chaque référence, donc vous obtenez les résultats pour l'arborescence entière.
  • Lister des URL non canoniques. Chaque URL de votre sitemap doit être la version canonique. Ne listez pas la version www si le canonique est non-www. Ne listez pas http si le canonique est https. Utilisez d'abord votre vérificateur canonique si vous n'êtes pas sûr.
  • Inclure les URL bloquées par robots.txt. Si une URL est dans votre sitemap mais interdite dans robots.txt, Google ne peut pas la crawler. Cela crée un avertissement dans Search Console. Vérifiez robots.txt avec notre vérificateur robots.txt avant de déployer un nouveau sitemap.
  • Définir lastmod à la date de génération du sitemap, et non à la date de changement du contenu. Si votre CMS régénère le sitemap quotidiennement et horodate chaque URL d'aujourd'hui, Google cesse de faire confiance à lastmod. Remplissez lastmod à partir de l'horodatage updated-at réel de l'article.
  • Oublier de revérifier après une migration. Les anciennes URL restent souvent dans un sitemap après un déplacement vers une nouvelle plateforme. Si la moitié de votre sitemap retourne 404, Search Console affichera la baisse de couverture. Auditez le sitemap immédiatement après la migration.
  • Ne pas vérifier les sitemaps enfants individuellement. Si votre index de sitemap a un enfant cassé, vous pourriez ne pas le remarquer jusqu'à ce que les erreurs de crawl augmentent. Testez chaque URL de sitemap enfant isolément pour confirmer qu'elle retourne 200 et se parse correctement.

Conseils avancés

  • Exécutez d'abord une vérification d'exemple sur les grands sitemaps. Si l'exemple révèle un motif—chaque URL est 301, ou lastmod manque—corrigez-le avant de crawler tous les 10 000 URL. L'exemple vous donne un signal en 10 secondes au lieu de 5 minutes.
  • Comparez les dates de lastmod avec les dates de publication de votre CMS. Si un article a été mis à jour la semaine dernière mais lastmod remonte à six mois, votre script de génération de sitemap est cassé.
  • Vérifiez votre sitemap mensuellement, pas une fois. Le contenu devient obsolète, les redirections sont ajoutées, les URL sont dépubliées. Une vérification mensuelle détecte la dégradation avant que Google ne le fasse.
  • Si vous voyez une augmentation des 404, exportez le CSV et référencez-le avec vos journaux de serveur. Parfois, une URL est 404 dans le sitemap mais reçoit toujours du trafic depuis les backlinks, ce qui signifie qu'elle devrait être 301d au lieu d'être supprimée.
  • Testez le même sitemap à partir de deux user-agents différents (Chrome de bureau et Googlebot). Si les codes de statut diffèrent, votre serveur fait du cloaking ou retourne des réponses différentes aux bots, ce qui viole les directives de Google.
  • Si des doublons sont trouvés, vérifiez les balises canoniques. Une URL dupliquée avec une canonique pointant ailleurs peut rester dans le sitemap si c'est une variante régionale ou de langue. Si ce n'est pas une variante, supprimez-la.

Après avoir corrigé les problèmes de sitemap, validez que votre fichier robots.txt déclare correctement l'emplacement du sitemap avec une ligne Sitemap:. Utilisez le vérificateur robots.txt pour confirmer. Puis simulez comment Googlebot voit l'une de vos pages avec le simulateur de crawling Google pour confirmer que l'URL se charge, que JavaScript s'exécute et que le contenu est visible. Si vous vérifiez les métadonnées aux côtés des sitemaps, le vérificateur de métadonnées de site affiche votre titre, meta et balises OG tels qu'ils apparaissent dans les SERPs.

Generate the whole content, not just check it.

BlazeHive writes SEO articles end to end from a single keyword. Outline, draft, meta, schema, internal links. Free trial, no card.

Start with BlazeHive Free trial

Questions fréquemment posées

Qu'est-ce qu'un sitemap ?

Un sitemap est un fichier XML listant chaque URL que vous souhaitez que les moteurs de recherche crawlent et indexent. Il réside à yoursite.com/sitemap.xml et agit comme un annuaire pour les crawlers, particulièrement utile pour les gros sites, les nouveaux sites avec peu de backlinks, ou les sites avec une navigation profonde où les pages se trouvent à cinq clics ou plus de la page d'accueil. Les sitemaps ne garantissent pas l'indexation. Google décide toujours si une page vaut la peine d'être indexée en fonction de la qualité et de la duplication. Sans sitemap, Google s'appuie sur les liens internes et les backlinks externes pour trouver les pages, ce qui peut prendre des semaines ou même des mois pour le nouveau contenu. Avec un sitemap, vous dites à Google que la page existe et quand elle a été mise à jour pour la dernière fois, ce qui accélère la découverte et aide à prioriser le contenu frais. Notre vérificateur de sitemap récupère votre sitemap.xml, parse la structure, valide la syntaxe XML, vérifie les codes de statut HTTP pour chaque URL listée, signale les doublons et détecte les pages orphelines (pages dans votre sitemap mais inaccessibles via les liens internes). Utilisez-le après le lancement d'un nouveau site, après une migration, ou trimestriellement pour détecter les régressions.

Comment vérifier si mon site Web a un sitemap ?

Essayez trois emplacements. D'abord, ajoutez /sitemap.xml à votre domaine (yourdomain.com/sitemap.xml) et voyez s'il se charge. La plupart des CMS génèrent un sitemap à ce chemin automatiquement. Si vous voyez du XML avec une liste d'URL, c'est votre sitemap. Deuxièmement, vérifiez robots.txt à yourdomain.com/robots.txt pour une ligne commençant par Sitemap: suivie d'une URL. De nombreux sites déclarent l'emplacement de leur sitemap ici. Troisièmement, connectez-vous à Google Search Console, allez à Sitemaps sous Index, et voyez quelles URL de sitemap vous avez soumises. C'est la liste faisant autorité que Google utilise pour prioriser le crawling. Si vous trouvez une URL de sitemap, collez-la dans notre champ Sitemap URL pour valider la structure, confirmer que tous les codes de statut d'URL retournent 200 et repérer les doublons ou les pages orphelines. Si aucune de ces méthodes ne trouve un sitemap, vous n'en avez probablement pas. C'est correct pour les sites de moins de 50 pages mais c'est un problème pour les plus grands. Générez-en un en utilisant votre plugin CMS (Yoast, Rank Math, next-sitemap), puis soumettez-le à Search Console pour accélérer l'indexation.

Quels sont les trois types de sitemaps ?

Les trois types sont les sitemaps XML (pour les moteurs de recherche), les sitemaps HTML (pour les utilisateurs) et les sitemaps visuels (pour les concepteurs). Les sitemaps XML sont des fichiers lisibles par machine au format XML qui listent les URL, les dates de dernière modification, la fréquence de mise à jour et la priorité. Les moteurs de recherche les utilisent pour découvrir et prioriser les pages. Ils résident à /sitemap.xml et ne sont pas destinés à être consultés par l'homme. Les sitemaps HTML sont des pages lisibles par l'homme avec des liens vers chaque section majeure de votre site, organisées hiérarchiquement. Elles aident les utilisateurs à naviguer dans les gros sites et fournissent des liens internes. Elles résident à des URL comme /sitemap et sont souvent liées depuis le pied de page. Les sitemaps visuels sont des diagrammes (dans Figma, Miro, Sketch) qui cartographient la hiérarchie des pages, les flux des utilisateurs et la navigation avant la construction d'un site. Ce sont des artefacts de planification, pas des pages en direct. La plupart des sites ont besoin d'un sitemap XML (requis pour le SEO) et bénéficient d'un sitemap HTML s'il y a plus de 100 pages. Les sitemaps visuels sont pour la phase de conception. Notre vérificateur valide uniquement les sitemaps XML. La plupart des CMS les génèrent automatiquement. Pour les sites statiques, utilisez next-sitemap ou astro-sitemap.

Comment valider un sitemap ?

Valider un sitemap signifie vérifier la structure XML, l'accessibilité des URL, la précision des métadonnées et les limites de protocole. D'abord, confirmez que le XML est bien formé avec la bonne déclaration d'espace de noms (attribut xmlns pointant vers sitemaps.org). Un XML mal formé fait que les analyseurs rejettent le fichier entier. Deuxièmement, vérifiez que chaque URL retourne un code de statut 200, pas un 301, 404 ou erreur 5xx. Les moteurs de recherche peuvent toujours crawler les URL redirigées ou cassées, mais ils les déprioritisent. Troisièmement, vérifiez que les URL utilisent des chemins absolus (https://example.com/page, pas /page) et correspondent à votre domaine canonique (www ou non-www, pas mélangé). Quatrièmement, confirmez que la taille du fichier est inférieure à 50 Mo décompressé avec moins de 50 000 URL. Si vous dépassez l'un ou l'autre, divisez en plusieurs sitemaps et utilisez un fichier d'index de sitemap. Cinquièmement, validez que les dates lastmod utilisent le format W3C (YYYY-MM-DD ou ISO 8601). Notre outil automatise les cinq : collez votre Sitemap URL, choisissez crawl depth (index only, all referenced sitemaps, ou sample), et nous retournons les codes de statut, les doublons, les avertissements lastmod manquants et une exportation CSV des problèmes.

Google a-t-il un générateur de sitemap ?

Google offrait autrefois un générateur de sitemap (Google Sitemap Generator) pour Apache et IIS, mais il a été déprécié il y a des années. Vous n'en avez plus besoin. Presque tous les CMS modernes et les frameworks statiques génèrent des sitemaps automatiquement. WordPress (via Yoast SEO, Rank Math, ou sitemap principal depuis 5.5), Shopify (intégré), Webflow (intégré), Squarespace (intégré), Wix (intégré), Next.js (via next-sitemap), Astro (via astro-sitemap), Gatsby (via gatsby-plugin-sitemap) et Hugo (intégré) créent tous et mettent à jour les sitemaps XML sans travail manuel. Pour les sites personnalisés, utilisez des bibliothèques open-source comme sitemap.js (Node.js), django-sitemap (Python) ou un script de construction. Une fois que vous avez un sitemap, soumettez-le à Google Search Console sous Sitemaps. Google le crawlera périodiquement. Vous pouvez faire un ping à Google manuellement après avoir ajouté des URL en envoyant une requête GET à google.com/ping?sitemap=yoursitemapurl, bien que la plupart des CMS le fassent automatiquement. Utilisez notre vérificateur de sitemap pour valider le sitemap avant de le soumettre à Search Console.

À quelle fréquence dois-je mettre à jour mon sitemap ?

Mettez à jour votre sitemap chaque fois que vous publiez, dépubliez ou modifiez considérablement une page. La plupart des CMS et des générateurs statiques gèrent cela automatiquement. Les plugins WordPress régénèrent le sitemap à chaque publication de message, Shopify le met à jour quand les produits changent, et les frameworks statiques reconstruisent le sitemap lors de chaque déploiement. Si vous gérez manuellement (rare sur les sites personnalisés), régénérez-le hebdomadairement ou après des lots de contenu. Le champ lastmod indique aux moteurs de recherche quand une page a changé, ce qui les aide à prioriser le contenu frais par rapport au contenu obsolète. Si vous ne mettez jamais à jour lastmod ou définissez la même date pour chaque URL, les moteurs de recherche l'ignorent et font appel à la découverte de liens et au budget de crawl. Pour les éditeurs quotidiens (nouvelles, blogs, e-commerce avec changements d'inventaire), les sitemaps dynamiques qui régénèrent lors de la publication sont essentiels. Pour les éditeurs mensuels ou trimestriels, un sitemap statique régénéré lors du déploiement est correct. Ne laissez pas votre sitemap lister les URL qui 404, redirigent ou sont bloquées par robots.txt. Cela gaspille le budget de crawl et signale une faible qualité du site. Utilisez notre vérificateur après les changements majeurs (migration, restructuration d'URL, changements de contenu en masse).

Quelle est la différence entre un sitemap et robots.txt ?

Robots.txt indique aux crawlers quelles parties de votre site ils sont autorisés ou non à accéder. Un sitemap indique aux crawlers quelles pages vous souhaitez qu'ils priorisent le crawling. Ils servent des objectifs différents et travaillent ensemble. Robots.txt réside à yourdomain.com/robots.txt, utilise la syntaxe en texte brut avec les directives User-agent, Allow et Disallow, et bloque ou autorise l'accès aux chemins, fichiers ou répertoires. Il déclare où réside votre sitemap via une directive Sitemap:. Robots.txt est crawlé en premier. Si vous interdisez accidentellement votre site entier, les crawlers s'arrêtent immédiatement et ne voient jamais votre sitemap. Un sitemap réside à yourdomain.com/sitemap.xml, utilise la syntaxe XML et liste les URL que vous souhaitez crawler avec des métadonnées comme lastmod et priority. Il ne contrôle pas l'accès. Il suggère ce qu'il faut crawler. Les crawlers peuvent ignorer votre sitemap s'ils trouvent des pages via des liens, mais ils ne peuvent pas contourner robots.txt. Utilisez robots.txt pour bloquer les panneaux d'administration, les environnements de staging et les crawlers indésirables. Utilisez un sitemap pour lister chaque page indexable.

Un sitemap peut-il améliorer mon SEO ?

Un sitemap n'améliore pas directement les classements, mais il supprime les frictions de découverte, ce qui aide indirectement le SEO en s'assurant que les pages nouvelles et mises à jour sont crawlées plus rapidement. Sans sitemap, Google s'appuie sur les liens internes et les backlinks externes pour trouver les pages, ce qui peut prendre des semaines pour le nouveau contenu, en particulier sur les gros sites ou les sites avec un linking interne faible. Avec un sitemap, vous dites à Google que la page existe et quand elle a été mise à jour pour la dernière fois, ce qui accélère l'indexation. C'est important pour les nouveaux sites avec peu de backlinks, les sites avec des hiérarchies de pages profondes (pages enfouies à cinq clics de la page d'accueil), les sites avec des pages orphelines et les sites qui publient fréquemment (blogs, actualités, e-commerce). Un sitemap aide à l'efficacité du budget de crawl. Au lieu de découvrir des pages via le crawl de liens, Google lit votre sitemap et sait ce qu'il faut prioriser. Cependant, un sitemap ne peut pas forcer Google à indexer les pages de faible qualité, dupliquées ou minces. Si une page est dans votre sitemap mais toujours non indexée, le problème est généralement la qualité du contenu, la canonicalisation ou les balises meta robots.

Que ne doit pas être dans un sitemap ?

Un sitemap ne doit lister que les URL que vous souhaitez indexer, donc excluez tout ce qui est bloqué par robots.txt, marqué avec noindex, redirigé vers une autre URL, retournant 404 ou erreurs 5xx, ou canonicalisé vers une autre URL. Inclure ceux-ci gaspille le budget de crawl et signale une mauvaise maintenance du site. Ne pas inclure les pages d'administration, les pages de connexion, les pages de paiement ou les tableaux de bord de comptes utilisateur (habituellement bloqués par robots.txt ou noindex). Ne pas inclure les URL de paramètres (comme ?sort=price ou ?page=2) si vous utilisez les balises canoniques pour les consolider. Ne pas inclure les environnements de staging ou de test. Ne pas inclure les URL qui redirigent (301 ou 302). Listez la destination finale à la place. Ne pas inclure les URL avec les balises meta noindex ou les en-têtes X-Robots-Tag. Ne pas inclure les URL paginées à moins que chaque page ait un contenu unique qui vaut la peine d'être indexé. La plupart des sites e-commerce ne devraient inclure que la page 1, avec les balises rel=next/prev ou canoniques gérant le reste. Ne pas inclure les URL de contenu dupliqué. Utilisez les balises canoniques pour consolider les doublons, puis listez uniquement la version canonique.

Comment corriger les erreurs de sitemap ?

Les erreurs de sitemap se divisent en trois groupes : structurels (XML mal formé, espace de noms incorrect, fichier trop volumineux), au niveau des URL (404, redirections, pages noindex) et problèmes de métadonnées (lastmod manquant, formats de date incorrects). Corrigez d'abord les erreurs structurelles. Elles empêchent les crawlers de parser le fichier. Ouvrez votre sitemap dans un navigateur ou un validateur XML, confirmez qu'il commence par la bonne déclaration XML et l'espace de noms (xmlns="http://www.sitemaps.org/schemas/sitemap/0.9") et vérifiez que chaque balise d'ouverture a une balise de fermeture correspondante. Si votre sitemap dépasse 50 Mo ou 50 000 URL, divisez-le en plusieurs fichiers et créez un fichier d'index de sitemap. Corrigez les erreurs au niveau des URL en supprimant ou en remplaçant les entrées cassées. Supprimez toute URL qui retourne 404, remplacez les URL redirigées par leur destination finale, supprimez les URL avec les balises noindex et confirmez que chaque URL correspond à votre domaine canonique (www ou non-www, pas mélangé). Corrigez les problèmes de métadonnées en vous assurant que les dates lastmod utilisent le format ISO 8601 (YYYY-MM-DD ou YYYY-MM-DDTHH:MM:SS+00:00). Supprimez lastmod entièrement si votre CMS ne peut pas le garder précis. Après la correction, revalidez avec notre outil et resoumettez à Google Search Console.

Outils gratuits associés

Tous les outils →