Ce qu'un vérificateur de sitemap fait réellement
Un vérificateur de sitemap récupère votre fichier sitemap.xml, analyse chaque entrée <url>, extrait les balises <loc>, <lastmod>, <changefreq> et <priority>, puis effectue une requête HTTP HEAD sur chaque URL pour confirmer qu'elle retourne 200. Il signale les redirections, les 404, les erreurs serveur, vérifie les doublons d'URL et compare votre structure de sitemap par rapport à la spécification XML sitemap.
Si votre sitemap est un index de sitemap—un fichier qui liste d'autres fichiers sitemap au lieu d'URL individuelles—nous suivons chaque référence, récupérons chaque sitemap enfant et agrégeons les résultats. Une seule vérification couvre votre arborescence entière de sitemap jusqu'à 200 URL en mode complet ou 50 URL en mode exemple.
Trois catégories de problèmes apparaissent dans chaque audit de sitemap. Les URL cassées qui retournent 404 ou 500. Les URL dupliquées listées plus d'une fois, ce qui gaspille le budget de crawl. Et les URL orphelines qui apparaissent dans le sitemap mais n'ont zéro lien interne, ce qui signifie qu'un utilisateur ne peut pas les atteindre en cliquant sur votre site. Notre vérificateur signale les trois en une seule passe.
Comment utiliser ce vérificateur de sitemap
- Collez votre URL de sitemap dans Sitemap URL. Habituellement
https://www.yourdomain.com/sitemap.xmlouhttps://www.yourdomain.com/sitemap_index.xml. - Choisissez une Crawl depth dans le menu déroulant. Index only valide la structure XML sans récupérer les URL. All referenced sitemaps suit chaque sitemap listé dans un index. Sample 50 URLs vérifie les codes de statut pour 50 URL aléatoires. Full - up to 200 URLs vérifie chaque URL trouvée, jusqu'à la limite.
- Cliquez sur Check sitemap. Vous obtenez un tableau récapitulatif avec le total des URL, la ventilation des codes de statut, le nombre de doublons, l'âge moyen de lastmod et toute erreur de schéma XML.
- Développez Problem URLs pour voir une liste ligne par ligne des 404, 301, doublons et pages orphelines. Chaque ligne affiche l'URL, le statut, la date de lastmod et la correction recommandée.
- Cliquez sur Download CSV pour exporter le rapport complet. Utilisez-le pour corriger les problèmes en masse dans votre CMS ou transmettez-le à un développeur.
Essayez de vérifier un sitemap contenant plusieurs fichiers. Si votre index de sitemap liste cinq sous-sitemaps et que l'un retourne 404, nous signalons la référence cassée et ignorons ce fichier. Les quatre autres sont toujours vérifiés. Si vous avez un sitemap plat avec 10 000 URL, choisissez d'abord Sample 50 pour faire une vérification ponctuelle avant d'exécuter le crawl complet.
Pourquoi les codes de statut comptent plus que la validité XML
Un sitemap peut être un XML parfaitement valide et nuire à votre SEO. Si 30 URL retournent 404, Google gaspille le budget de crawl en récupérant des pages qui n'existent pas. Si 50 URL sont des redirections 301, Google doit suivre la redirection, ce qui double le nombre de requêtes et ralentit l'indexation. Si les URL retournent des erreurs 500, Google pourrait les supprimer de l'index entièrement.
Trois conséquences pratiques.
Budget de crawl. Google alloue un budget de crawl quotidien à chaque site en fonction de la vitesse du serveur, de l'autorité du site et de la demande de crawl. Chaque 404 ou redirection dans votre sitemap retranche de ce budget sans indexer de nouveau contenu. Nettoyer le sitemap avant de le soumettre à Search Console fait compter chaque crawl.
Couverture d'index. Les URL avec des codes de statut 4xx ou 5xx peuvent être exclues de l'index après des défaillances répétées. Si ces pages sont importantes—pages de produits, articles de blog avec des backlinks, pages d'accueil pour des campagnes payantes—vous perdez du trafic. Une vérification de sitemap détecte cela avant que les dégâts s'accumulent.
Précision de lastmod. La balise <lastmod> indique à Google quand une page a été mise à jour pour la dernière fois. Si chaque page a le même lastmod depuis trois ans, Google apprend que votre sitemap est obsolète et pourrait crawler moins souvent. Si lastmod est toujours « hier » même quand le contenu n'a pas changé, Google apprend à l'ignorer. Notre vérificateur signale l'âge moyen de lastmod et signale les motifs suspects.
URL dupliquées et incompatibilités canoniques
Une URL dupliquée dans un sitemap signifie généralement que la même loc apparaît deux fois, souvent avec une différence de barre oblique finale ou une incompatibilité de protocole. /page et /page/ sont des URL différentes pour un analyseur, même si votre serveur les traite comme identiques. http://example.com/page et https://example.com/page sont différents. Notre vérificateur normalise ces motifs et les signale comme des doublons probables.
Si votre sitemap liste /page mais que cette URL redirige vers /page/, la redirection gaspille une requête. Il est préférable de lister la destination finale dans le sitemap et de corriger la redirection au niveau du serveur. Nous affichons la chaîne de redirection et recommandons de lister la version avec le statut 200.
Les incompatibilités canoniques sont un problème connexe. Si votre sitemap inclut /page-a mais que cette page a une balise <link rel="canonical" href="/page-b">, Google voit un conflit. Le sitemap dit « indexez page-a » mais la page dit « je suis un doublon de page-b ». Google peut choisir d'ignorer l'entrée du sitemap. Exécutez un vérificateur canonique sur les URL signalées pour confirmer que le canonique correspond à la loc du sitemap.
Pages orphelines et crawlabilité
Une page orpheline est dans votre sitemap mais n'a pas de liens internes pointant vers elle. Un bot peut la trouver via le sitemap, mais un humain ne peut pas la atteindre en naviguant sur votre site. C'est courant après les migrations de contenu, quand d'anciennes URL restent dans le sitemap mais le menu de navigation a été mis à jour.
Les pages orphelines ne sont pas toujours mauvaises. Une page de destination pour une campagne d'annonces payantes peut être orpheline volontairement pour contrôler l'accès. Mais les articles de blog ou les pages de produits orphelines signalent un problème de structure du site. Si la page doit être accessible, ajoutez des liens internes. Si elle ne devrait pas exister, supprimez-la du sitemap et 301 la vers une page active.
Notre vérificateur détecte les pages orphelines probables en comparant les URL du sitemap à votre graphe de liens internes. Si une URL apparaît dans le sitemap mais n'a zéro lien entrant des pages que nous avons crawlées, nous la signalons. Cette heuristique détecte la plupart des pages orphelines sans nécessiter un crawl complet du site.
Erreurs courantes
- Soumettre un index de sitemap à un outil qui s'attend à des sitemaps plats. La plupart des validateurs choquent sur les index ou testent seulement le fichier d'index lui-même. Le nôtre suit chaque référence, donc vous obtenez les résultats pour l'arborescence entière.
- Lister des URL non canoniques. Chaque URL de votre sitemap doit être la version canonique. Ne listez pas la version www si le canonique est non-www. Ne listez pas http si le canonique est https. Utilisez d'abord votre vérificateur canonique si vous n'êtes pas sûr.
- Inclure les URL bloquées par robots.txt. Si une URL est dans votre sitemap mais interdite dans robots.txt, Google ne peut pas la crawler. Cela crée un avertissement dans Search Console. Vérifiez robots.txt avec notre vérificateur robots.txt avant de déployer un nouveau sitemap.
- Définir lastmod à la date de génération du sitemap, et non à la date de changement du contenu. Si votre CMS régénère le sitemap quotidiennement et horodate chaque URL d'aujourd'hui, Google cesse de faire confiance à lastmod. Remplissez lastmod à partir de l'horodatage updated-at réel de l'article.
- Oublier de revérifier après une migration. Les anciennes URL restent souvent dans un sitemap après un déplacement vers une nouvelle plateforme. Si la moitié de votre sitemap retourne 404, Search Console affichera la baisse de couverture. Auditez le sitemap immédiatement après la migration.
- Ne pas vérifier les sitemaps enfants individuellement. Si votre index de sitemap a un enfant cassé, vous pourriez ne pas le remarquer jusqu'à ce que les erreurs de crawl augmentent. Testez chaque URL de sitemap enfant isolément pour confirmer qu'elle retourne 200 et se parse correctement.
Conseils avancés
- Exécutez d'abord une vérification d'exemple sur les grands sitemaps. Si l'exemple révèle un motif—chaque URL est 301, ou lastmod manque—corrigez-le avant de crawler tous les 10 000 URL. L'exemple vous donne un signal en 10 secondes au lieu de 5 minutes.
- Comparez les dates de lastmod avec les dates de publication de votre CMS. Si un article a été mis à jour la semaine dernière mais lastmod remonte à six mois, votre script de génération de sitemap est cassé.
- Vérifiez votre sitemap mensuellement, pas une fois. Le contenu devient obsolète, les redirections sont ajoutées, les URL sont dépubliées. Une vérification mensuelle détecte la dégradation avant que Google ne le fasse.
- Si vous voyez une augmentation des 404, exportez le CSV et référencez-le avec vos journaux de serveur. Parfois, une URL est 404 dans le sitemap mais reçoit toujours du trafic depuis les backlinks, ce qui signifie qu'elle devrait être 301d au lieu d'être supprimée.
- Testez le même sitemap à partir de deux user-agents différents (Chrome de bureau et Googlebot). Si les codes de statut diffèrent, votre serveur fait du cloaking ou retourne des réponses différentes aux bots, ce qui viole les directives de Google.
- Si des doublons sont trouvés, vérifiez les balises canoniques. Une URL dupliquée avec une canonique pointant ailleurs peut rester dans le sitemap si c'est une variante régionale ou de langue. Si ce n'est pas une variante, supprimez-la.
Après avoir corrigé les problèmes de sitemap, validez que votre fichier robots.txt déclare correctement l'emplacement du sitemap avec une ligne Sitemap:. Utilisez le vérificateur robots.txt pour confirmer. Puis simulez comment Googlebot voit l'une de vos pages avec le simulateur de crawling Google pour confirmer que l'URL se charge, que JavaScript s'exécute et que le contenu est visible. Si vous vérifiez les métadonnées aux côtés des sitemaps, le vérificateur de métadonnées de site affiche votre titre, meta et balises OG tels qu'ils apparaissent dans les SERPs.