Skip to content
Controllo in tempo reale · scarica il tuo URL lato server

Sitemap Checker

Scansiona fino a 200 URL — codici di stato, duplicati, orfani, età di lastmod.

Un file sitemap.xml dice ai motori di ricerca quali pagine esistono e con che frequenza cambiano. La maggior parte dei validatori analizza l'XML e si ferma. Questo sitemap checker valida la struttura, recupera i codici di stato HTTP per ogni URL elencato, rileva i duplicati, contrassegna gli orfani che si trovano nel tuo sitemap ma non sono collegati dalla tua homepage, e verifica se i timestamp lastmod sono abbastanza recenti da giustificare la priorità di crawl.

Generate the whole content, not just check it.

BlazeHive writes SEO articles end to end from a single keyword. Outline, draft, meta, schema, internal links. Free trial, no card.

Start with BlazeHive Free trial

Cosa fa effettivamente un sitemap checker

Un sitemap checker recupera il tuo file sitemap.xml, analizza ogni entry <url>, estrae i tag <loc>, <lastmod>, <changefreq> e <priority>, quindi effettua una richiesta HTTP HEAD a ogni URL per confermare che restituisce 200. Contrassegna i reindirizzamenti, i 404 e gli errori del server, controlla i URL duplicati e confronta la struttura del tuo sitemap rispetto alla specifica XML sitemap.

Se il tuo sitemap è un sitemap index—un file che elenca altri file sitemap invece di singoli URL—seguiamo ogni riferimento, recuperiamo ogni sitemap figlio e aggiungiamo i risultati. Un singolo controllo copre l'intero albero del tuo sitemap fino a 200 URL in modalità completa o 50 URL in modalità campione.

Tre categorie di problemi emergono in ogni audit del sitemap. URL interrotti che restituiscono 404 o 500. URL duplicati elencati più di una volta, che sprecano il budget di crawl. E URL orfani che appaiono nel sitemap ma non hanno link interni, il che significa che un utente non può raggiungerli cliccando sul tuo sito. Il nostro checker contrassegna tutti e tre in un'unica passata.

Come usare questo sitemap checker

  1. Incolla l'URL del tuo sitemap in Sitemap URL. Solitamente https://www.tuodominio.com/sitemap.xml o https://www.tuodominio.com/sitemap_index.xml.
  2. Scegli una Crawl depth dal menu a discesa. Index only valida la struttura XML senza recuperare gli URL. All referenced sitemaps segue ogni sitemap elencato in un index. Sample 50 URLs controlla i codici di stato per 50 URL casuali. Full - up to 200 URLs controlla ogni URL che troviamo, fino al limite.
  3. Fai clic su Check sitemap. Otterrai una tabella di riepilogo con il totale degli URL, la ripartizione dei codici di stato, il conteggio dei duplicati, l'età media di lastmod e eventuali errori dello schema XML.
  4. Espandi Problem URLs per vedere un elenco riga per riga di 404, 301, duplicati e orfani. Ogni riga mostra l'URL, lo stato, la data lastmod e la correzione consigliata.
  5. Fai clic su Download CSV per esportare il rapporto completo. Usalo per correggere in blocco i problemi nel tuo CMS o passalo a uno sviluppatore.

Prova a controllare un sitemap con più di un file. Se il tuo sitemap index elenca cinque sub-sitemap e uno restituisce 404, segnaliamo il riferimento interrotto e saltiamo quel file. Gli altri quattro vengono comunque controllati. Se hai un sitemap piatto con 10.000 URL, scegli prima Sample 50 per fare una verifica spot prima di eseguire il crawl completo.

Perché i codici di stato contano più della validità XML

Un sitemap può essere un XML perfettamente valido e comunque danneggiare il tuo SEO. Se 30 URL restituiscono 404, Google spreca il budget di crawl recuperando pagine che non esistono. Se 50 URL sono reindirizzamenti 301, Google deve seguire il reindirizzamento, il che raddoppia il conteggio delle richieste e rallenta l'indicizzazione. Se gli URL restituiscono errori 500, Google potrebbe rimuoverli completamente dall'indice.

Tre conseguenze pratiche.

Crawl budget. Google alloca un budget di crawl giornaliero a ogni sito in base alla velocità del server, all'autorità del sito e alla domanda di crawl. Ogni 404 o reindirizzamento nel tuo sitemap sottrae da quel budget senza indicizzare nuovo contenuto. Pulire il sitemap prima di inviarlo a Search Console fa contare ogni crawl.

Index coverage. Gli URL con codici di stato 4xx o 5xx possono essere esclusi dall'indice dopo ripetuti errori. Se quelle pagine sono importanti—pagine di prodotto, post di blog con backlink, landing page per campagne a pagamento—perdi traffico. Un controllo del sitemap cattura questo prima che il danno si accumuli.

Accuratezza di Lastmod. Il tag <lastmod> dice a Google quando una pagina è stata aggiornata l'ultima volta. Se ogni pagina ha lo stesso lastmod da tre anni fa, Google impara che il tuo sitemap è obsoleto e può eseguire il crawl meno spesso. Se lastmod è sempre "ieri" anche quando il contenuto non è cambiato, Google impara a ignorarlo. Il nostro checker segnala l'età media di lastmod e contrassegna i modelli sospetti.

URL duplicati e mancate corrispondenze canoniche

Un URL duplicato in un sitemap solitamente significa che lo stesso loc appare due volte, spesso con una differenza di barra finale o una mancata corrispondenza di protocollo. /page e /page/ sono URL diversi per un parser, anche se il tuo server li tratta come identici. http://example.com/page e https://example.com/page sono diversi. Il nostro checker normalizza questi modelli e li contrassegna come probabili duplicati.

Se il tuo sitemap elenca /page ma quell'URL si reindirizza a /page/, il reindirizzamento spreca una richiesta. È meglio elencare la destinazione finale nel sitemap e correggere il reindirizzamento a livello di server. Mostriamo la catena di reindirizzamento e consigliamo di elencare la versione con stato 200.

Le mancate corrispondenze canoniche sono un problema correlato. Se il tuo sitemap include /page-a ma quella pagina ha un tag <link rel="canonical" href="/page-b">, Google vede un conflitto. Il sitemap dice "indicizza page-a" ma la pagina dice "sono un duplicato di page-b." Google potrebbe scegliere di ignorare la voce del sitemap. Esegui un canonical checker sugli URL contrassegnati per confermare che il canonico corrisponda al loc del sitemap.

Pagine orfane e crawlabilità

Una pagina orfana è nel tuo sitemap ma non ha link interni che la puntano. Un bot può trovarla tramite il sitemap, ma un umano non può raggiungerla navigando il tuo sito. Questo è comune dopo le migrazioni di contenuti, quando i vecchi URL rimangono nel sitemap ma il menu di navigazione è stato aggiornato.

Gli orfani non sono sempre negativi. Una landing page per una campagna pubblicitaria a pagamento potrebbe essere orfana di proposito per controllare l'accesso. Ma i post di blog orfani o le pagine di prodotto segnalano un problema di struttura del sito. Se la pagina dovrebbe essere accessibile, aggiungi link interni. Se non dovrebbe esistere, rimuovila dal sitemap e fai un 301 a una pagina attiva.

Il nostro checker rileva i probabili orfani confrontando gli URL del sitemap al tuo grafo di link interni. Se un URL appare nel sitemap ma ha zero link in ingresso da pagine che abbiamo crawlato, lo contrassegniamo. Questa euristica cattura la maggior parte degli orfani senza richiedere un crawl dell'intero sito.

Errori comuni

  • Inviare un sitemap index a uno strumento che si aspetta sitemap piatti. La maggior parte dei validatori fallisce su index o testa solo il file index stesso. Il nostro segue ogni riferimento, quindi ottieni risultati per l'intero albero.
  • Elencare URL non canonici. Ogni URL nel tuo sitemap dovrebbe essere la versione canonica. Non elencare la versione www se il canonico è non-www. Non elencare http se il canonico è https. Usa prima il tuo canonical checker se non sei sicuro.
  • Includere URL bloccati da robots.txt. Se un URL è nel tuo sitemap ma disabilitato in robots.txt, Google non può eseguirne il crawl. Questo crea un avviso in Search Console. Controlla robots.txt con il nostro robots.txt checker prima di distribuire un nuovo sitemap.
  • Impostare lastmod sulla data di generazione del sitemap, non sulla data di cambio del contenuto. Se il tuo CMS rigenera il sitemap quotidianamente e contrassegna ogni URL con la data odierna, Google smette di fidarsi di lastmod. Popola lastmod dal timestamp updated-at effettivo del post.
  • Dimenticare di ricontrollare dopo una migrazione. I vecchi URL spesso rimangono in un sitemap dopo il trasferimento a una nuova piattaforma. Se metà del tuo sitemap restituisce 404, Search Console mostrerà il calo della copertura. Controlla il sitemap immediatamente dopo la migrazione.
  • Non controllare i sitemap figlio singolarmente. Se il tuo sitemap index ha un figlio rotto, potresti non notarlo fino a quando gli errori di crawl non aumentano. Testa ogni URL di sitemap figlio isolatamente per confermare che restituisce 200 e si analizza correttamente.

Suggerimenti avanzati

  • Esegui prima un controllo campione su sitemap di grandi dimensioni. Se il campione rivela uno schema—ogni URL è 301, o lastmod è mancante—correggilo prima di eseguire il crawl di tutti i 10.000 URL. Il campione ti dà segnale in 10 secondi invece di 5 minuti.
  • Confronta le date di lastmod con le date di pubblicazione del tuo CMS. Se un post è stato aggiornato la scorsa settimana ma lastmod è di sei mesi fa, il tuo script di generazione del sitemap è rotto.
  • Controlla il tuo sitemap mensilmente, non una volta sola. Il contenuto diventa obsoleto, i reindirizzamenti vengono aggiunti, gli URL vengono rimossi dalla pubblicazione. Un controllo mensile cattura il decadimento prima che lo faccia Google.
  • Se vedi un aumento dei 404, esporta il CSV e fai un cross-reference con i log del tuo server. A volte un URL è 404 nel sitemap ma continua a ricevere traffico dai backlink, il che significa che dovrebbe essere 301'd invece di essere rimosso.
  • Testa lo stesso sitemap da due diversi user-agent (Chrome desktop e Googlebot). Se i codici di stato differiscono, il tuo server sta cloaking o restituendo risposte diverse ai bot, il che viola le linee guida di Google.
  • Se vengono trovati duplicati, controlla i tag canonici. Un URL duplicato con un canonico che punta altrove può rimanere nel sitemap se è una variante regionale o linguistica. Se non è una variante, rimuovilo.

Dopo aver corretto i problemi del sitemap, convalida che il tuo file robots.txt dichiari correttamente la posizione del sitemap con una riga Sitemap:. Usa il robots.txt checker per confermare. Quindi simula come Googlebot vede una delle tue pagine con il Google crawler simulator per confermare che l'URL si carica, JavaScript viene eseguito e il contenuto è visibile. Se stai controllando i metadati insieme ai sitemap, il website metadata checker renderizza il tuo title, meta e tag OG come appaiono nei SERP.

Generate the whole content, not just check it.

BlazeHive writes SEO articles end to end from a single keyword. Outline, draft, meta, schema, internal links. Free trial, no card.

Start with BlazeHive Free trial

Domande frequenti

Cos'è un sitemap?

Un sitemap è un file XML che elenca ogni URL che vuoi che i motori di ricerca eseguano il crawl e indicizzino. Risiede su yoursite.com/sitemap.xml e agisce come directory per i crawler, particolarmente utile per siti grandi, nuovi siti con pochi backlink o siti con navigazione profonda dove le pagine sono a cinque o più clic dalla homepage. I sitemap non garantiscono l'indicizzazione. Google decide comunque se una pagina vale la pena indicizzarla in base alla qualità e alla duplicazione. Senza un sitemap, Google si affida ai link interni e ai backlink esterni per trovare le pagine, il che può richiedere settimane o persino mesi per i nuovi contenuti. Con un sitemap, dici a Google che la pagina esiste e quando è stata aggiornata l'ultima volta, il che accelera la scoperta e aiuta a dare priorità ai contenuti freschi. Il nostro sitemap checker recupera il tuo sitemap.xml, analizza la struttura, convalida la sintassi XML, controlla i codici di stato HTTP per ogni URL elencato, contrassegna i duplicati e rileva le pagine orfane (pagine nel tuo sitemap ma irraggiungibili tramite link interni). Usalo dopo il lancio di un nuovo sito, dopo una migrazione o trimestralmente per catturare le regressioni.

Come faccio a verificare se il mio sito web ha un sitemap?

Prova tre posti. Innanzitutto, aggiungi /sitemap.xml al tuo dominio (tuodominio.com/sitemap.xml) e vedi se si carica. La maggior parte dei CMS genera automaticamente un sitemap su questo percorso. Se vedi XML con un elenco di URL, quello è il tuo sitemap. In secondo luogo, controlla robots.txt su tuodominio.com/robots.txt per una riga che inizia con Sitemap: seguita da un URL. Molti siti dichiarano qui la posizione del loro sitemap. In terzo luogo, accedi a Google Search Console, vai a Sitemaps in Index e vedi quali URL di sitemap hai inviato. Questo è l'elenco autorevole che Google utilizza per dare priorità al crawl. Se trovi un URL di sitemap, incollalo nel nostro campo Sitemap URL per convalidare la struttura, confermare che tutti gli URL restituiscono codici di stato 200 e individuare i duplicati o gli orfani. Se nessuno di questi metodi trova un sitemap, probabilmente non ne hai uno. Va bene per i siti con meno di 50 pagine ma è un problema per quelli più grandi. Generane uno usando il plugin del tuo CMS (Yoast, Rank Math, next-sitemap), quindi invialo a Search Console per accelerare l'indicizzazione.

Quali sono i tre tipi di sitemap?

I tre tipi sono sitemap XML (per i motori di ricerca), sitemap HTML (per gli utenti) e sitemap visivi (per i designer). I sitemap XML sono file leggibili dalla macchina in formato XML che elencano URL, date di ultima modifica, frequenza di aggiornamento e priorità. I motori di ricerca li usano per scoprire e dare priorità alle pagine. Risiedono su /sitemap.xml e non sono destinati alla navigazione umana. I sitemap HTML sono pagine leggibili dall'uomo con link a ogni sezione principale del tuo sito, organizzate gerarchicamente. Aiutano gli utenti a navigare siti grandi e forniscono link interni. Risiedono su URL come /sitemap e sono spesso collegati dal footer. I sitemap visivi sono diagrammi (in Figma, Miro, Sketch) che mappano la gerarchia delle pagine, i flussi utente e la navigazione prima che un sito sia costruito. Sono artefatti di pianificazione, non pagine attive. La maggior parte dei siti ha bisogno di un sitemap XML (richiesto per il SEO) e beneficia di un sitemap HTML se ha più di 100 pagine. I sitemap visivi sono per la fase di progettazione. Il nostro checker convalida solo i sitemap XML. La maggior parte dei CMS li genera automaticamente. Per siti statici, usa next-sitemap o astro-sitemap.

Come valido un sitemap?

Validare un sitemap significa controllare la struttura XML, l'accessibilità dell'URL, l'accuratezza dei metadati e i limiti del protocollo. Innanzitutto, conferma che l'XML sia ben formato con la corretta dichiarazione dello spazio dei nomi (attributo xmlns che punta a sitemaps.org). L'XML mal formato causa il rifiuto del file intero da parte dei parser. In secondo luogo, verifica che ogni URL restituisca un codice di stato 200, non 301, 404 o errore 5xx. I motori di ricerca possono comunque eseguire il crawl di URL che si reindirizzano o sono interrotti, ma li deprioritizzano. In terzo luogo, controlla che gli URL usino percorsi assoluti (https://example.com/page, non /page) e corrispondano al tuo dominio canonico (www o non-www, non misti). Quarto, conferma che la dimensione del file sia inferiore a 50 MB non compresso con meno di 50.000 URL. Se superi uno dei due, dividi in più sitemap e crea un file sitemap index. Quinto, valida che le date di lastmod usino il formato W3C (YYYY-MM-DD o ISO 8601). Il nostro strumento automatizza tutti e cinque: incolla il tuo Sitemap URL, scegli la crawl depth (solo index, tutti i sitemap referenziati o campione) e otteniamo i codici di stato, i duplicati, gli avvisi di lastmod mancante e un'esportazione CSV dei problemi.

Google ha un generatore di sitemap?

Google offriva un generatore di sitemap (Google Sitemap Generator) per Apache e IIS, ma è stato deprecato anni fa. Non ne hai più bisogno. Quasi tutti i CMS moderni e i framework statici generano automaticamente i sitemap. WordPress (tramite Yoast SEO, Rank Math o sitemap core dal 5.5), Shopify (integrato), Webflow (integrato), Squarespace (integrato), Wix (integrato), Next.js (tramite next-sitemap), Astro (tramite astro-sitemap), Gatsby (tramite gatsby-plugin-sitemap) e Hugo (integrato) creano e aggiornano tutti i sitemap XML senza lavoro manuale. Per siti personalizzati, usa librerie open-source come sitemap.js (Node.js), django-sitemap (Python) o uno script di build. Una volta che hai un sitemap, invialo a Google Search Console in Sitemaps. Google lo eseguirà periodicamente. Puoi eseguire il ping di Google manualmente dopo aver aggiunto URL inviando una richiesta GET a google.com/ping?sitemap=turositemapurl, sebbene la maggior parte dei CMS lo faccia automaticamente. Usa il nostro sitemap checker per convalidare il sitemap prima di inviarlo a Search Console.

Con quale frequenza dovrei aggiornare il mio sitemap?

Aggiorna il tuo sitemap ogni volta che pubblichi, annulli la pubblicazione o modifichi significativamente una pagina. La maggior parte dei CMS e dei generatori statici lo fanno automaticamente. I plugin WordPress rigenerano il sitemap su ogni pubblicazione di post, Shopify lo aggiorna quando i prodotti cambiano e i framework statici ricostruiscono il sitemap durante ogni deploy. Se gestito manualmente (raro su siti personalizzati), rigeneralo settimanalmente o dopo batch di contenuti. Il campo lastmod dice ai motori di ricerca quando una pagina è cambiata, il che aiuta loro a dare priorità ai contenuti freschi rispetto agli stantii. Se non aggiorni mai lastmod o imposti la stessa data per ogni URL, i motori di ricerca lo ignorano e ricadono sulla scoperta dei link e sul budget di crawl. Per i publisher quotidiani (notizie, blog, e-commerce con cambiamenti di inventario), i sitemap dinamici che si rigenerano su pubblicazione sono essenziali. Per i publisher mensili o trimestrali, un sitemap statico rigenerato su deploy va bene. Non lasciare che il tuo sitemap elenchi URL che 404, si reindirizzano o sono bloccati da robots.txt. Questo spreca il budget di crawl e segnala scarsa qualità del sito. Usa il nostro checker dopo i grandi cambiamenti (migrazione, ristrutturazione degli URL, cambiamenti di contenuto in blocco).

Qual è la differenza tra un sitemap e robots.txt?

Robots.txt dice ai crawler quali parti del tuo sito sono loro permesse o vietate di accedere. Un sitemap dice ai crawler quali pagine vuoi che loro diano priorità al crawl. Servono a scopi diversi e lavorano insieme. Robots.txt risiede su yourdomain.com/robots.txt, usa sintassi in testo semplice con direttive User-agent, Allow e Disallow e blocca o consente l'accesso a percorsi, file o directory. Dichiara dove risiede il tuo sitemap tramite una direttiva Sitemap:. Robots.txt viene eseguito per primo. Se accidentalmente disabiliti l'intero sito, i crawler si fermano immediatamente e non vedono mai il tuo sitemap. Un sitemap risiede su yourdomain.com/sitemap.xml, usa sintassi XML ed elenca gli URL che vuoi vengano crawlati con metadati come lastmod e priority. Non controlla l'accesso. Suggerisce cosa eseguire il crawl. I crawler possono ignorare il tuo sitemap se trovano pagine tramite link, ma non possono aggirare robots.txt. Usa robots.txt per bloccare i pannelli di amministrazione, gli ambienti di staging e i crawler indesiderati. Usa un sitemap per elencare ogni pagina indicizzabile.

Un sitemap può migliorare il mio SEO?

Un sitemap non migliora direttamente le classifiche, ma rimuove l'attrito nella scoperta, il che indirettamente aiuta il SEO assicurando che le pagine nuove e aggiornate vengano eseguite il crawl più velocemente. Senza un sitemap, Google si affida ai link interni e ai backlink esterni per trovare le pagine, il che può richiedere settimane per i nuovi contenuti, specialmente su siti grandi o siti con link interni deboli. Con un sitemap, dici a Google che la pagina esiste e quando è stata aggiornata l'ultima volta, il che accelera l'indicizzazione. Questo è importante per i nuovi siti con pochi backlink, i siti con gerarchie di pagina profonde (pagine sepolte cinque clic dalla homepage), i siti con pagine orfane e i siti che pubblicano frequentemente (blog, notizie, e-commerce). Un sitemap aiuta con l'efficienza del budget di crawl. Invece di scoprire le pagine tramite crawl di link, Google legge il tuo sitemap e sa cosa dare priorità. Tuttavia, un sitemap non può forzare Google a indicizzare pagine di bassa qualità, duplicate o thin. Se una pagina è nel tuo sitemap ma non è ancora indicizzata, il problema è solitamente la qualità del contenuto, la canonicalizzazione o i tag meta robots.

Cosa non dovrebbe essere in un sitemap?

Un sitemap dovrebbe elencare solo gli URL che vuoi indicizzati, quindi escludi tutto ciò che è bloccato da robots.txt, contrassegnato con noindex, che si reindirizza a un altro URL, che restituisce errori 404 o 5xx, o canonicalizzato a un URL diverso. Includere questi spreca il budget di crawl e segnala scarsa manutenzione del sito. Non includere pagine di amministrazione, pagine di accesso, pagine di checkout o dashboard dell'account utente (solitamente bloccate da robots.txt o noindex). Non includere URL di parametri (come ?sort=price o ?page=2) se utilizzi tag canonici per consolidarli. Non includere ambienti di staging o test. Non includere URL che si reindirizzano (301 o 302). Elenca invece la destinazione finale. Non includere URL con tag meta noindex o intestazioni X-Robots-Tag. Non includere URL paginati a meno che ogni pagina non abbia contenuto univoco che vale la pena indicizzare. La maggior parte dei siti di e-commerce dovrebbe includere solo la pagina 1, con tag rel=next/prev o tag canonici che gestiscono il resto. Non includere URL di contenuto duplicato. Usa tag canonici per consolidare i duplicati, quindi elenca solo la versione canonica.

Come faccio a correggere gli errori del sitemap?

Gli errori del sitemap rientrano in tre categorie: strutturale (XML mal formato, spazio dei nomi errato, file troppo grande), a livello di URL (404, reindirizzamenti, pagine noindex) e problemi di metadati (lastmod mancante, formati di data non corretti). Correggi gli errori strutturali per primo. Impediscono ai crawler di analizzare il file. Apri il tuo sitemap in un browser o validatore XML, conferma che inizi con la corretta dichiarazione XML e spazio dei nomi (xmlns="http://www.sitemaps.org/schemas/sitemap/0.9") e controlla che ogni tag di apertura abbia un tag di chiusura corrispondente. Se il tuo sitemap supera 50 MB o 50.000 URL, dividilo in più file e crea un file sitemap index. Correggi gli errori a livello di URL rimuovendo o sostituendo le voci interrotte. Elimina qualsiasi URL che restituisca 404, sostituisci gli URL di reindirizzamento con la loro destinazione finale, rimuovi gli URL con tag noindex e conferma che ogni URL corrisponda al tuo dominio canonico (www o non-www, non misti). Correggi i problemi di metadati assicurando che le date di lastmod usino il formato ISO 8601 (YYYY-MM-DD o YYYY-MM-DDTHH:MM:SS+00:00). Rimuovi completamente lastmod se il tuo CMS non può mantenerlo accurato. Dopo aver corretto, riconvalida con il nostro strumento e reinvia a Google Search Console.

Strumenti gratuiti correlati

Tutti gli strumenti →