Cosa fa effettivamente un sitemap checker
Un sitemap checker recupera il tuo file sitemap.xml, analizza ogni entry <url>, estrae i tag <loc>, <lastmod>, <changefreq> e <priority>, quindi effettua una richiesta HTTP HEAD a ogni URL per confermare che restituisce 200. Contrassegna i reindirizzamenti, i 404 e gli errori del server, controlla i URL duplicati e confronta la struttura del tuo sitemap rispetto alla specifica XML sitemap.
Se il tuo sitemap è un sitemap index—un file che elenca altri file sitemap invece di singoli URL—seguiamo ogni riferimento, recuperiamo ogni sitemap figlio e aggiungiamo i risultati. Un singolo controllo copre l'intero albero del tuo sitemap fino a 200 URL in modalità completa o 50 URL in modalità campione.
Tre categorie di problemi emergono in ogni audit del sitemap. URL interrotti che restituiscono 404 o 500. URL duplicati elencati più di una volta, che sprecano il budget di crawl. E URL orfani che appaiono nel sitemap ma non hanno link interni, il che significa che un utente non può raggiungerli cliccando sul tuo sito. Il nostro checker contrassegna tutti e tre in un'unica passata.
Come usare questo sitemap checker
- Incolla l'URL del tuo sitemap in Sitemap URL. Solitamente
https://www.tuodominio.com/sitemap.xmlohttps://www.tuodominio.com/sitemap_index.xml. - Scegli una Crawl depth dal menu a discesa. Index only valida la struttura XML senza recuperare gli URL. All referenced sitemaps segue ogni sitemap elencato in un index. Sample 50 URLs controlla i codici di stato per 50 URL casuali. Full - up to 200 URLs controlla ogni URL che troviamo, fino al limite.
- Fai clic su Check sitemap. Otterrai una tabella di riepilogo con il totale degli URL, la ripartizione dei codici di stato, il conteggio dei duplicati, l'età media di lastmod e eventuali errori dello schema XML.
- Espandi Problem URLs per vedere un elenco riga per riga di 404, 301, duplicati e orfani. Ogni riga mostra l'URL, lo stato, la data lastmod e la correzione consigliata.
- Fai clic su Download CSV per esportare il rapporto completo. Usalo per correggere in blocco i problemi nel tuo CMS o passalo a uno sviluppatore.
Prova a controllare un sitemap con più di un file. Se il tuo sitemap index elenca cinque sub-sitemap e uno restituisce 404, segnaliamo il riferimento interrotto e saltiamo quel file. Gli altri quattro vengono comunque controllati. Se hai un sitemap piatto con 10.000 URL, scegli prima Sample 50 per fare una verifica spot prima di eseguire il crawl completo.
Perché i codici di stato contano più della validità XML
Un sitemap può essere un XML perfettamente valido e comunque danneggiare il tuo SEO. Se 30 URL restituiscono 404, Google spreca il budget di crawl recuperando pagine che non esistono. Se 50 URL sono reindirizzamenti 301, Google deve seguire il reindirizzamento, il che raddoppia il conteggio delle richieste e rallenta l'indicizzazione. Se gli URL restituiscono errori 500, Google potrebbe rimuoverli completamente dall'indice.
Tre conseguenze pratiche.
Crawl budget. Google alloca un budget di crawl giornaliero a ogni sito in base alla velocità del server, all'autorità del sito e alla domanda di crawl. Ogni 404 o reindirizzamento nel tuo sitemap sottrae da quel budget senza indicizzare nuovo contenuto. Pulire il sitemap prima di inviarlo a Search Console fa contare ogni crawl.
Index coverage. Gli URL con codici di stato 4xx o 5xx possono essere esclusi dall'indice dopo ripetuti errori. Se quelle pagine sono importanti—pagine di prodotto, post di blog con backlink, landing page per campagne a pagamento—perdi traffico. Un controllo del sitemap cattura questo prima che il danno si accumuli.
Accuratezza di Lastmod. Il tag <lastmod> dice a Google quando una pagina è stata aggiornata l'ultima volta. Se ogni pagina ha lo stesso lastmod da tre anni fa, Google impara che il tuo sitemap è obsoleto e può eseguire il crawl meno spesso. Se lastmod è sempre "ieri" anche quando il contenuto non è cambiato, Google impara a ignorarlo. Il nostro checker segnala l'età media di lastmod e contrassegna i modelli sospetti.
URL duplicati e mancate corrispondenze canoniche
Un URL duplicato in un sitemap solitamente significa che lo stesso loc appare due volte, spesso con una differenza di barra finale o una mancata corrispondenza di protocollo. /page e /page/ sono URL diversi per un parser, anche se il tuo server li tratta come identici. http://example.com/page e https://example.com/page sono diversi. Il nostro checker normalizza questi modelli e li contrassegna come probabili duplicati.
Se il tuo sitemap elenca /page ma quell'URL si reindirizza a /page/, il reindirizzamento spreca una richiesta. È meglio elencare la destinazione finale nel sitemap e correggere il reindirizzamento a livello di server. Mostriamo la catena di reindirizzamento e consigliamo di elencare la versione con stato 200.
Le mancate corrispondenze canoniche sono un problema correlato. Se il tuo sitemap include /page-a ma quella pagina ha un tag <link rel="canonical" href="/page-b">, Google vede un conflitto. Il sitemap dice "indicizza page-a" ma la pagina dice "sono un duplicato di page-b." Google potrebbe scegliere di ignorare la voce del sitemap. Esegui un canonical checker sugli URL contrassegnati per confermare che il canonico corrisponda al loc del sitemap.
Pagine orfane e crawlabilità
Una pagina orfana è nel tuo sitemap ma non ha link interni che la puntano. Un bot può trovarla tramite il sitemap, ma un umano non può raggiungerla navigando il tuo sito. Questo è comune dopo le migrazioni di contenuti, quando i vecchi URL rimangono nel sitemap ma il menu di navigazione è stato aggiornato.
Gli orfani non sono sempre negativi. Una landing page per una campagna pubblicitaria a pagamento potrebbe essere orfana di proposito per controllare l'accesso. Ma i post di blog orfani o le pagine di prodotto segnalano un problema di struttura del sito. Se la pagina dovrebbe essere accessibile, aggiungi link interni. Se non dovrebbe esistere, rimuovila dal sitemap e fai un 301 a una pagina attiva.
Il nostro checker rileva i probabili orfani confrontando gli URL del sitemap al tuo grafo di link interni. Se un URL appare nel sitemap ma ha zero link in ingresso da pagine che abbiamo crawlato, lo contrassegniamo. Questa euristica cattura la maggior parte degli orfani senza richiedere un crawl dell'intero sito.
Errori comuni
- Inviare un sitemap index a uno strumento che si aspetta sitemap piatti. La maggior parte dei validatori fallisce su index o testa solo il file index stesso. Il nostro segue ogni riferimento, quindi ottieni risultati per l'intero albero.
- Elencare URL non canonici. Ogni URL nel tuo sitemap dovrebbe essere la versione canonica. Non elencare la versione www se il canonico è non-www. Non elencare http se il canonico è https. Usa prima il tuo canonical checker se non sei sicuro.
- Includere URL bloccati da robots.txt. Se un URL è nel tuo sitemap ma disabilitato in robots.txt, Google non può eseguirne il crawl. Questo crea un avviso in Search Console. Controlla robots.txt con il nostro robots.txt checker prima di distribuire un nuovo sitemap.
- Impostare lastmod sulla data di generazione del sitemap, non sulla data di cambio del contenuto. Se il tuo CMS rigenera il sitemap quotidianamente e contrassegna ogni URL con la data odierna, Google smette di fidarsi di lastmod. Popola lastmod dal timestamp updated-at effettivo del post.
- Dimenticare di ricontrollare dopo una migrazione. I vecchi URL spesso rimangono in un sitemap dopo il trasferimento a una nuova piattaforma. Se metà del tuo sitemap restituisce 404, Search Console mostrerà il calo della copertura. Controlla il sitemap immediatamente dopo la migrazione.
- Non controllare i sitemap figlio singolarmente. Se il tuo sitemap index ha un figlio rotto, potresti non notarlo fino a quando gli errori di crawl non aumentano. Testa ogni URL di sitemap figlio isolatamente per confermare che restituisce 200 e si analizza correttamente.
Suggerimenti avanzati
- Esegui prima un controllo campione su sitemap di grandi dimensioni. Se il campione rivela uno schema—ogni URL è 301, o lastmod è mancante—correggilo prima di eseguire il crawl di tutti i 10.000 URL. Il campione ti dà segnale in 10 secondi invece di 5 minuti.
- Confronta le date di lastmod con le date di pubblicazione del tuo CMS. Se un post è stato aggiornato la scorsa settimana ma lastmod è di sei mesi fa, il tuo script di generazione del sitemap è rotto.
- Controlla il tuo sitemap mensilmente, non una volta sola. Il contenuto diventa obsoleto, i reindirizzamenti vengono aggiunti, gli URL vengono rimossi dalla pubblicazione. Un controllo mensile cattura il decadimento prima che lo faccia Google.
- Se vedi un aumento dei 404, esporta il CSV e fai un cross-reference con i log del tuo server. A volte un URL è 404 nel sitemap ma continua a ricevere traffico dai backlink, il che significa che dovrebbe essere 301'd invece di essere rimosso.
- Testa lo stesso sitemap da due diversi user-agent (Chrome desktop e Googlebot). Se i codici di stato differiscono, il tuo server sta cloaking o restituendo risposte diverse ai bot, il che viola le linee guida di Google.
- Se vengono trovati duplicati, controlla i tag canonici. Un URL duplicato con un canonico che punta altrove può rimanere nel sitemap se è una variante regionale o linguistica. Se non è una variante, rimuovilo.
Dopo aver corretto i problemi del sitemap, convalida che il tuo file robots.txt dichiari correttamente la posizione del sitemap con una riga Sitemap:. Usa il robots.txt checker per confermare. Quindi simula come Googlebot vede una delle tue pagine con il Google crawler simulator per confermare che l'URL si carica, JavaScript viene eseguito e il contenuto è visibile. Se stai controllando i metadati insieme ai sitemap, il website metadata checker renderizza il tuo title, meta e tag OG come appaiono nei SERP.