O que um verificador de sitemap realmente faz
Um verificador de sitemap busca seu arquivo sitemap.xml, analisa cada entrada <url>, extrai as tags <loc>, <lastmod>, <changefreq> e <priority>, depois faz uma requisição HTTP HEAD para cada URL para confirmar que retorna 200. Marca redirecionamentos, 404s e erros de servidor, verifica URLs duplicadas e compara sua estrutura de sitemap com a especificação de sitemap XML.
Se seu sitemap é um índice de sitemap—um arquivo que lista outros arquivos de sitemap em vez de URLs individuais—seguimos cada referência, buscamos cada sitemap filho e agregamos os resultados. Uma única verificação cobre toda sua árvore de sitemap até 200 URLs no modo completo ou 50 URLs no modo de amostra.
Três categorias de problemas aparecem em toda auditoria de sitemap. URLs quebradas que retornam 404 ou 500. URLs duplicadas listadas mais de uma vez, que desperdiçam orçamento de rastreamento. E URLs órfãs que aparecem no sitemap mas têm zero links internos, o que significa que um usuário não pode alcançá-las clicando através de seu site. Nosso verificador marca todos os três em uma única passagem.
Como usar este verificador de sitemap
- Cole a URL do seu sitemap em Sitemap URL. Geralmente
https://www.seudominio.com/sitemap.xmlouhttps://www.seudominio.com/sitemap_index.xml. - Escolha uma Crawl depth (Profundidade de Rastreamento) no dropdown. Index only (Apenas índice) valida a estrutura XML sem buscar URLs. All referenced sitemaps (Todos os sitemaps referenciados) segue cada sitemap listado em um índice. Sample 50 URLs (Amostra de 50 URLs) verifica códigos de status para 50 URLs aleatórias. Full - up to 200 URLs (Completo - até 200 URLs) verifica cada URL que encontramos, até o limite.
- Clique em Check sitemap. Você recebe uma tabela de resumo com total de URLs, detalhamento de código de status, contagem de duplicatas, idade média do lastmod e quaisquer erros de esquema XML.
- Expanda Problem URLs (URLs com Problemas) para ver uma lista linha por linha de 404s, 301s, duplicatas e órfãs. Cada linha mostra a URL, status, data de lastmod e correção recomendada.
- Clique em Download CSV para exportar o relatório completo. Use-o para corrigir problemas em lote em seu CMS ou passe-o para um desenvolvedor.
Tente verificar um sitemap com mais de um arquivo. Se seu índice de sitemap lista cinco sub-sitemaps e um retorna 404, relatamos a referência quebrada e pulamos esse arquivo. Os outros quatro ainda são verificados. Se você tem um sitemap plano com 10.000 URLs, escolha Sample 50 (Amostra de 50) primeiro para verificar antes de executar o rastreamento completo.
Por que códigos de status importam mais do que validade XML
Um sitemap pode ser XML perfeitamente válido e ainda prejudicar seu SEO. Se 30 URLs retornam 404, Google desperdiça orçamento de rastreamento buscando páginas que não existem. Se 50 URLs são redirecionamentos 301, Google tem que seguir o redirecionamento, o que dobra a contagem de requisições e desacelera a indexação. Se URLs retornam erros 500, Google pode removê-las do índice completamente.
Três consequências práticas.
Orçamento de rastreamento. Google aloca um orçamento diário de rastreamento para cada site com base na velocidade do servidor, autoridade do site e demanda de rastreamento. Cada 404 ou redirecionamento em seu sitemap subtrai desse orçamento sem indexar conteúdo novo. Limpar o sitemap antes de submetê-lo ao Search Console faz cada rastreamento contar.
Cobertura de índice. URLs com códigos de status 4xx ou 5xx podem ser excluídas do índice após falhas repetidas. Se essas páginas são importantes—páginas de produtos, posts de blog com backlinks, landing pages para campanhas pagas—você perde tráfego. Uma verificação de sitemap detecta isso antes do dano se acumular.
Precisão do Lastmod. A tag <lastmod> diz ao Google quando uma página foi atualizada pela última vez. Se toda página tem o mesmo lastmod de três anos atrás, Google aprende que seu sitemap está desatualizado e pode rastrear com menos frequência. Se lastmod é sempre "ontem" mesmo quando o conteúdo não mudou, Google aprende a ignorá-lo. Nosso verificador relata a idade média do lastmod e marca padrões suspeitos.
URLs duplicadas e descasamentos de canonical
Uma URL duplicada em um sitemap geralmente significa que a mesma loc aparece duas vezes, frequentemente com uma diferença de barra final ou um descasamento de protocolo. /page e /page/ são URLs diferentes para um parser, mesmo que seu servidor as trate como idênticas. http://example.com/page e https://example.com/page são diferentes. Nosso verificador normaliza esses padrões e os marca como prováveis duplicatas.
Se seu sitemap lista /page mas essa URL redireciona para /page/, o redirecionamento desperdiça uma requisição. É melhor listar o destino final no sitemap e corrigir o redirecionamento no nível do servidor. Mostramos a cadeia de redirecionamento e recomendamos listar a versão com status 200.
Descasamentos de canonical são um problema relacionado. Se seu sitemap inclui /page-a mas essa página tem uma tag <link rel="canonical" href="/page-b">, Google vê um conflito. O sitemap diz "indexe page-a" mas a página diz "sou uma duplicata de page-b." Google pode optar por ignorar a entrada do sitemap. Execute um verificador de canonical nas URLs sinalizadas para confirmar que o canonical corresponde à loc do sitemap.
Páginas órfãs e rastreabilidade
Uma página órfã está em seu sitemap mas não tem links internos apontando para ela. Um bot pode encontrá-la via sitemap, mas um humano não pode alcançá-la navegando seu site. Isso é comum após migrações de conteúdo, quando URLs antigas permanecem no sitemap mas o menu de navegação foi atualizado.
Órfãs nem sempre são ruins. Uma landing page para uma campanha de anúncio pago pode ser órfã propositalmente para controlar o acesso. Mas posts de blog órfãos ou páginas de produtos sinalizam um problema de estrutura do site. Se a página deve ser acessível, adicione links internos. Se não deve existir, remova-a do sitemap e redirecione-a com 301 para uma página ativa.
Nosso verificador detecta prováveis órfãs comparando URLs de sitemap com seu gráfico de links internos. Se uma URL aparece no sitemap mas tem zero links de entrada de páginas que rastreamos, a sinalizamos. Essa heurística detecta a maioria dos órfãs sem exigir um rastreamento de site completo.
Erros comuns
- Submeter um índice de sitemap para uma ferramenta que espera sitemaps planos. A maioria dos validadores falha em índices ou testa apenas o arquivo de índice em si. O nosso segue cada referência, então você obtém resultados para toda a árvore.
- Listar URLs não-canônicas. Cada URL em seu sitemap deve ser a versão canônica. Não liste a versão www se a canônica for non-www. Não liste http se a canônica for https. Use seu verificador de canonical primeiro se não tiver certeza.
- Incluir URLs bloqueadas por robots.txt. Se uma URL está em seu sitemap mas é desaprovada em robots.txt, Google não pode rastreá-la. Isso cria um aviso no Search Console. Verifique robots.txt com nosso verificador de robots.txt antes de implantar um novo sitemap.
- Definir lastmod para a data em que o sitemap foi gerado, não a data em que o conteúdo mudou. Se seu CMS regenera o sitemap diariamente e marca cada URL com a data de hoje, Google para de confiar em lastmod. Popule lastmod do timestamp de atualização real do post.
- Esquecer de re-verificar após uma migração. URLs antigas frequentemente permanecem em um sitemap após a mudança para uma nova plataforma. Se metade do seu sitemap retorna 404, Search Console mostrará a queda na cobertura. Audite o sitemap imediatamente após a migração.
- Não verificar sitemaps filho individualmente. Se seu índice de sitemap tem um filho quebrado, você pode não notar até que os erros de rastreamento disparem. Teste cada URL de sitemap filho em isolamento para confirmar que retorna 200 e é analisado corretamente.
Dicas avançadas
- Execute uma verificação de amostra primeiro em sitemaps grandes. Se a amostra revelar um padrão—toda URL é 301 ou lastmod está faltando—corrija antes de rastrear todas as 10.000 URLs. A amostra lhe dá signal em 10 segundos em vez de 5 minutos.
- Compare datas de lastmod com datas de publicação de seu CMS. Se um post foi atualizado semana passada mas lastmod tem seis meses, seu script de geração de sitemap está quebrado.
- Verifique seu sitemap mensalmente, não apenas uma vez. Conteúdo fica desatualizado, redirecionamentos são adicionados, URLs são despublicadas. Uma verificação mensal detecta degradação antes de Google fazer.
- Se você vir um pico em 404s, exporte o CSV e referencie cruzada com seus logs do servidor. Às vezes uma URL é 404 no sitemap mas ainda recebe tráfego de backlinks, o que significa que deve ser redirecionada com 301 em vez de removida.
- Teste o mesmo sitemap de dois agentes de usuário diferentes (Chrome desktop e Googlebot). Se os códigos de status diferirem, seu servidor está cloaking ou retornando respostas diferentes para bots, o que viola as diretrizes do Google.
- Se duplicatas forem encontradas, verifique tags canônicas. Uma URL duplicada com uma canônica apontando para outro lugar pode permanecer no sitemap se for uma variante regional ou de idioma. Se não for uma variante, remova-a.
Depois de corrigir problemas de sitemap, valide que seu arquivo robots.txt declare corretamente a localização do sitemap com uma linha Sitemap:. Use o verificador de robots.txt para confirmar. Depois simule como Googlebot vê uma de suas páginas com o simulador de crawler do Google para confirmar que a URL carrega, JavaScript executa e o conteúdo é visível. Se você está verificando metadados junto com sitemaps, o verificador de metadados de site renderiza seu título, meta e tags OG conforme aparecem em SERPs.