Skip to content
Verificação ao vivo · busca sua URL no servidor

Sitemap Checker

Rastreie até 200 URLs — códigos de status, duplicatas, órfãos, idade do lastmod.

Um arquivo sitemap.xml diz aos mecanismos de busca quais páginas existem e com que frequência elas mudam. A maioria dos validadores analisa o XML e para. Este Sitemap Checker valida a estrutura, busca códigos de status HTTP para cada URL listada, detecta duplicatas, marca órfãs que estão no seu sitemap mas não vinculadas da sua página inicial, e verifica se os timestamps de lastmod são recentes o suficiente para justificar a prioridade de rastreamento.

Generate the whole content, not just check it.

BlazeHive writes SEO articles end to end from a single keyword. Outline, draft, meta, schema, internal links. Free trial, no card.

Start with BlazeHive Free trial

O que um verificador de sitemap realmente faz

Um verificador de sitemap busca seu arquivo sitemap.xml, analisa cada entrada <url>, extrai as tags <loc>, <lastmod>, <changefreq> e <priority>, depois faz uma requisição HTTP HEAD para cada URL para confirmar que retorna 200. Marca redirecionamentos, 404s e erros de servidor, verifica URLs duplicadas e compara sua estrutura de sitemap com a especificação de sitemap XML.

Se seu sitemap é um índice de sitemap—um arquivo que lista outros arquivos de sitemap em vez de URLs individuais—seguimos cada referência, buscamos cada sitemap filho e agregamos os resultados. Uma única verificação cobre toda sua árvore de sitemap até 200 URLs no modo completo ou 50 URLs no modo de amostra.

Três categorias de problemas aparecem em toda auditoria de sitemap. URLs quebradas que retornam 404 ou 500. URLs duplicadas listadas mais de uma vez, que desperdiçam orçamento de rastreamento. E URLs órfãs que aparecem no sitemap mas têm zero links internos, o que significa que um usuário não pode alcançá-las clicando através de seu site. Nosso verificador marca todos os três em uma única passagem.

Como usar este verificador de sitemap

  1. Cole a URL do seu sitemap em Sitemap URL. Geralmente https://www.seudominio.com/sitemap.xml ou https://www.seudominio.com/sitemap_index.xml.
  2. Escolha uma Crawl depth (Profundidade de Rastreamento) no dropdown. Index only (Apenas índice) valida a estrutura XML sem buscar URLs. All referenced sitemaps (Todos os sitemaps referenciados) segue cada sitemap listado em um índice. Sample 50 URLs (Amostra de 50 URLs) verifica códigos de status para 50 URLs aleatórias. Full - up to 200 URLs (Completo - até 200 URLs) verifica cada URL que encontramos, até o limite.
  3. Clique em Check sitemap. Você recebe uma tabela de resumo com total de URLs, detalhamento de código de status, contagem de duplicatas, idade média do lastmod e quaisquer erros de esquema XML.
  4. Expanda Problem URLs (URLs com Problemas) para ver uma lista linha por linha de 404s, 301s, duplicatas e órfãs. Cada linha mostra a URL, status, data de lastmod e correção recomendada.
  5. Clique em Download CSV para exportar o relatório completo. Use-o para corrigir problemas em lote em seu CMS ou passe-o para um desenvolvedor.

Tente verificar um sitemap com mais de um arquivo. Se seu índice de sitemap lista cinco sub-sitemaps e um retorna 404, relatamos a referência quebrada e pulamos esse arquivo. Os outros quatro ainda são verificados. Se você tem um sitemap plano com 10.000 URLs, escolha Sample 50 (Amostra de 50) primeiro para verificar antes de executar o rastreamento completo.

Por que códigos de status importam mais do que validade XML

Um sitemap pode ser XML perfeitamente válido e ainda prejudicar seu SEO. Se 30 URLs retornam 404, Google desperdiça orçamento de rastreamento buscando páginas que não existem. Se 50 URLs são redirecionamentos 301, Google tem que seguir o redirecionamento, o que dobra a contagem de requisições e desacelera a indexação. Se URLs retornam erros 500, Google pode removê-las do índice completamente.

Três consequências práticas.

Orçamento de rastreamento. Google aloca um orçamento diário de rastreamento para cada site com base na velocidade do servidor, autoridade do site e demanda de rastreamento. Cada 404 ou redirecionamento em seu sitemap subtrai desse orçamento sem indexar conteúdo novo. Limpar o sitemap antes de submetê-lo ao Search Console faz cada rastreamento contar.

Cobertura de índice. URLs com códigos de status 4xx ou 5xx podem ser excluídas do índice após falhas repetidas. Se essas páginas são importantes—páginas de produtos, posts de blog com backlinks, landing pages para campanhas pagas—você perde tráfego. Uma verificação de sitemap detecta isso antes do dano se acumular.

Precisão do Lastmod. A tag <lastmod> diz ao Google quando uma página foi atualizada pela última vez. Se toda página tem o mesmo lastmod de três anos atrás, Google aprende que seu sitemap está desatualizado e pode rastrear com menos frequência. Se lastmod é sempre "ontem" mesmo quando o conteúdo não mudou, Google aprende a ignorá-lo. Nosso verificador relata a idade média do lastmod e marca padrões suspeitos.

URLs duplicadas e descasamentos de canonical

Uma URL duplicada em um sitemap geralmente significa que a mesma loc aparece duas vezes, frequentemente com uma diferença de barra final ou um descasamento de protocolo. /page e /page/ são URLs diferentes para um parser, mesmo que seu servidor as trate como idênticas. http://example.com/page e https://example.com/page são diferentes. Nosso verificador normaliza esses padrões e os marca como prováveis duplicatas.

Se seu sitemap lista /page mas essa URL redireciona para /page/, o redirecionamento desperdiça uma requisição. É melhor listar o destino final no sitemap e corrigir o redirecionamento no nível do servidor. Mostramos a cadeia de redirecionamento e recomendamos listar a versão com status 200.

Descasamentos de canonical são um problema relacionado. Se seu sitemap inclui /page-a mas essa página tem uma tag <link rel="canonical" href="/page-b">, Google vê um conflito. O sitemap diz "indexe page-a" mas a página diz "sou uma duplicata de page-b." Google pode optar por ignorar a entrada do sitemap. Execute um verificador de canonical nas URLs sinalizadas para confirmar que o canonical corresponde à loc do sitemap.

Páginas órfãs e rastreabilidade

Uma página órfã está em seu sitemap mas não tem links internos apontando para ela. Um bot pode encontrá-la via sitemap, mas um humano não pode alcançá-la navegando seu site. Isso é comum após migrações de conteúdo, quando URLs antigas permanecem no sitemap mas o menu de navegação foi atualizado.

Órfãs nem sempre são ruins. Uma landing page para uma campanha de anúncio pago pode ser órfã propositalmente para controlar o acesso. Mas posts de blog órfãos ou páginas de produtos sinalizam um problema de estrutura do site. Se a página deve ser acessível, adicione links internos. Se não deve existir, remova-a do sitemap e redirecione-a com 301 para uma página ativa.

Nosso verificador detecta prováveis órfãs comparando URLs de sitemap com seu gráfico de links internos. Se uma URL aparece no sitemap mas tem zero links de entrada de páginas que rastreamos, a sinalizamos. Essa heurística detecta a maioria dos órfãs sem exigir um rastreamento de site completo.

Erros comuns

  • Submeter um índice de sitemap para uma ferramenta que espera sitemaps planos. A maioria dos validadores falha em índices ou testa apenas o arquivo de índice em si. O nosso segue cada referência, então você obtém resultados para toda a árvore.
  • Listar URLs não-canônicas. Cada URL em seu sitemap deve ser a versão canônica. Não liste a versão www se a canônica for non-www. Não liste http se a canônica for https. Use seu verificador de canonical primeiro se não tiver certeza.
  • Incluir URLs bloqueadas por robots.txt. Se uma URL está em seu sitemap mas é desaprovada em robots.txt, Google não pode rastreá-la. Isso cria um aviso no Search Console. Verifique robots.txt com nosso verificador de robots.txt antes de implantar um novo sitemap.
  • Definir lastmod para a data em que o sitemap foi gerado, não a data em que o conteúdo mudou. Se seu CMS regenera o sitemap diariamente e marca cada URL com a data de hoje, Google para de confiar em lastmod. Popule lastmod do timestamp de atualização real do post.
  • Esquecer de re-verificar após uma migração. URLs antigas frequentemente permanecem em um sitemap após a mudança para uma nova plataforma. Se metade do seu sitemap retorna 404, Search Console mostrará a queda na cobertura. Audite o sitemap imediatamente após a migração.
  • Não verificar sitemaps filho individualmente. Se seu índice de sitemap tem um filho quebrado, você pode não notar até que os erros de rastreamento disparem. Teste cada URL de sitemap filho em isolamento para confirmar que retorna 200 e é analisado corretamente.

Dicas avançadas

  • Execute uma verificação de amostra primeiro em sitemaps grandes. Se a amostra revelar um padrão—toda URL é 301 ou lastmod está faltando—corrija antes de rastrear todas as 10.000 URLs. A amostra lhe dá signal em 10 segundos em vez de 5 minutos.
  • Compare datas de lastmod com datas de publicação de seu CMS. Se um post foi atualizado semana passada mas lastmod tem seis meses, seu script de geração de sitemap está quebrado.
  • Verifique seu sitemap mensalmente, não apenas uma vez. Conteúdo fica desatualizado, redirecionamentos são adicionados, URLs são despublicadas. Uma verificação mensal detecta degradação antes de Google fazer.
  • Se você vir um pico em 404s, exporte o CSV e referencie cruzada com seus logs do servidor. Às vezes uma URL é 404 no sitemap mas ainda recebe tráfego de backlinks, o que significa que deve ser redirecionada com 301 em vez de removida.
  • Teste o mesmo sitemap de dois agentes de usuário diferentes (Chrome desktop e Googlebot). Se os códigos de status diferirem, seu servidor está cloaking ou retornando respostas diferentes para bots, o que viola as diretrizes do Google.
  • Se duplicatas forem encontradas, verifique tags canônicas. Uma URL duplicada com uma canônica apontando para outro lugar pode permanecer no sitemap se for uma variante regional ou de idioma. Se não for uma variante, remova-a.

Depois de corrigir problemas de sitemap, valide que seu arquivo robots.txt declare corretamente a localização do sitemap com uma linha Sitemap:. Use o verificador de robots.txt para confirmar. Depois simule como Googlebot vê uma de suas páginas com o simulador de crawler do Google para confirmar que a URL carrega, JavaScript executa e o conteúdo é visível. Se você está verificando metadados junto com sitemaps, o verificador de metadados de site renderiza seu título, meta e tags OG conforme aparecem em SERPs.

Generate the whole content, not just check it.

BlazeHive writes SEO articles end to end from a single keyword. Outline, draft, meta, schema, internal links. Free trial, no card.

Start with BlazeHive Free trial

Perguntas frequentes

O que é um sitemap?

Um sitemap é um arquivo XML que lista cada URL que você quer que os mecanismos de busca rastreiem e indexem. Fica em seusite.com/sitemap.xml e atua como um diretório para crawlers, especialmente útil para sites grandes, sites novos com poucos backlinks ou sites com navegação profunda onde páginas ficam a cinco ou mais cliques da página inicial. Sitemaps não garantem indexação. Google ainda decide se uma página vale a pena ser indexada com base em qualidade e duplicação. Sem um sitemap, Google depende de links internos e backlinks externos para encontrar páginas, o que pode levar semanas ou até meses para conteúdo novo. Com um sitemap, você diz ao Google que a página existe e quando foi atualizada pela última vez, o que acelera a descoberta e ajuda a priorizar conteúdo fresco. Nosso verificador de sitemap busca seu sitemap.xml, analisa a estrutura, valida a sintaxe XML, verifica códigos de status HTTP para cada URL listada, marca duplicatas e detecta páginas órfãs (páginas em seu sitemap mas inacessíveis via links internos). Use-o após lançar um novo site, após uma migração ou trimestralmente para detectar regressões.

Como verifico se meu site tem um sitemap?

Tente três lugares. Primeiro, acrescente /sitemap.xml ao seu domínio (seudominio.com/sitemap.xml) e veja se carrega. A maioria dos CMSes gera um sitemap neste caminho automaticamente. Se você vê XML com uma lista de URLs, esse é seu sitemap. Segundo, verifique robots.txt em seudominio.com/robots.txt para uma linha começando com Sitemap: seguida por uma URL. Muitos sites declaram sua localização de sitemap aqui. Terceiro, faça login no Google Search Console, vá para Sitemaps em Index e veja quais URLs de sitemap você submeteu. Esta é a lista autorizada que Google usa para priorizar rastreamento. Se você encontrar uma URL de sitemap, cole-a em nosso campo Sitemap URL para validar estrutura, confirmar que todas as URLs retornam códigos de status 200 e detectar duplicatas ou órfãs. Se nenhum desses métodos encontrar um sitemap, você provavelmente não tem um. Está bem para sites com menos de 50 páginas mas é um problema para sites maiores. Gere um usando o plugin de seu CMS (Yoast, Rank Math, next-sitemap), depois submeta-o ao Search Console para acelerar a indexação.

Quais são os três tipos de sitemaps?

Os três tipos são sitemaps XML (para mecanismos de busca), sitemaps HTML (para usuários) e sitemaps visuais (para designers). Sitemaps XML são arquivos legíveis por máquina em formato XML que listam URLs, datas de última modificação, frequência de atualização e prioridade. Mecanismos de busca os usam para descobrir e priorizar páginas. Vivem em /sitemap.xml e não são destinados para navegação humana. Sitemaps HTML são páginas legíveis por humanos com links para cada seção principal de seu site, organizadas hierarquicamente. Ajudam usuários a navegar sites grandes e fornecem links internos. Vivem em URLs como /sitemap e frequentemente são vinculadas do rodapé. Sitemaps visuais são diagramas (em Figma, Miro, Sketch) que mapeiam hierarquia de página, fluxos de usuário e navegação antes de um site ser construído. São artefatos de planejamento, não páginas ativas. A maioria dos sites precisa de um sitemap XML (obrigatório para SEO) e se beneficia de um sitemap HTML se tiver mais de 100 páginas. Sitemaps visuais são para a fase de design. Nosso verificador valida apenas sitemaps XML. A maioria dos CMSes os gera automaticamente. Para sites estáticos, use next-sitemap ou astro-sitemap.

Como valido um sitemap?

Validar um sitemap significa verificar estrutura XML, acessibilidade de URL, precisão de metadados e limites de protocolo. Primeiro, confirme que o XML está bem formado com declaração correta e namespace (atributo xmlns apontando para sitemaps.org). XML malformado causa parsers rejeitarem o arquivo inteiro. Segundo, verifique que cada URL retorna um código de status 200, não 301, 404 ou erro 5xx. Mecanismos de busca podem ainda rastrear URLs redirecionadas ou quebradas, mas as deprioritizam. Terceiro, verifique que URLs usam caminhos absolutos (https://example.com/page, não /page) e correspondem ao seu domínio canônico (www ou non-www, não misturado). Quarto, confirme que o tamanho do arquivo é inferior a 50 MB descompactado com menos de 50.000 URLs. Se exceder qualquer um, divida em múltiplos sitemaps e use um arquivo de índice de sitemap. Quinto, valide que datas de lastmod usam formato W3C (YYYY-MM-DD ou ISO 8601). Nossa ferramenta automatiza todos os cinco: cole sua Sitemap URL, escolha crawl depth (apenas índice, todos os sitemaps referenciados ou amostra) e retornamos códigos de status, duplicatas, avisos de lastmod ausente e export CSV de problemas.

Google tem um gerador de sitemap?

Google costumava oferecer um gerador de sitemap (Google Sitemap Generator) para Apache e IIS, mas foi descontinuado anos atrás. Você não precisa mais dele. Quase todo CMS moderno e framework estático gera sitemaps automaticamente. WordPress (via Yoast SEO, Rank Math ou sitemap principal desde 5.5), Shopify (incorporado), Webflow (incorporado), Squarespace (incorporado), Wix (incorporado), Next.js (via next-sitemap), Astro (via astro-sitemap), Gatsby (via gatsby-plugin-sitemap) e Hugo (incorporado) todos criam e atualizam sitemaps XML sem trabalho manual. Para sites customizados, use bibliotecas de código aberto como sitemap.js (Node.js), django-sitemap (Python) ou um script de build. Uma vez que você tem um sitemap, submeta-o ao Google Search Console em Sitemaps. Google o rastreará periodicamente. Você pode fazer ping no Google manualmente após adicionar URLs enviando uma requisição GET para google.com/ping?sitemap=urldoseusitemap, embora a maioria dos CMSes faça isso automaticamente. Use nosso verificador de sitemap para validar o sitemap antes de submeter ao Search Console.

Com que frequência devo atualizar meu sitemap?

Atualize seu sitemap toda vez que publicar, despublicar ou editar significativamente uma página. A maioria dos CMSes e geradores estáticos lidam com isso automaticamente. Plugins WordPress regeneram o sitemap a cada publicação de post, Shopify o atualiza quando produtos mudam e frameworks estáticos reconstrõem o sitemap durante cada deploy. Se gerenciando manualmente (raro em sites customizados), regenere semanalmente ou após lotes de conteúdo. O campo lastmod diz aos mecanismos de busca quando uma página mudou, o que os ajuda a priorizar conteúdo fresco sobre desatualizado. Se você nunca atualiza lastmod ou define a mesma data para cada URL, mecanismos de busca o ignoram e recuam para descoberta de links e orçamento de rastreamento. Para publicadores diários (notícia, blogs, e-commerce com mudanças de inventário), sitemaps dinâmicos que se regeneram na publicação são essenciais. Para publicadores mensais ou trimestrais, um sitemap estático regenerado no deploy está bem. Não deixe seu sitemap listar URLs que retornam 404, redirecionam ou são bloqueadas por robots.txt. Isso desperdiça orçamento de rastreamento e sinaliza má qualidade de site. Use nosso verificador após grandes mudanças (migração, reestruturação de URL, mudanças de conteúdo em lote).

Qual é a diferença entre um sitemap e robots.txt?

Robots.txt diz aos crawlers quais partes de seu site eles podem ou não acessar. Um sitemap diz aos crawlers quais páginas você quer que eles priorizem rastrear. Eles servem propósitos diferentes e trabalham juntos. Robots.txt fica em seudominio.com/robots.txt, usa sintaxe plaintext com diretivas User-agent, Allow e Disallow, e bloqueia ou permite acesso a caminhos, arquivos ou diretórios. Ele declara onde seu sitemap fica via uma diretiva Sitemap:. Robots.txt é rastreado primeiro. Se você acidentalmente desaprovar seu site inteiro, crawlers param imediatamente e nunca veem seu sitemap. Um sitemap fica em seudominio.com/sitemap.xml, usa sintaxe XML e lista URLs que você quer rastreadas com metadados como lastmod e prioridade. Ele não controla acesso. Ele sugere o que rastrear. Crawlers podem ignorar seu sitemap se encontrarem páginas via links, mas não podem contornar robots.txt. Use robots.txt para bloquear painéis de administração, ambientes de staging e crawlers indesejados. Use um sitemap para listar cada página indexável.

Um sitemap pode melhorar meu SEO?

Um sitemap não melhora diretamente rankings, mas remove atrito de descoberta, o que indiretamente ajuda SEO garantindo que páginas novas e atualizadas sejam rastreadas mais rápido. Sem um sitemap, Google depende de links internos e backlinks externos para encontrar páginas, o que pode levar semanas para conteúdo novo, especialmente em sites grandes ou com linking interno fraco. Com um sitemap, você diz ao Google que a página existe e quando foi atualizada pela última vez, o que acelera a indexação. Isso é importante para sites novos com poucos backlinks, sites com hierarquias de página profundas (páginas enterradas cinco cliques da página inicial), sites com páginas órfãs e sites que publicam frequentemente (blogs, notícia, e-commerce). Um sitemap ajuda com eficiência de orçamento de rastreamento. Em vez de descobrir páginas via rastreamento de link, Google lê seu sitemap e sabe o que priorizar. No entanto, um sitemap não pode forçar Google a indexar páginas de baixa qualidade, duplicadas ou finas. Se uma página está em seu sitemap mas ainda não está indexada, o problema geralmente é qualidade de conteúdo, canonicalização ou tags de meta robots.

O que não deve estar em um sitemap?

Um sitemap deve apenas listar URLs que você quer indexadas, então exclua qualquer coisa bloqueada por robots.txt, marcada com noindex, redirecionando para outra URL, retornando 404 ou erros 5xx, ou canonicalizada para uma URL diferente. Incluir isso desperdiça orçamento de rastreamento e sinaliza má manutenção de site. Não inclua páginas de administração, páginas de login, páginas de checkout ou painéis de conta de usuário (geralmente bloqueados por robots.txt ou noindex). Não inclua URLs de parâmetro (como ?sort=price ou ?page=2) se você usa tags canônicas para consolidá-las. Não inclua ambientes de staging ou teste. Não inclua URLs que redirecionam (301 ou 302). Liste o destino final em vez disso. Não inclua URLs com tags meta noindex ou cabeçalhos X-Robots-Tag. Não inclua URLs paginadas a menos que cada página tenha conteúdo único que valha a pena indexar. A maioria dos sites de e-commerce deveria apenas incluir página 1, com tags rel=next/prev ou canônicas lidando com o resto. Não inclua URLs de conteúdo duplicado. Use tags canônicas para consolidar duplicatas, depois apenas liste a versão canônica.

Como corrijo erros de sitemap?

Erros de sitemap caem em três categorias: estrutural (XML malformado, namespace errado, arquivo muito grande), nível de URL (404s, redirecionamentos, páginas com noindex) e problemas de metadados (lastmod ausente, formatos de data incorretos). Corrija erros estruturais primeiro. Eles impedem crawlers de analisar o arquivo. Abra seu sitemap em um navegador ou validador XML, confirme que começa com a declaração XML correta e namespace (xmlns="http://www.sitemaps.org/schemas/sitemap/0.9") e verifique que cada tag de abertura tem uma tag de fechamento correspondente. Se seu sitemap exceder 50 MB ou 50.000 URLs, divida em múltiplos arquivos e crie um arquivo de índice de sitemap. Corrija erros de nível de URL removendo ou substituindo entradas quebradas. Delete qualquer URL que retorna 404, substitua URLs redirecionadas com seu destino final, remova URLs com tags noindex e confirme que cada URL corresponde ao seu domínio canônico (www ou non-www, não misturado). Corrija problemas de metadados garantindo que datas de lastmod usem formato ISO 8601 (YYYY-MM-DD ou YYYY-MM-DDTHH:MM:SS+00:00). Remova lastmod inteiramente se seu CMS não conseguir mantê-lo preciso. Depois de corrigir, revalide com nossa ferramenta e resubmita ao Google Search Console.

Ferramentas gratuitas relacionadas

Todas as ferramentas →