Skip to content
Verificação ao vivo · busca sua URL no servidor

Robots.txt Checker

Analise, teste por user-agent (incluindo GPTBot/ClaudeBot), detecte conflitos de regras.

Um arquivo robots.txt informa aos crawlers quais páginas eles podem e não podem acessar. A maioria dos validadores testa um bot e para. Este Robots.txt Checker testa por user-agent, incluindo os crawlers de IA que importam em 2026—GPTBot, ClaudeBot e PerplexityBot—detecta conflitos de regras quando múltiplas diretivas se aplicam e valida se seus links de sitemap realmente existem.

Generate the whole content, not just check it.

BlazeHive writes SEO articles end to end from a single keyword. Outline, draft, meta, schema, internal links. Free trial, no card.

Start with BlazeHive Free trial

O que um verificador de robots.txt realmente faz

Um verificador de robots.txt busca o arquivo /robots.txt do seu domínio, analisa cada bloco de user-agent e regra de disallow, depois testa se um determinado caminho é permitido ou bloqueado para um crawler específico. Ele aplica a regra com correspondência mais longa quando múltiplos padrões se sobrepõem, segue a ordem de precedência na especificação e relata se uma URL de teste seria rastreada.

A maioria dos crawlers procura primeiro por seu próprio bloco de user-agent. Se existe, eles usam essas regras. Se não, eles recorrem ao bloco User-agent: * curinga. Isso significa que um site pode permitir que o Googlebot acesse /admin enquanto bloqueia todos os outros bots. Nosso verificador simula essa cascata para qualquer user-agent que você selecione no menu suspenso User-agent para testar.

Dois erros comuns quebram arquivos robots.txt silenciosamente. O primeiro é erros de sintaxe: espaços extras, dois-pontos faltantes, terminações de linha do Windows ou "Disallow" em maiúsculas quando apenas minúsculas funcionam. O segundo é regras conflitantes—linhas allow e disallow que se sobrepõem, deixando ambíguo se um caminho está bloqueado. Nosso verificador sinaliza ambas e mostra qual regra vence.

Como usar este verificador de robots.txt

  1. Cole seu domínio completo em Site URL. Buscamos yourdomain.com/robots.txt automaticamente. Sem necessidade de digitar /robots.txt.
  2. Escolha um User-agent para testar no menu suspenso. Googlebot, Bingbot, GPTBot, ClaudeBot, CCBot, PerplexityBot, anthropic-ai ou * para curinga. Esta é a identidade do crawler que simulamos.
  3. Cole um caminho em Test path se você quiser verificar uma URL específica. Deixe em branco para ver o conjunto de regras completo analisado. Um caminho parece /admin ou /blog/post-slug.
  4. Clique em Check robots.txt. Você obtém o arquivo analisado, regras por agent, links de sitemap, crawl-delay se definido e um veredicto para seu caminho de teste.
  5. Expanda Rule conflicts se houver linhas sinalizadas. Mostramos linhas allow/disallow sobrepostas e dizemos qual um crawler real seguiria.

Tente testar yourdomain.com com User-agent definido como GPTBot e Test path definido como /blog. Se seu robots.txt não tiver um bloco GPTBot mas desallow todos os bots de /admin, o blog é permitido e admin é bloqueado. Alterne o user-agent para ClaudeBot e o resultado pode mudar se você tiver um bloco específico de ClaudeBot.

Por que testar por user-agent importa

Crawlers de busca não são mais os únicos bots que lêem robots.txt. Crawlers de treinamento de IA—GPTBot do OpenAI, ClaudeBot do Anthropic, CCBot do Common Crawl, PerplexityBot e Google-Extended—agora respeitam robots.txt para decidir se podem raspar seu conteúdo para treinamento de modelo. Se você os bloqueia, suas páginas ficam fora de conjuntos de dados de treinamento. Se você os permite, você está optando por isso.

Três consequências práticas.

Clareza de política. Um robots.txt que diz User-agent: * / Disallow: / bloqueia todo mundo, incluindo Google. Se essa não é sua intenção, você precisa de blocos separados por agent. Testar por user-agent revela o que cada bot vê antes de um modelo treinar em seu conteúdo.

Controle de crawler de IA. Em 2026, a maioria dos proprietários de site quer bots de busca dentro mas bots de treinamento fora. Isso requer blocos explícitos de disallow para GPTBot, ClaudeBot e CCBot. Concorrentes ignoram esses agents. Testamos eles por padrão porque importam.

Detecção de conflitos. Quando você tem tanto Disallow: /blog quanto Allow: /blog/public, a regra mais específica vence. Mas parsear manualmente qual regra é mais longa ou mais específica é propenso a erros. Testar mostra exatamente o que um bot faria, não o que você pensa que o arquivo diz.

Precedência de regra e curingas

A especificação de robots.txt define uma ordem de precedência quando múltiplas regras correspondem ao mesmo caminho. A regra com o prefixo correspondente mais longo vence. Se duas regras têm o mesmo comprimento, a regra allow vence sobre disallow.

Curingas tornam isso mais difícil de ver. Uma linha como Disallow: /admin* bloqueia /admin, /admin/users e /admin-panel. Uma linha posterior Allow: /admin/public a substitui para essa pasta porque /admin/public é mais longa que /admin. Nosso verificador avalia ambas e diz qual se aplica.

O curinga $ ancora o final de um caminho. Disallow: /*.pdf$ bloqueia todos os arquivos PDF mas permite /report.pdf.html porque o caminho não termina em .pdf. Concorrentes frequentemente fazem parse de $ errado ou o ignoram. Nós correspondemos à implementação do Google.

O nome do user-agent não diferencia maiúsculas e minúsculas na especificação, então User-agent: googlebot e User-agent: Googlebot são idênticos. Caminhos de disallow são sensíveis a maiúsculas e minúsculas na maioria dos servidores. /Admin e /admin são URLs diferentes. Nosso verificador respeita ambas as regras.

Validação de sitemap e diretivas de rastreamento

Todo arquivo robots.txt deve incluir pelo menos uma linha Sitemap: apontando para seu arquivo sitemap.xml. Isso informa aos crawlers onde encontrar a lista de URLs que você deseja indexar. Nosso verificador busca cada URL de sitemap listado em seu robots.txt e relata o código de status HTTP. Se um sitemap retorna 404, crawlers não podem usá-lo e você perde um sinal que ajuda com descoberta.

Múltiplas declarações de sitemap são válidas. Se você tiver sitemaps separados para posts, páginas e produtos, liste todos os três. Se você usar um índice de sitemap que referencia sitemaps filho, liste apenas o índice. Evite listar cada sitemap filho individualmente porque desordena o arquivo e duplica informações já no índice.

A diretiva Crawl-delay: define o número mínimo de segundos que um bot deve esperar entre solicitações ao seu servidor. Googlebot ignora completamente essa diretiva e usa sua própria taxa de rastreamento adaptativa baseada no tempo de resposta do servidor. Bingbot, Yandex e alguns crawlers menores a respeitam. Um crawl-delay de 1 segundo é seguro. Um atraso de 10 ou superior efetivamente para a maioria do rastreamento em grandes sites. Use apenas se seu servidor não conseguir lidar com taxas de rastreamento normais.

Uma diretiva menos comum é Request-rate:, que define um número de solicitações por janela de tempo. Poucos crawlers a suportam e ela não é parte da especificação oficial. Se você vê isso em um robots.txt, é provavelmente legado ou não-padrão. Nosso verificador a nota mas não a força porque o comportamento do crawler varia.

Erros de sintaxe e casos extremos de validação

A sintaxe de robots.txt é inflexível. Um único espaço ou tabulação deslocada pode invalidar uma regra. O nome da diretiva—User-agent, Disallow, Allow, Sitemap, Crawl-delay—deve ser seguido por um dois-pontos sem espaço antes dele e pelo menos um espaço ou tabulação depois dele. Disallow:/admin falha. Disallow: /admin funciona. Nosso verificador sinaliza problemas de espaçamento e sugere correções.

Terminações de linha do Windows—\r\n em vez de \n—causam problemas em alguns servidores. Quando um arquivo robots.txt é editado no Windows e carregado sem conversão, bots podem ler incorretamente quebras de linha e tratar múltiplas linhas como uma. Nosso verificador detecta terminações de linha não-Unix e as relata como um aviso.

Comentários em robots.txt começam com #. Tudo após o # naquela linha é ignorado. Um erro comum é comentar acidentalmente uma diretiva: # Disallow: /admin não faz nada. Se você vir regras que deveriam se aplicar mas não se aplicam, verifique se há caracteres # aleatórios.

Linhas em branco separam blocos de user-agent. Uma linha em branco termina o bloco atual e o próximo User-agent: inicia um novo. Se você tiver User-agent: Googlebot, Disallow: /private, depois uma linha em branco, depois Allow: /public, a regra allow não se aplica ao Googlebot—ela inicia um novo bloco sem user-agent, o que é inválido. Nosso verificador sinaliza diretivas órfãs e sugere agrupá-las sob o user-agent correto.

Erros comuns

  • Bloquear Googlebot acidentalmente. Um bloco User-agent: * com Disallow: / bloqueia todo bot, incluindo Google. Se você quer Googlebot dentro, adicione um bloco separado User-agent: Googlebot com Allow: / antes do bloco curinga. A ordem importa.
  • Esquecer a barra inicial. Disallow: admin não faz nada. Deve ser Disallow: /admin. Nosso verificador sinaliza isso como um erro de sintaxe provável.
  • Testar apenas Googlebot. Seu robots.txt pode permitir Google mas bloquear Bingbot ou GPTBot sem você notar. Teste todos os agents que você se importa, não apenas um.
  • Deixar de fora crawlers de IA. Se seu arquivo não tem um bloco GPTBot ou ClaudeBot, esses bots recorrem a User-agent: *. Isso pode permitir que eles quando você pensava que tudo estava bloqueado. Blocos explícitos por agent tornam a política inequívoca.
  • Assumir que links de sitemap são validados em outro lugar. Uma URL de sitemap em robots.txt pode estar quebrada, retornar 404 ou apontar para um arquivo XML que não existe mais. Nosso verificador testa o link e relata o código de status.

Dicas avançadas

  • Teste o mesmo caminho contra múltiplos user-agents em sequência. Se o resultado mudar, seus blocos por agent estão funcionando. Se permanece o mesmo, você pode estar confiando apenas no bloco curinga.
  • Verifique a linha Crawl-delay se presente. Googlebot a ignora, mas Bingbot e alguns outros a respeitam. Um atraso de 10 segundos pode desacelerar um rastreamento quase totalmente em grandes sites.
  • Veja as linhas Sitemap. Múltiplas declarações de sitemap são válidas. Se você tem um índice de sitemap, liste-o uma vez em vez de repetir cada sub-sitemap. Buscamos cada link e confirmamos que retorna HTTP 200.
  • Teste um caminho com parâmetros de consulta. Disallow: /search bloqueia /search?q=test na maioria dos servidores, mas Disallow: /search$ não bloquearia porque $ espera nenhum caractere final. Se você quer bloquear cadeias de consulta, use o asterisco: Disallow: /search*.
  • Baixe a saída analisada como referência. Quando você regenera robots.txt ou muda de CMS, re-verifique contra os mesmos caminhos de teste para confirmar que o comportamento não mudou.
  • Use o relatório de conflitos antes de implantar um novo robots.txt. Se duas regras se sobrepõem, sua interpretação local pode diferir da do Googlebot. Testar remove a adivinhação.

Se você precisa gerar um novo arquivo robots.txt do zero com presets para WordPress, Shopify ou Next.js, use nosso gerador de arquivo robots.txt. Ele inclui toggles explícitos de AI-crawler e gera um arquivo pronto para produção com sintaxe garantidamente válida. Após implantar, re-verifique com esta ferramenta. Se você quiser ver como o Googlebot renderiza a página após respeitar robots.txt e executar JavaScript, o simulador de crawler do Google mostra o HTML exato e o texto visível que um bot indexa. Para confirmar que cada URL em seu sitemap é alcançável e retorna 200, use o verificador de sitemap.

Generate the whole content, not just check it.

BlazeHive writes SEO articles end to end from a single keyword. Outline, draft, meta, schema, internal links. Free trial, no card.

Start with BlazeHive Free trial

Perguntas frequentes

O que é um arquivo robots.txt?

Um arquivo robots.txt é um arquivo de texto simples na raiz do seu domínio que informa aos crawlers quais caminhos eles podem e não podem solicitar. Ele fica em exatamente um local: /robots.txt. Googlebot o verifica antes de cada rastreamento, assim como Bingbot, GPTBot (OpenAI), ClaudeBot (Anthropic), CCBot (Common Crawl), PerplexityBot e Google-Extended. O arquivo usa uma gramática simples. Você escreve um ou mais blocos de User-agent, cada um seguido por regras Allow e Disallow. Uma linha de Sitemap perto do topo aponta crawlers para seu índice XML para que eles não precisem adivinhar a estrutura. Cole qualquer URL de site em nosso verificador de robots.txt, escolha um User-agent e você verá a tabela de regras analisadas mais qual regra vence para esse bot específico nesse caminho específico. Se você ainda não tem um arquivo, gere um com nosso gerador de robots.txt e o preset de CMS correto incorporado.

O que um verificador de robots.txt realmente testa?

Um verificador real de robots.txt faz quatro coisas. Ele busca o arquivo e confirma se é alcançável com status 200 e o tipo de conteúdo correto. Ele analisa a sintaxe para que você pegue erros de digitação que silenciosamente quebram regras: capitalização errada em User-agent, dois-pontos faltantes, caracteres BOM aleatórios no início do arquivo. Ele resolve um caminho específico para um bot específico para que você possa responder "é /admin bloqueado para GPTBot agora?" sem adivinhar. E detecta conflitos de ordem de regra onde dois bots herdam regras diferentes de blocos de User-agent sobrepostos. A maioria dos verificadores gratuitos para na etapa um. O nosso executa o conjunto completo. Defina Site URL, escolha o bot em User-agent, solte um Test path opcional e você obtém um veredicto por regra. Quando você implementa uma correção, confirme a mudança com uma segunda passagem no verificador antes de passar para outro trabalho.

Onde encontro meu arquivo robots.txt?

Digite seu domínio seguido de /robots.txt em qualquer navegador. Se https://www.example.com/robots.txt retorna 200 e mostra texto simples, você tem um. Se retorna 404 ou sua homepage de CMS, você não tem. O arquivo deve ficar exatamente na raiz do domínio. Caminhos em subdiretórios como /blog/robots.txt são completamente ignorados por todo crawler. Subdomínios são separados: blog.example.com e www.example.com cada um precisa do seu próprio arquivo em sua própria raiz. Sites WordPress geralmente têm um virtual gerado pelo plugin de SEO; Shopify gera um automaticamente e bloqueia a maioria dele; Next.js e Astro precisam que você envie um arquivo estático sob /public. Se você não tem certeza o que crawlers realmente vêem, cole sua URL em nosso verificador de robots.txt e buscamos com os exatos headers que um bot real envia para que o resultado coincida com a realidade do crawler. Para uma reescrita limpa com presets de CMS incorporados, use o gerador.

Como corrijo um erro "blocked by robots.txt" no Search Console?

Search Console sinaliza "blocked by robots.txt" quando uma regra de Disallow cobre a URL que o Google tentou rastrear. Abra a ferramenta de Inspeção de URL para ver qual regra o Google correspondeu. Então execute a mesma URL através do nosso verificador de robots.txt com User-agent definido como Googlebot e o caminho bloqueado colado em Test path. O verificador mostra exatamente qual regra correspondeu e o bloco de User-agent que veio, para que você possa corrigir a fonte em vez de adivinhar. Três correções cobrem quase todo caso. Remova a linha de Disallow ofensiva. Estreite-a com um caminho mais específico. Ou adicione uma regra Allow acima dela (a correspondência mais longa vence na sobreposição). Implante a mudança, teste o mesmo caminho novamente no verificador, depois solicite reindexação de volta no Search Console. Se páginas ainda parecem bloqueadas, a cópia em cache do Google pode estar em jogo; ela atualiza robots.txt aproximadamente a cada 24 horas.

Devo bloquear crawlers de IA em robots.txt?

Isso depende do que você está otimizando. Bloqueie-os se seu conteúdo é o produto: publicadores, pesquisa paga, arquivos de assinatura, qualquer coisa onde dados de treinamento gratuitos prejudica o negócio. Permita se você quer ser citado em respostas do ChatGPT e Claude, onde ser a fonte citada direciona tráfego de referência de volta ao seu site. A lista de 2026 que vale a pena nomear explicitamente: GPTBot (OpenAI), ClaudeBot e anthropic-ai (Anthropic), CCBot (Common Crawl, que treina muitos modelos), PerplexityBot e Google-Extended (controla o uso de treinamento de páginas rastreadas por Googlebot sem afetar seus rankings em busca normal no Google). Nosso gerador de robots.txt oferece uma caixa de seleção por crawler para que você decida por bot, não por tudo. Após você implementar, teste cada um com nosso verificador contra um caminho real para confirmar que a regra se resolve como você espera para esse bot. A maioria dos bugs vem de conflitos de ordem de regra entre blocos de User-agent sobrepostos, não de entradas faltantes.

Como um arquivo robots.txt deve ser estruturado?

Comece com uma linha de Sitemap apontando para seu índice XML. Depois agrupe regras por User-agent. O bloco curinga (User-agent: *) pega todo bot não nomeado em outro lugar, então coloque-o por último. Acima dele, adicione blocos nomeados para bots que você quer tratar diferentemente: Googlebot, Bingbot, GPTBot, ClaudeBot, CCBot, PerplexityBot, Google-Extended. Cada bloco pode ter múltiplas linhas de Allow e Disallow. A correspondência mais longa e mais específica vence quando regras se sobrepõem. Mantenha caminhos sensíveis a maiúsculas e minúsculas: Disallow: /Admin não bloqueia /admin. Liste um Sitemap por domínio, declarado uma vez perto do topo. Mantenha o arquivo em menos de 500 KB ou Google começa a ignorar linhas após esse ponto. Nosso gerador de robots.txt estrutura tudo isso para você com um preset de CMS e toggles de AI-crawler. Depois que você publica, verifique se a estrutura faz parse corretamente com nosso verificador contra alguns URLs reais e cada bot nomeado antes de você fechar o ticket.

Qual é a diferença entre Disallow e noindex?

Disallow em robots.txt informa a um bot que não rastreie uma URL. Não informa ao bot que não a indexe. Se outro site liga para uma página Disallowed, Google ainda pode listar a URL em resultados de pesquisa com "no description available" abaixo dela. Para realmente manter uma página fora do índice, use uma tag meta robots noindex na página em si ou um header X-Robots-Tag noindex na resposta HTTP. O problema: Google tem que rastrear a página para ver a tag noindex. Então se você tanto Disallow quanto noindex, noindex nunca toma efeito e a página fica em resultados. Escolha uma por página. Disallow é para orçamento de rastreamento (bloqueando admin, busca interna, URLs de filtro). Noindex é para manter conteúdo fora de resultados completamente. Para uma auditoria completa de diretivas de robots em nível de página, use nosso simulador de crawler junto com o verificador de metadados de website.

robots.txt ainda funciona em 2026?

Sim, para crawlers que escolhem honrá-lo. Googlebot, Bingbot e os principais crawlers de IA (GPTBot, ClaudeBot, PerplexityBot, CCBot, Google-Extended) todos respeitam robots.txt como uma questão de política. Scrapers rogue o ignoram porque o arquivo é um pedido educado, não um firewall. Se você precisa de bloqueio hard, adicione regras do lado do servidor: listas de negação de IP, gerenciamento de bot do Cloudflare, rate limiting ou autenticação na frente dos caminhos sensíveis. Use robots.txt para o que é bom: moldar quais páginas os bots que você se importa gastam seu orçamento de rastreamento em. A diferença de 2026 é IA. Cinco anos atrás, "os bots" significava Google e Bing. Hoje a lista é mais longa e cada crawler de IA usa um nome de User-agent diferente. Nosso verificador testa qualquer um deles em um clique para que você possa ver exatamente o que cada bot vê. Emparelhe com nosso simulador de crawler para uma visualização de página renderizada.

Posso usar curingas em robots.txt?

Sim, dois curingas são suportados e entendidos por todos os bots principais. O asterisco (*) corresponde a qualquer sequência de caracteres e o símbolo de dólar ($) ancora o padrão ao final de uma URL. Disallow: /*.pdf$ bloqueia cada URL terminando em .pdf. Disallow: /*?sort= bloqueia qualquer URL com um parâmetro sort em qualquer lugar nela. Combine-os: Disallow: /search?*&page=$ bloqueia resultados de busca interna paginados mas deixa a página de busca principal rastreável. Curingas não funcionam em linhas de User-agent, então você não pode escrever User-agent: Google* e acertar cada bot do Google. Nomeie cada um explicitamente (Googlebot, Googlebot-Image, Googlebot-News). A correspondência literal mais longa vence sobre uma correspondência de padrão mais curta. Teste regras de curinga com um caminho concreto em nosso verificador porque modelos mentais quebram rápido com parâmetros aninhados, cadeias de consulta e padrões sobrepostos que parecem finos no papel. Para uma baseline limpa, gere um com nosso gerador e itere a partir daí com caminhos de teste.

robots.txt protegerá páginas sensíveis?

Não. Robots.txt é um documento público que qualquer pessoa pode ler em yourdomain.com/robots.txt digitando em um navegador. Listar um caminho lá informa a cada crawler, cada concorrente e cada humano curioso que o caminho existe em seu site. Para URLs de staging, painéis de admin ou arquivos privados, isso é o oposto do que você quer: você acaba de os anunciar. Proteção real vem de controles do lado do servidor: autenticação de senha, listas de permissão de IP, acesso somente por VPN ou simplesmente não expor a URL em um servidor público. Uma tag meta robots noindex mantém a página fora dos resultados de pesquisa se a página é alcançável mas você quer que seja privada para buscadores. Para conteúdo verdadeiramente oculto, não o ligue, não o liste em sitemaps e gate-o com auth. Use robots.txt para moldar orçamento de rastreamento em páginas que você não se importa se forem públicas. Audite o que está exposto com nosso verificador de metadados e confirme regras de robots com nosso verificador de robots.txt.

Ferramentas gratuitas relacionadas

Todas as ferramentas →