O que um verificador de robots.txt realmente faz
Um verificador de robots.txt busca o arquivo /robots.txt do seu domínio, analisa cada bloco de user-agent e regra de disallow, depois testa se um determinado caminho é permitido ou bloqueado para um crawler específico. Ele aplica a regra com correspondência mais longa quando múltiplos padrões se sobrepõem, segue a ordem de precedência na especificação e relata se uma URL de teste seria rastreada.
A maioria dos crawlers procura primeiro por seu próprio bloco de user-agent. Se existe, eles usam essas regras. Se não, eles recorrem ao bloco User-agent: * curinga. Isso significa que um site pode permitir que o Googlebot acesse /admin enquanto bloqueia todos os outros bots. Nosso verificador simula essa cascata para qualquer user-agent que você selecione no menu suspenso User-agent para testar.
Dois erros comuns quebram arquivos robots.txt silenciosamente. O primeiro é erros de sintaxe: espaços extras, dois-pontos faltantes, terminações de linha do Windows ou "Disallow" em maiúsculas quando apenas minúsculas funcionam. O segundo é regras conflitantes—linhas allow e disallow que se sobrepõem, deixando ambíguo se um caminho está bloqueado. Nosso verificador sinaliza ambas e mostra qual regra vence.
Como usar este verificador de robots.txt
- Cole seu domínio completo em Site URL. Buscamos
yourdomain.com/robots.txtautomaticamente. Sem necessidade de digitar/robots.txt. - Escolha um User-agent para testar no menu suspenso. Googlebot, Bingbot, GPTBot, ClaudeBot, CCBot, PerplexityBot, anthropic-ai ou * para curinga. Esta é a identidade do crawler que simulamos.
- Cole um caminho em Test path se você quiser verificar uma URL específica. Deixe em branco para ver o conjunto de regras completo analisado. Um caminho parece
/adminou/blog/post-slug. - Clique em Check robots.txt. Você obtém o arquivo analisado, regras por agent, links de sitemap, crawl-delay se definido e um veredicto para seu caminho de teste.
- Expanda Rule conflicts se houver linhas sinalizadas. Mostramos linhas allow/disallow sobrepostas e dizemos qual um crawler real seguiria.
Tente testar yourdomain.com com User-agent definido como GPTBot e Test path definido como /blog. Se seu robots.txt não tiver um bloco GPTBot mas desallow todos os bots de /admin, o blog é permitido e admin é bloqueado. Alterne o user-agent para ClaudeBot e o resultado pode mudar se você tiver um bloco específico de ClaudeBot.
Por que testar por user-agent importa
Crawlers de busca não são mais os únicos bots que lêem robots.txt. Crawlers de treinamento de IA—GPTBot do OpenAI, ClaudeBot do Anthropic, CCBot do Common Crawl, PerplexityBot e Google-Extended—agora respeitam robots.txt para decidir se podem raspar seu conteúdo para treinamento de modelo. Se você os bloqueia, suas páginas ficam fora de conjuntos de dados de treinamento. Se você os permite, você está optando por isso.
Três consequências práticas.
Clareza de política. Um robots.txt que diz User-agent: * / Disallow: / bloqueia todo mundo, incluindo Google. Se essa não é sua intenção, você precisa de blocos separados por agent. Testar por user-agent revela o que cada bot vê antes de um modelo treinar em seu conteúdo.
Controle de crawler de IA. Em 2026, a maioria dos proprietários de site quer bots de busca dentro mas bots de treinamento fora. Isso requer blocos explícitos de disallow para GPTBot, ClaudeBot e CCBot. Concorrentes ignoram esses agents. Testamos eles por padrão porque importam.
Detecção de conflitos. Quando você tem tanto Disallow: /blog quanto Allow: /blog/public, a regra mais específica vence. Mas parsear manualmente qual regra é mais longa ou mais específica é propenso a erros. Testar mostra exatamente o que um bot faria, não o que você pensa que o arquivo diz.
Precedência de regra e curingas
A especificação de robots.txt define uma ordem de precedência quando múltiplas regras correspondem ao mesmo caminho. A regra com o prefixo correspondente mais longo vence. Se duas regras têm o mesmo comprimento, a regra allow vence sobre disallow.
Curingas tornam isso mais difícil de ver. Uma linha como Disallow: /admin* bloqueia /admin, /admin/users e /admin-panel. Uma linha posterior Allow: /admin/public a substitui para essa pasta porque /admin/public é mais longa que /admin. Nosso verificador avalia ambas e diz qual se aplica.
O curinga $ ancora o final de um caminho. Disallow: /*.pdf$ bloqueia todos os arquivos PDF mas permite /report.pdf.html porque o caminho não termina em .pdf. Concorrentes frequentemente fazem parse de $ errado ou o ignoram. Nós correspondemos à implementação do Google.
O nome do user-agent não diferencia maiúsculas e minúsculas na especificação, então User-agent: googlebot e User-agent: Googlebot são idênticos. Caminhos de disallow são sensíveis a maiúsculas e minúsculas na maioria dos servidores. /Admin e /admin são URLs diferentes. Nosso verificador respeita ambas as regras.
Validação de sitemap e diretivas de rastreamento
Todo arquivo robots.txt deve incluir pelo menos uma linha Sitemap: apontando para seu arquivo sitemap.xml. Isso informa aos crawlers onde encontrar a lista de URLs que você deseja indexar. Nosso verificador busca cada URL de sitemap listado em seu robots.txt e relata o código de status HTTP. Se um sitemap retorna 404, crawlers não podem usá-lo e você perde um sinal que ajuda com descoberta.
Múltiplas declarações de sitemap são válidas. Se você tiver sitemaps separados para posts, páginas e produtos, liste todos os três. Se você usar um índice de sitemap que referencia sitemaps filho, liste apenas o índice. Evite listar cada sitemap filho individualmente porque desordena o arquivo e duplica informações já no índice.
A diretiva Crawl-delay: define o número mínimo de segundos que um bot deve esperar entre solicitações ao seu servidor. Googlebot ignora completamente essa diretiva e usa sua própria taxa de rastreamento adaptativa baseada no tempo de resposta do servidor. Bingbot, Yandex e alguns crawlers menores a respeitam. Um crawl-delay de 1 segundo é seguro. Um atraso de 10 ou superior efetivamente para a maioria do rastreamento em grandes sites. Use apenas se seu servidor não conseguir lidar com taxas de rastreamento normais.
Uma diretiva menos comum é Request-rate:, que define um número de solicitações por janela de tempo. Poucos crawlers a suportam e ela não é parte da especificação oficial. Se você vê isso em um robots.txt, é provavelmente legado ou não-padrão. Nosso verificador a nota mas não a força porque o comportamento do crawler varia.
Erros de sintaxe e casos extremos de validação
A sintaxe de robots.txt é inflexível. Um único espaço ou tabulação deslocada pode invalidar uma regra. O nome da diretiva—User-agent, Disallow, Allow, Sitemap, Crawl-delay—deve ser seguido por um dois-pontos sem espaço antes dele e pelo menos um espaço ou tabulação depois dele. Disallow:/admin falha. Disallow: /admin funciona. Nosso verificador sinaliza problemas de espaçamento e sugere correções.
Terminações de linha do Windows—\r\n em vez de \n—causam problemas em alguns servidores. Quando um arquivo robots.txt é editado no Windows e carregado sem conversão, bots podem ler incorretamente quebras de linha e tratar múltiplas linhas como uma. Nosso verificador detecta terminações de linha não-Unix e as relata como um aviso.
Comentários em robots.txt começam com #. Tudo após o # naquela linha é ignorado. Um erro comum é comentar acidentalmente uma diretiva: # Disallow: /admin não faz nada. Se você vir regras que deveriam se aplicar mas não se aplicam, verifique se há caracteres # aleatórios.
Linhas em branco separam blocos de user-agent. Uma linha em branco termina o bloco atual e o próximo User-agent: inicia um novo. Se você tiver User-agent: Googlebot, Disallow: /private, depois uma linha em branco, depois Allow: /public, a regra allow não se aplica ao Googlebot—ela inicia um novo bloco sem user-agent, o que é inválido. Nosso verificador sinaliza diretivas órfãs e sugere agrupá-las sob o user-agent correto.
Erros comuns
- Bloquear Googlebot acidentalmente. Um bloco
User-agent: *comDisallow: /bloqueia todo bot, incluindo Google. Se você quer Googlebot dentro, adicione um bloco separadoUser-agent: GooglebotcomAllow: /antes do bloco curinga. A ordem importa. - Esquecer a barra inicial.
Disallow: adminnão faz nada. Deve serDisallow: /admin. Nosso verificador sinaliza isso como um erro de sintaxe provável. - Testar apenas Googlebot. Seu robots.txt pode permitir Google mas bloquear Bingbot ou GPTBot sem você notar. Teste todos os agents que você se importa, não apenas um.
- Deixar de fora crawlers de IA. Se seu arquivo não tem um bloco GPTBot ou ClaudeBot, esses bots recorrem a
User-agent: *. Isso pode permitir que eles quando você pensava que tudo estava bloqueado. Blocos explícitos por agent tornam a política inequívoca. - Assumir que links de sitemap são validados em outro lugar. Uma URL de sitemap em robots.txt pode estar quebrada, retornar 404 ou apontar para um arquivo XML que não existe mais. Nosso verificador testa o link e relata o código de status.
Dicas avançadas
- Teste o mesmo caminho contra múltiplos user-agents em sequência. Se o resultado mudar, seus blocos por agent estão funcionando. Se permanece o mesmo, você pode estar confiando apenas no bloco curinga.
- Verifique a linha Crawl-delay se presente. Googlebot a ignora, mas Bingbot e alguns outros a respeitam. Um atraso de 10 segundos pode desacelerar um rastreamento quase totalmente em grandes sites.
- Veja as linhas Sitemap. Múltiplas declarações de sitemap são válidas. Se você tem um índice de sitemap, liste-o uma vez em vez de repetir cada sub-sitemap. Buscamos cada link e confirmamos que retorna HTTP 200.
- Teste um caminho com parâmetros de consulta.
Disallow: /searchbloqueia/search?q=testna maioria dos servidores, masDisallow: /search$não bloquearia porque$espera nenhum caractere final. Se você quer bloquear cadeias de consulta, use o asterisco:Disallow: /search*. - Baixe a saída analisada como referência. Quando você regenera robots.txt ou muda de CMS, re-verifique contra os mesmos caminhos de teste para confirmar que o comportamento não mudou.
- Use o relatório de conflitos antes de implantar um novo robots.txt. Se duas regras se sobrepõem, sua interpretação local pode diferir da do Googlebot. Testar remove a adivinhação.
Se você precisa gerar um novo arquivo robots.txt do zero com presets para WordPress, Shopify ou Next.js, use nosso gerador de arquivo robots.txt. Ele inclui toggles explícitos de AI-crawler e gera um arquivo pronto para produção com sintaxe garantidamente válida. Após implantar, re-verifique com esta ferramenta. Se você quiser ver como o Googlebot renderiza a página após respeitar robots.txt e executar JavaScript, o simulador de crawler do Google mostra o HTML exato e o texto visível que um bot indexa. Para confirmar que cada URL em seu sitemap é alcançável e retorna 200, use o verificador de sitemap.