Question 1

O que é um arquivo robots.txt?

Accepted Answer

Um arquivo robots.txt é um arquivo de texto simples na raiz do seu domínio que informa aos crawlers quais caminhos eles podem e não podem solicitar. Ele fica em exatamente um local: /robots.txt. Googlebot o verifica antes de cada rastreamento, assim como Bingbot, GPTBot (OpenAI), ClaudeBot (Anthropic), CCBot (Common Crawl), PerplexityBot e Google-Extended. O arquivo usa uma gramática simples. Você escreve um ou mais blocos de User-agent, cada um seguido por regras Allow e Disallow. Uma linha de Sitemap perto do topo aponta crawlers para seu índice XML para que eles não precisem adivinhar a estrutura. Cole qualquer URL de site em nosso verificador de robots.txt , escolha um User-agent e você verá a tabela de regras analisadas mais qual regra vence para esse bot específico nesse caminho específico. Se você ainda não tem um arquivo, gere um com nosso gerador de robots.txt e o preset de CMS correto incorporado.

Question 2

O que um verificador de robots.txt realmente testa?

Accepted Answer

Um verificador real de robots.txt faz quatro coisas. Ele busca o arquivo e confirma se é alcançável com status 200 e o tipo de conteúdo correto. Ele analisa a sintaxe para que você pegue erros de digitação que silenciosamente quebram regras: capitalização errada em User-agent, dois-pontos faltantes, caracteres BOM aleatórios no início do arquivo. Ele resolve um caminho específico para um bot específico para que você possa responder "é /admin bloqueado para GPTBot agora?" sem adivinhar. E detecta conflitos de ordem de regra onde dois bots herdam regras diferentes de blocos de User-agent sobrepostos. A maioria dos verificadores gratuitos para na etapa um. O nosso executa o conjunto completo. Defina Site URL , escolha o bot em User-agent , solte um Test path opcional e você obtém um veredicto por regra. Quando você implementa uma correção, confirme a mudança com uma segunda passagem no verificador antes de passar para outro trabalho.

Question 3

Onde encontro meu arquivo robots.txt?

Accepted Answer

Digite seu domínio seguido de /robots.txt em qualquer navegador. Se https://www.example.com/robots.txt retorna 200 e mostra texto simples, você tem um. Se retorna 404 ou sua homepage de CMS, você não tem. O arquivo deve ficar exatamente na raiz do domínio. Caminhos em subdiretórios como /blog/robots.txt são completamente ignorados por todo crawler. Subdomínios são separados: blog.example.com e www.example.com cada um precisa do seu próprio arquivo em sua própria raiz. Sites WordPress geralmente têm um virtual gerado pelo plugin de SEO; Shopify gera um automaticamente e bloqueia a maioria dele; Next.js e Astro precisam que você envie um arquivo estático sob /public. Se você não tem certeza o que crawlers realmente vêem, cole sua URL em nosso verificador de robots.txt e buscamos com os exatos headers que um bot real envia para que o resultado coincida com a realidade do crawler. Para uma reescrita limpa com presets de CMS incorporados, use o gerador .

Question 4

Como corrijo um erro "blocked by robots.txt" no Search Console?

Accepted Answer

Search Console sinaliza "blocked by robots.txt" quando uma regra de Disallow cobre a URL que o Google tentou rastrear. Abra a ferramenta de Inspeção de URL para ver qual regra o Google correspondeu. Então execute a mesma URL através do nosso verificador de robots.txt com User-agent definido como Googlebot e o caminho bloqueado colado em Test path . O verificador mostra exatamente qual regra correspondeu e o bloco de User-agent que veio, para que você possa corrigir a fonte em vez de adivinhar. Três correções cobrem quase todo caso. Remova a linha de Disallow ofensiva. Estreite-a com um caminho mais específico. Ou adicione uma regra Allow acima dela (a correspondência mais longa vence na sobreposição). Implante a mudança, teste o mesmo caminho novamente no verificador, depois solicite reindexação de volta no Search Console. Se páginas ainda parecem bloqueadas, a cópia em cache do Google pode estar em jogo; ela atualiza robots.txt aproximadamente a cada 24 horas.

Question 5

Devo bloquear crawlers de IA em robots.txt?

Accepted Answer

Isso depende do que você está otimizando. Bloqueie-os se seu conteúdo é o produto: publicadores, pesquisa paga, arquivos de assinatura, qualquer coisa onde dados de treinamento gratuitos prejudica o negócio. Permita se você quer ser citado em respostas do ChatGPT e Claude, onde ser a fonte citada direciona tráfego de referência de volta ao seu site. A lista de 2026 que vale a pena nomear explicitamente: GPTBot (OpenAI), ClaudeBot e anthropic-ai (Anthropic), CCBot (Common Crawl, que treina muitos modelos), PerplexityBot e Google-Extended (controla o uso de treinamento de páginas rastreadas por Googlebot sem afetar seus rankings em busca normal no Google). Nosso gerador de robots.txt oferece uma caixa de seleção por crawler para que você decida por bot, não por tudo. Após você implementar, teste cada um com nosso verificador contra um caminho real para confirmar que a regra se resolve como você espera para esse bot. A maioria dos bugs vem de conflitos de ordem de regra entre blocos de User-agent sobrepostos, não de entradas faltantes.

Question 6

Como um arquivo robots.txt deve ser estruturado?

Accepted Answer

Comece com uma linha de Sitemap apontando para seu índice XML. Depois agrupe regras por User-agent. O bloco curinga (User-agent: *) pega todo bot não nomeado em outro lugar, então coloque-o por último. Acima dele, adicione blocos nomeados para bots que você quer tratar diferentemente: Googlebot, Bingbot, GPTBot, ClaudeBot, CCBot, PerplexityBot, Google-Extended. Cada bloco pode ter múltiplas linhas de Allow e Disallow. A correspondência mais longa e mais específica vence quando regras se sobrepõem. Mantenha caminhos sensíveis a maiúsculas e minúsculas: Disallow: /Admin não bloqueia /admin. Liste um Sitemap por domínio, declarado uma vez perto do topo. Mantenha o arquivo em menos de 500 KB ou Google começa a ignorar linhas após esse ponto. Nosso gerador de robots.txt estrutura tudo isso para você com um preset de CMS e toggles de AI-crawler. Depois que você publica, verifique se a estrutura faz parse corretamente com nosso verificador contra alguns URLs reais e cada bot nomeado antes de você fechar o ticket.

Question 7

Qual é a diferença entre Disallow e noindex?

Accepted Answer

Disallow em robots.txt informa a um bot que não rastreie uma URL. Não informa ao bot que não a indexe. Se outro site liga para uma página Disallowed, Google ainda pode listar a URL em resultados de pesquisa com "no description available" abaixo dela. Para realmente manter uma página fora do índice, use uma tag meta robots noindex na página em si ou um header X-Robots-Tag noindex na resposta HTTP. O problema: Google tem que rastrear a página para ver a tag noindex. Então se você tanto Disallow quanto noindex, noindex nunca toma efeito e a página fica em resultados. Escolha uma por página. Disallow é para orçamento de rastreamento (bloqueando admin, busca interna, URLs de filtro). Noindex é para manter conteúdo fora de resultados completamente. Para uma auditoria completa de diretivas de robots em nível de página, use nosso simulador de crawler junto com o verificador de metadados de website .

Question 8

robots.txt ainda funciona em 2026?

Accepted Answer

Sim, para crawlers que escolhem honrá-lo. Googlebot, Bingbot e os principais crawlers de IA (GPTBot, ClaudeBot, PerplexityBot, CCBot, Google-Extended) todos respeitam robots.txt como uma questão de política. Scrapers rogue o ignoram porque o arquivo é um pedido educado, não um firewall. Se você precisa de bloqueio hard, adicione regras do lado do servidor: listas de negação de IP, gerenciamento de bot do Cloudflare, rate limiting ou autenticação na frente dos caminhos sensíveis. Use robots.txt para o que é bom: moldar quais páginas os bots que você se importa gastam seu orçamento de rastreamento em. A diferença de 2026 é IA. Cinco anos atrás, "os bots" significava Google e Bing. Hoje a lista é mais longa e cada crawler de IA usa um nome de User-agent diferente. Nosso verificador testa qualquer um deles em um clique para que você possa ver exatamente o que cada bot vê. Emparelhe com nosso simulador de crawler para uma visualização de página renderizada.

Question 9

Posso usar curingas em robots.txt?

Accepted Answer

Sim, dois curingas são suportados e entendidos por todos os bots principais. O asterisco (*) corresponde a qualquer sequência de caracteres e o símbolo de dólar ($) ancora o padrão ao final de uma URL. Disallow: /*.pdf$ bloqueia cada URL terminando em .pdf. Disallow: /*?sort= bloqueia qualquer URL com um parâmetro sort em qualquer lugar nela. Combine-os: Disallow: /search?*&page=$ bloqueia resultados de busca interna paginados mas deixa a página de busca principal rastreável. Curingas não funcionam em linhas de User-agent, então você não pode escrever User-agent: Google* e acertar cada bot do Google. Nomeie cada um explicitamente (Googlebot, Googlebot-Image, Googlebot-News). A correspondência literal mais longa vence sobre uma correspondência de padrão mais curta. Teste regras de curinga com um caminho concreto em nosso verificador porque modelos mentais quebram rápido com parâmetros aninhados, cadeias de consulta e padrões sobrepostos que parecem finos no papel. Para uma baseline limpa, gere um com nosso gerador e itere a partir daí com caminhos de teste.

Question 10

robots.txt protegerá páginas sensíveis?

Accepted Answer

Não. Robots.txt é um documento público que qualquer pessoa pode ler em yourdomain.com/robots.txt digitando em um navegador. Listar um caminho lá informa a cada crawler, cada concorrente e cada humano curioso que o caminho existe em seu site. Para URLs de staging, painéis de admin ou arquivos privados, isso é o oposto do que você quer: você acaba de os anunciar. Proteção real vem de controles do lado do servidor: autenticação de senha, listas de permissão de IP, acesso somente por VPN ou simplesmente não expor a URL em um servidor público. Uma tag meta robots noindex mantém a página fora dos resultados de pesquisa se a página é alcançável mas você quer que seja privada para buscadores. Para conteúdo verdadeiramente oculto, não o ligue, não o liste em sitemaps e gate-o com auth. Use robots.txt para moldar orçamento de rastreamento em páginas que você não se importa se forem públicas. Audite o que está exposto com nosso verificador de metadados e confirme regras de robots com nosso verificador de robots.txt .

Robots.txt Checker

Generate the whole content, not just check it.

O que um verificador de robots.txt realmente faz

Como usar este verificador de robots.txt

Por que testar por user-agent importa

Precedência de regra e curingas

Validação de sitemap e diretivas de rastreamento

Erros de sintaxe e casos extremos de validação

Erros comuns

Dicas avançadas

Generate the whole content, not just check it.

Perguntas frequentes

Ferramentas gratuitas relacionadas