Qué hace realmente un verificador de robots.txt
Un verificador de robots.txt obtiene el archivo /robots.txt de tu dominio, analiza cada bloque de user-agent y regla disallow, luego prueba si una ruta dada está permitida o bloqueada para un rastreador específico. Aplica la regla de coincidencia más larga cuando varios patrones se superponen, sigue el orden de precedencia en la especificación, e informa si una URL de prueba sería rastreada.
La mayoría de los rastreadores buscan primero su propio bloque de user-agent. Si existe uno, usan esas reglas. Si no, recurren al bloque comodín User-agent: *. Esto significa que un sitio puede permitir que Googlebot entre en /admin mientras bloquea todos los demás bots. Nuestro verificador simula esta cascada para cualquier user-agent que selecciones en el menú desplegable User-agent to test.
Dos errores comunes rompen los archivos robots.txt silenciosamente. El primero son errores de sintaxis: espacios adicionales, dos puntos faltantes, finales de línea de Windows, o "Disallow" en mayúsculas cuando solo funciona en minúsculas. El segundo son reglas conflictivas—líneas allow y disallow que se superponen, dejando ambiguo si una ruta está bloqueada. Nuestro verificador señala ambos y muestra qué regla gana.
Cómo usar este verificador de robots.txt
- Pega tu dominio completo en Site URL. Obtenemos
yourdomain.com/robots.txtautomáticamente. No necesitas escribir/robots.txt. - Selecciona un User-agent to test del menú desplegable. Googlebot, Bingbot, GPTBot, ClaudeBot, CCBot, PerplexityBot, anthropic-ai, o * para comodín. Esta es la identidad del rastreador que simulamos.
- Pega una ruta en Test path si quieres verificar una URL específica. Déjalo vacío para ver el conjunto completo de reglas analizado. Una ruta se ve como
/admino/blog/post-slug. - Haz clic en Check robots.txt. Obtienes el archivo analizado, reglas por agente, enlaces de sitemap, crawl-delay si está configurado, y un veredicto para tu ruta de prueba.
- Expande Rule conflicts si hay filas señaladas. Mostramos líneas allow/disallow superpuestas y te decimos cuál seguiría un rastreador real.
Intenta probar yourdomain.com con User-agent configurado en GPTBot y Test path configurado en /blog. Si tu robots.txt no tiene un bloque GPTBot pero bloquea todos los bots de /admin, el blog está permitido y admin está bloqueado. Cambia el user-agent a ClaudeBot y el resultado podría cambiar si tienes un bloque específico de ClaudeBot.
Por qué es importante probar por user-agent
Los rastreadores de búsqueda ya no son los únicos bots que leen robots.txt. Los rastreadores de entrenamiento de IA—GPTBot de OpenAI, ClaudeBot de Anthropic, CCBot de Common Crawl, PerplexityBot y Google-Extended—ahora respetan robots.txt para decidir si pueden raspar tu contenido para el entrenamiento de modelos. Si los bloqueas, tus páginas se quedan fuera de los conjuntos de datos de entrenamiento. Si los permites, te inscribes.
Tres consecuencias prácticas.
Claridad de política. Un robots.txt que dice User-agent: * / Disallow: / bloquea a todos, incluyendo Google. Si esa no es tu intención, necesitas bloques separados por agente. Probar por user-agent revela lo que cada bot ve antes de que un modelo entrene en tu contenido.
Control de rastreador de IA. En 2026, la mayoría de propietarios de sitios quieren bots de búsqueda adentro pero bots de entrenamiento afuera. Eso requiere bloques explícitos de disallow para GPTBot, ClaudeBot y CCBot. Los competidores ignoran estos agentes. Los probamos por defecto porque importan.
Detección de conflictos. Cuando tienes tanto Disallow: /blog como Allow: /blog/public, la regla más específica gana. Pero analizar a mano qué regla es más larga o específica es propenso a errores. Las pruebas te muestran exactamente qué haría un bot, no lo que crees que dice el archivo.
Precedencia de reglas y comodines
La especificación de robots.txt define un orden de precedencia cuando múltiples reglas coinciden con la misma ruta. La regla con el prefijo de coincidencia más largo gana. Si dos reglas tienen la misma longitud, la regla allow gana sobre disallow.
Los comodines hacen esto más difícil de ver. Una línea como Disallow: /admin* bloquea /admin, /admin/users y /admin-panel. Una línea posterior Allow: /admin/public la anula para esa carpeta porque /admin/public es más larga que /admin. Nuestro verificador evalúa ambas y te dice cuál se aplica.
El comodín $ ancla el final de una ruta. Disallow: /*.pdf$ bloquea todos los archivos PDF pero permite /report.pdf.html porque la ruta no termina en .pdf. Los competidores a menudo analizan $ mal o lo ignoran. Nosotros coincidimos con la implementación de Google.
El nombre del user-agent es insensible a mayúsculas en la especificación, así que User-agent: googlebot y User-agent: Googlebot son idénticas. Las rutas de disallow son sensibles a mayúsculas en la mayoría de servidores. /Admin y /admin son URLs diferentes. Nuestro verificador respeta ambas reglas.
Validación de sitemap y directivas de rastreo
Todo archivo robots.txt debe incluir al menos una línea Sitemap: que señale a tu archivo sitemap.xml. Esto le dice a los rastreadores dónde encontrar la lista de URLs que quieres indexadas. Nuestro verificador obtiene cada URL de sitemap listada en tu robots.txt e informa el código de estado HTTP. Si un sitemap devuelve 404, los rastreadores no pueden usarlo y pierdes una señal que ayuda con el descubrimiento.
Múltiples declaraciones de sitemap son válidas. Si tienes sitemaps separados para posts, páginas y productos, lista todos tres. Si usas un índice de sitemap que referencia sitemaps secundarios, lista solo el índice. Evita listar cada sitemap secundario individualmente porque ensucia el archivo y duplica información ya en el índice.
La directiva Crawl-delay: establece los segundos mínimos que un bot debe esperar entre solicitudes a tu servidor. Googlebot ignora esta directiva completamente y usa su propia tasa de rastreo adaptativa basada en el tiempo de respuesta del servidor. Bingbot, Yandex y algunos rastreadores más pequeños la respetan. Un crawl-delay de 1 segundo es seguro. Un retraso de 10 o superior detiene efectivamente la mayoría del rastreo en sitios grandes. Úsalo solo si tu servidor no puede manejar tasas de rastreo normales.
Una directiva menos común es Request-rate:, que establece un número de solicitudes por ventana de tiempo. Pocos rastreadores la soportan y no es parte de la especificación oficial. Si la ves en un robots.txt, probablemente es heredada o no estándar. Nuestro verificador la nota pero no la aplica porque el comportamiento del rastreador varía.
Errores de sintaxis y casos extremos de validación
La sintaxis de robots.txt es inflexible. Un único espacio o tabulación mal colocados pueden invalidar una regla. El nombre de la directiva—User-agent, Disallow, Allow, Sitemap, Crawl-delay—debe ser seguido por dos puntos sin espacio antes y al menos un espacio o tabulación después. Disallow:/admin falla. Disallow: /admin funciona. Nuestro verificador señala problemas de espaciado y sugiere correcciones.
Los finales de línea de Windows—\r\n en lugar de \n—causan problemas en algunos servidores. Cuando un archivo robots.txt se edita en Windows y se carga sin conversión, los bots pueden malinterpretar saltos de línea y tratar múltiples líneas como una. Nuestro verificador detecta finales de línea que no son Unix e informa como una advertencia.
Los comentarios en robots.txt comienzan con #. Todo después del # en esa línea se ignora. Un error común es comentar accidentalmente una directiva: # Disallow: /admin no hace nada. Si ves reglas que deberían aplicarse pero no, busca caracteres # extraviados.
Las líneas en blanco separan bloques de user-agent. Una línea en blanco termina el bloque actual y el próximo User-agent: comienza uno nuevo. Si tienes User-agent: Googlebot, Disallow: /private, luego una línea en blanco, luego Allow: /public, la regla allow no se aplica a Googlebot—comienza un nuevo bloque sin user-agent, que es inválido. Nuestro verificador señala directivas huérfanas y sugiere agruparlas bajo el user-agent correcto.
Errores comunes
- Bloquear Googlebot accidentalmente. Un bloque
User-agent: *conDisallow: /bloquea cada bot, incluyendo Google. Si quieres a Googlebot adentro, agrega un bloqueUser-agent: Googlebotseparado conAllow: /antes del bloque comodín. El orden importa. - Olvidar la barra oblicua inicial.
Disallow: adminno hace nada. Debe serDisallow: /admin. Nuestro verificador señala esto como un probable error de sintaxis. - Probar solo Googlebot. Tu robots.txt podría permitir a Google pero bloquear a Bingbot o GPTBot sin que lo notes. Prueba todos los agentes que te importan, no solo uno.
- Dejar fuera rastreadores de IA. Si tu archivo no tiene un bloque GPTBot o ClaudeBot, esos bots recurren a
User-agent: *. Eso podría permitirles cuando creías que todo estaba bloqueado. Los bloques explícitos por agente hacen la política inequívoca. - Asumir que los enlaces del sitemap se validan en otro lugar. Una URL de sitemap en robots.txt puede estar rota, devolver 404 o señalar a un archivo XML que ya no existe. Nuestro verificador prueba el enlace e informa el código de estado.
Consejos avanzados
- Prueba la misma ruta contra múltiples user-agents en secuencia. Si el resultado cambia, tus bloques por agente funcionan. Si se mantiene igual, podrías estar confiando solo en el bloque comodín.
- Verifica la línea Crawl-delay si está presente. Googlebot la ignora, pero Bingbot y algunos otros la respetan. Un retraso de 10 segundos puede ralentizar un rastreo casi a un alto en sitios grandes.
- Mira las líneas Sitemap. Múltiples declaraciones de sitemap son válidas. Si tienes un índice de sitemap, lista una vez en lugar de repetir cada subsitemap. Obtenemos cada enlace y confirmamos que devuelve HTTP 200.
- Prueba una ruta con parámetros de consulta.
Disallow: /searchbloquea/search?q=testen la mayoría de servidores, peroDisallow: /search$no lo haría porque$espera sin caracteres siguientes. Si quieres bloquear cadenas de consulta, usa el asterisco:Disallow: /search*. - Descarga la salida analizada como referencia. Cuando regeneres robots.txt o cambies de CMS, verifica nuevamente contra las mismas rutas de prueba para confirmar que el comportamiento no cambió.
- Usa el informe de conflictos antes de desplegar un nuevo robots.txt. Si dos reglas se superponen, tu interpretación local podría diferir de la de Googlebot. Las pruebas eliminan la adivinanza.
Si necesitas generar un nuevo archivo robots.txt desde cero con presets para WordPress, Shopify o Next.js, usa nuestro generador de archivo robots.txt. Incluye controles explícitos de rastreador de IA y genera un archivo listo para producción con sintaxis garantizada válida. Después de desplegar, verifica con esta herramienta. Si quieres ver cómo Googlebot renderiza la página después de respetar robots.txt y ejecutar JavaScript, el simulador de rastreador de Google muestra el HTML exacto y el texto visible que un bot indexa. Para confirmar que cada URL en tu sitemap es alcanzable y devuelve 200, usa el verificador de sitemap.