Skip to content
Verificación en vivo · obtiene tu URL del lado del servidor

Robots.txt Checker

Analiza, prueba por user-agent (incluyendo GPTBot/ClaudeBot), detecta conflictos de reglas.

Un archivo robots.txt le dice a los rastreadores qué páginas pueden y no pueden acceder. La mayoría de validadores prueban un bot y se detienen. Este Robots.txt Checker prueba por user-agent, incluyendo los rastreadores de IA que importan en 2026—GPTBot, ClaudeBot y PerplexityBot—detecta conflictos de reglas cuando se aplican múltiples directivas, y valida si tus enlaces de sitemap realmente existen.

Generate the whole content, not just check it.

BlazeHive writes SEO articles end to end from a single keyword. Outline, draft, meta, schema, internal links. Free trial, no card.

Start with BlazeHive Free trial

Qué hace realmente un verificador de robots.txt

Un verificador de robots.txt obtiene el archivo /robots.txt de tu dominio, analiza cada bloque de user-agent y regla disallow, luego prueba si una ruta dada está permitida o bloqueada para un rastreador específico. Aplica la regla de coincidencia más larga cuando varios patrones se superponen, sigue el orden de precedencia en la especificación, e informa si una URL de prueba sería rastreada.

La mayoría de los rastreadores buscan primero su propio bloque de user-agent. Si existe uno, usan esas reglas. Si no, recurren al bloque comodín User-agent: *. Esto significa que un sitio puede permitir que Googlebot entre en /admin mientras bloquea todos los demás bots. Nuestro verificador simula esta cascada para cualquier user-agent que selecciones en el menú desplegable User-agent to test.

Dos errores comunes rompen los archivos robots.txt silenciosamente. El primero son errores de sintaxis: espacios adicionales, dos puntos faltantes, finales de línea de Windows, o "Disallow" en mayúsculas cuando solo funciona en minúsculas. El segundo son reglas conflictivas—líneas allow y disallow que se superponen, dejando ambiguo si una ruta está bloqueada. Nuestro verificador señala ambos y muestra qué regla gana.

Cómo usar este verificador de robots.txt

  1. Pega tu dominio completo en Site URL. Obtenemos yourdomain.com/robots.txt automáticamente. No necesitas escribir /robots.txt.
  2. Selecciona un User-agent to test del menú desplegable. Googlebot, Bingbot, GPTBot, ClaudeBot, CCBot, PerplexityBot, anthropic-ai, o * para comodín. Esta es la identidad del rastreador que simulamos.
  3. Pega una ruta en Test path si quieres verificar una URL específica. Déjalo vacío para ver el conjunto completo de reglas analizado. Una ruta se ve como /admin o /blog/post-slug.
  4. Haz clic en Check robots.txt. Obtienes el archivo analizado, reglas por agente, enlaces de sitemap, crawl-delay si está configurado, y un veredicto para tu ruta de prueba.
  5. Expande Rule conflicts si hay filas señaladas. Mostramos líneas allow/disallow superpuestas y te decimos cuál seguiría un rastreador real.

Intenta probar yourdomain.com con User-agent configurado en GPTBot y Test path configurado en /blog. Si tu robots.txt no tiene un bloque GPTBot pero bloquea todos los bots de /admin, el blog está permitido y admin está bloqueado. Cambia el user-agent a ClaudeBot y el resultado podría cambiar si tienes un bloque específico de ClaudeBot.

Por qué es importante probar por user-agent

Los rastreadores de búsqueda ya no son los únicos bots que leen robots.txt. Los rastreadores de entrenamiento de IA—GPTBot de OpenAI, ClaudeBot de Anthropic, CCBot de Common Crawl, PerplexityBot y Google-Extended—ahora respetan robots.txt para decidir si pueden raspar tu contenido para el entrenamiento de modelos. Si los bloqueas, tus páginas se quedan fuera de los conjuntos de datos de entrenamiento. Si los permites, te inscribes.

Tres consecuencias prácticas.

Claridad de política. Un robots.txt que dice User-agent: * / Disallow: / bloquea a todos, incluyendo Google. Si esa no es tu intención, necesitas bloques separados por agente. Probar por user-agent revela lo que cada bot ve antes de que un modelo entrene en tu contenido.

Control de rastreador de IA. En 2026, la mayoría de propietarios de sitios quieren bots de búsqueda adentro pero bots de entrenamiento afuera. Eso requiere bloques explícitos de disallow para GPTBot, ClaudeBot y CCBot. Los competidores ignoran estos agentes. Los probamos por defecto porque importan.

Detección de conflictos. Cuando tienes tanto Disallow: /blog como Allow: /blog/public, la regla más específica gana. Pero analizar a mano qué regla es más larga o específica es propenso a errores. Las pruebas te muestran exactamente qué haría un bot, no lo que crees que dice el archivo.

Precedencia de reglas y comodines

La especificación de robots.txt define un orden de precedencia cuando múltiples reglas coinciden con la misma ruta. La regla con el prefijo de coincidencia más largo gana. Si dos reglas tienen la misma longitud, la regla allow gana sobre disallow.

Los comodines hacen esto más difícil de ver. Una línea como Disallow: /admin* bloquea /admin, /admin/users y /admin-panel. Una línea posterior Allow: /admin/public la anula para esa carpeta porque /admin/public es más larga que /admin. Nuestro verificador evalúa ambas y te dice cuál se aplica.

El comodín $ ancla el final de una ruta. Disallow: /*.pdf$ bloquea todos los archivos PDF pero permite /report.pdf.html porque la ruta no termina en .pdf. Los competidores a menudo analizan $ mal o lo ignoran. Nosotros coincidimos con la implementación de Google.

El nombre del user-agent es insensible a mayúsculas en la especificación, así que User-agent: googlebot y User-agent: Googlebot son idénticas. Las rutas de disallow son sensibles a mayúsculas en la mayoría de servidores. /Admin y /admin son URLs diferentes. Nuestro verificador respeta ambas reglas.

Validación de sitemap y directivas de rastreo

Todo archivo robots.txt debe incluir al menos una línea Sitemap: que señale a tu archivo sitemap.xml. Esto le dice a los rastreadores dónde encontrar la lista de URLs que quieres indexadas. Nuestro verificador obtiene cada URL de sitemap listada en tu robots.txt e informa el código de estado HTTP. Si un sitemap devuelve 404, los rastreadores no pueden usarlo y pierdes una señal que ayuda con el descubrimiento.

Múltiples declaraciones de sitemap son válidas. Si tienes sitemaps separados para posts, páginas y productos, lista todos tres. Si usas un índice de sitemap que referencia sitemaps secundarios, lista solo el índice. Evita listar cada sitemap secundario individualmente porque ensucia el archivo y duplica información ya en el índice.

La directiva Crawl-delay: establece los segundos mínimos que un bot debe esperar entre solicitudes a tu servidor. Googlebot ignora esta directiva completamente y usa su propia tasa de rastreo adaptativa basada en el tiempo de respuesta del servidor. Bingbot, Yandex y algunos rastreadores más pequeños la respetan. Un crawl-delay de 1 segundo es seguro. Un retraso de 10 o superior detiene efectivamente la mayoría del rastreo en sitios grandes. Úsalo solo si tu servidor no puede manejar tasas de rastreo normales.

Una directiva menos común es Request-rate:, que establece un número de solicitudes por ventana de tiempo. Pocos rastreadores la soportan y no es parte de la especificación oficial. Si la ves en un robots.txt, probablemente es heredada o no estándar. Nuestro verificador la nota pero no la aplica porque el comportamiento del rastreador varía.

Errores de sintaxis y casos extremos de validación

La sintaxis de robots.txt es inflexible. Un único espacio o tabulación mal colocados pueden invalidar una regla. El nombre de la directiva—User-agent, Disallow, Allow, Sitemap, Crawl-delay—debe ser seguido por dos puntos sin espacio antes y al menos un espacio o tabulación después. Disallow:/admin falla. Disallow: /admin funciona. Nuestro verificador señala problemas de espaciado y sugiere correcciones.

Los finales de línea de Windows—\r\n en lugar de \n—causan problemas en algunos servidores. Cuando un archivo robots.txt se edita en Windows y se carga sin conversión, los bots pueden malinterpretar saltos de línea y tratar múltiples líneas como una. Nuestro verificador detecta finales de línea que no son Unix e informa como una advertencia.

Los comentarios en robots.txt comienzan con #. Todo después del # en esa línea se ignora. Un error común es comentar accidentalmente una directiva: # Disallow: /admin no hace nada. Si ves reglas que deberían aplicarse pero no, busca caracteres # extraviados.

Las líneas en blanco separan bloques de user-agent. Una línea en blanco termina el bloque actual y el próximo User-agent: comienza uno nuevo. Si tienes User-agent: Googlebot, Disallow: /private, luego una línea en blanco, luego Allow: /public, la regla allow no se aplica a Googlebot—comienza un nuevo bloque sin user-agent, que es inválido. Nuestro verificador señala directivas huérfanas y sugiere agruparlas bajo el user-agent correcto.

Errores comunes

  • Bloquear Googlebot accidentalmente. Un bloque User-agent: * con Disallow: / bloquea cada bot, incluyendo Google. Si quieres a Googlebot adentro, agrega un bloque User-agent: Googlebot separado con Allow: / antes del bloque comodín. El orden importa.
  • Olvidar la barra oblicua inicial. Disallow: admin no hace nada. Debe ser Disallow: /admin. Nuestro verificador señala esto como un probable error de sintaxis.
  • Probar solo Googlebot. Tu robots.txt podría permitir a Google pero bloquear a Bingbot o GPTBot sin que lo notes. Prueba todos los agentes que te importan, no solo uno.
  • Dejar fuera rastreadores de IA. Si tu archivo no tiene un bloque GPTBot o ClaudeBot, esos bots recurren a User-agent: *. Eso podría permitirles cuando creías que todo estaba bloqueado. Los bloques explícitos por agente hacen la política inequívoca.
  • Asumir que los enlaces del sitemap se validan en otro lugar. Una URL de sitemap en robots.txt puede estar rota, devolver 404 o señalar a un archivo XML que ya no existe. Nuestro verificador prueba el enlace e informa el código de estado.

Consejos avanzados

  • Prueba la misma ruta contra múltiples user-agents en secuencia. Si el resultado cambia, tus bloques por agente funcionan. Si se mantiene igual, podrías estar confiando solo en el bloque comodín.
  • Verifica la línea Crawl-delay si está presente. Googlebot la ignora, pero Bingbot y algunos otros la respetan. Un retraso de 10 segundos puede ralentizar un rastreo casi a un alto en sitios grandes.
  • Mira las líneas Sitemap. Múltiples declaraciones de sitemap son válidas. Si tienes un índice de sitemap, lista una vez en lugar de repetir cada subsitemap. Obtenemos cada enlace y confirmamos que devuelve HTTP 200.
  • Prueba una ruta con parámetros de consulta. Disallow: /search bloquea /search?q=test en la mayoría de servidores, pero Disallow: /search$ no lo haría porque $ espera sin caracteres siguientes. Si quieres bloquear cadenas de consulta, usa el asterisco: Disallow: /search*.
  • Descarga la salida analizada como referencia. Cuando regeneres robots.txt o cambies de CMS, verifica nuevamente contra las mismas rutas de prueba para confirmar que el comportamiento no cambió.
  • Usa el informe de conflictos antes de desplegar un nuevo robots.txt. Si dos reglas se superponen, tu interpretación local podría diferir de la de Googlebot. Las pruebas eliminan la adivinanza.

Si necesitas generar un nuevo archivo robots.txt desde cero con presets para WordPress, Shopify o Next.js, usa nuestro generador de archivo robots.txt. Incluye controles explícitos de rastreador de IA y genera un archivo listo para producción con sintaxis garantizada válida. Después de desplegar, verifica con esta herramienta. Si quieres ver cómo Googlebot renderiza la página después de respetar robots.txt y ejecutar JavaScript, el simulador de rastreador de Google muestra el HTML exacto y el texto visible que un bot indexa. Para confirmar que cada URL en tu sitemap es alcanzable y devuelve 200, usa el verificador de sitemap.

Generate the whole content, not just check it.

BlazeHive writes SEO articles end to end from a single keyword. Outline, draft, meta, schema, internal links. Free trial, no card.

Start with BlazeHive Free trial

Preguntas frecuentes

¿Qué es un archivo robots.txt?

Un archivo robots.txt es un archivo de texto plano en la raíz de tu dominio que le dice a los rastreadores qué rutas pueden y no pueden solicitar. Existe en exactamente una ubicación: /robots.txt. Googlebot lo verifica antes de cada rastreo, y también lo hacen Bingbot, GPTBot (OpenAI), ClaudeBot (Anthropic), CCBot (Common Crawl), PerplexityBot y Google-Extended. El archivo usa una gramática simple. Escribes uno o más bloques User-agent, cada uno seguido por reglas Allow y Disallow. Una línea Sitemap cerca de la parte superior señala a los rastreadores tu índice XML para que no tengan que adivinar la estructura. Pega cualquier URL de sitio en nuestro verificador de robots.txt, selecciona un User-agent, y verás la tabla de reglas analizada más qué regla gana para ese bot específico en esa ruta específica. Si no tienes un archivo aún, genera uno con nuestro generador de robots.txt y el preset CMS correcto incluido.

¿Qué realmente prueba un verificador de robots.txt?

Un verificador de robots.txt real hace cuatro cosas. Obtiene el archivo y confirma que es alcanzable con un estado 200 y el tipo de contenido correcto. Analiza la sintaxis para que captures errores tipográficos que rompen silenciosamente reglas: capitalización incorrecta en User-agent, dos puntos faltantes, caracteres BOM extraviados al inicio del archivo. Resuelve una ruta específica para un bot específico para que puedas responder "¿está /admin bloqueado para GPTBot ahora?" sin adivinar. Y detecta conflictos de orden de reglas donde dos bots heredan diferentes reglas de bloques User-agent superpuestos. La mayoría de verificadores gratuitos se detienen en el paso uno. El nuestro ejecuta el conjunto completo. Establece Site URL, selecciona el bot de User-agent, coloca una Test path opcional, y obtienes un veredicto por regla. Cuando envíes una corrección, confirma el cambio con una segunda pasada en el verificador antes de pasar a otro trabajo.

¿Dónde encuentro mi archivo robots.txt?

Escribe tu dominio seguido de /robots.txt en cualquier navegador. Si https://www.example.com/robots.txt devuelve un 200 y muestra texto plano, tienes uno. Si devuelve 404 o tu página de inicio de CMS, no tienes. El archivo debe estar en la exacta raíz del dominio. Las rutas de subdirectorio como /blog/robots.txt se ignoran completamente por cada rastreador. Los subdominios son separados: blog.example.com y www.example.com cada uno necesita su propio archivo en su propia raíz. Los sitios WordPress generalmente tienen uno virtual generado por el plugin SEO; Shopify genera uno automáticamente y bloquea la mayoría; Next.js y Astro necesitan que envíes un archivo estático bajo /public. Si no estás seguro qué rastreadores realmente ven, pega tu URL en nuestro verificador de robots.txt y lo obtenemos con los exactos encabezados que un bot real envía para que el resultado coincida con la realidad del rastreador. Para una reescritura limpia con presets CMS incluidos, usa el generador.

¿Cómo corrijo un error "bloqueado por robots.txt" en Search Console?

Search Console señala "bloqueado por robots.txt" cuando una regla Disallow cubre la URL que Google intentó rastrear. Abre la herramienta de Inspección de URL para ver qué regla coincidió con Google. Luego ejecuta la misma URL a través de nuestro verificador de robots.txt con User-agent configurado en Googlebot y la ruta bloqueada pegada en Test path. El verificador te muestra la regla exacta que coincidió y el bloque User-agent de donde vino, para que puedas arreglar la fuente en lugar de adivinar. Tres correcciones cubren casi cada caso. Elimina la línea Disallow ofensiva. Estrechécela con una ruta más específica. O agrega una regla Allow arriba (la coincidencia más larga gana en superposición). Envía el cambio, prueba la misma ruta nuevamente en el verificador, luego solicita la indexación de regreso en Search Console. Si las páginas siguen pareciendo bloqueadas, la copia en caché de Google podría estar en juego; se actualiza robots.txt aproximadamente cada 24 horas.

¿Debería bloquear rastreadores de IA en robots.txt?

Depende de lo que estés optimizando. Bloquéalos si tu contenido es el producto: editoriales, investigación pagada, archivos de suscripción, cualquier cosa donde datos de entrenamiento gratis perjudica el negocio. Permítelos si quieres ser citado en respuestas de ChatGPT y Claude, donde ser la fuente citada impulsa tráfico referral de regreso a tu sitio. La lista 2026 que vale la pena nombrar explícitamente: GPTBot (OpenAI), ClaudeBot y anthropic-ai (Anthropic), CCBot (Common Crawl, que entrena muchos modelos), PerplexityBot y Google-Extended (controla los usos de entrenamiento de páginas rastreadas por Googlebot sin afectar tus clasificaciones en búsqueda normal en Google). Nuestro generador de robots.txt te da una casilla por rastreador para que decidas por bot, no por todo. Después de desplegar, prueba cada uno con nuestro verificador contra una ruta real para confirmar que la regla se resuelve como esperas para ese bot. La mayoría de bugs vienen de conflictos de orden de reglas entre bloques User-agent superpuestos, no de entradas faltantes.

¿Cómo debería estructurarse un archivo robots.txt?

Comienza con una línea Sitemap que señale a tu índice XML. Luego agrupa reglas por User-agent. El bloque comodín (User-agent: *) atrapa cada bot no nombrado en otro lugar, así que ponlo último. Arriba de él, agrega bloques nombrados para bots que quieras tratar diferente: Googlebot, Bingbot, GPTBot, ClaudeBot, CCBot, PerplexityBot, Google-Extended. Cada bloque puede tener múltiples líneas Allow y Disallow. La coincidencia más larga y específica gana cuando las reglas se superponen. Mantén rutas sensibles a mayúsculas: Disallow: /Admin no bloquea /admin. Lista un Sitemap por dominio, declarado una vez cerca de la parte superior. Mantén el archivo bajo 500 KB o Google comienza a ignorar líneas después de ese punto. Nuestro generador de robots.txt te proporciona todo esto con un preset CMS y controles de rastreador de IA. Una vez que publiques, verifica que la estructura se analiza correctamente con nuestro verificador contra un puñado de URLs reales y cada bot nombrado antes de cerrar el ticket.

¿Cuál es la diferencia entre Disallow y noindex?

Disallow en robots.txt le dice a un bot que no rastree una URL. No le dice al bot que no la indexe. Si otro sitio enlaza a una página Disallowed, Google aún puede listar la URL en resultados de búsqueda con "sin descripción disponible" debajo. Para realmente mantener una página fuera del índice, usa una etiqueta meta robots noindex en la página misma, o un encabezado X-Robots-Tag noindex en la respuesta HTTP. La trampa: Google tiene que rastrear la página para ver la etiqueta noindex. Así que si bloqueas y no-indexas ambos, noindex nunca toma efecto y la página permanece en resultados. Elige uno por página. Disallow es para presupuesto de rastreo (bloqueando admin, búsqueda interna, URLs de filtro). Noindex es para mantener contenido fuera de resultados completamente. Para una auditoría completa a nivel de página de directivas de robots, usa nuestro simulador de rastreador junto con el verificador de metadatos del sitio web.

¿Sigue funcionando robots.txt en 2026?

Sí, para rastreadores que elijan respetarlo. Googlebot, Bingbot y los principales rastreadores de IA (GPTBot, ClaudeBot, PerplexityBot, CCBot, Google-Extended) todos respetan robots.txt como cuestión de política. Los raspadores rogue lo ignoran porque el archivo es una solicitud cortés, no un firewall. Si necesitas bloqueo duro, agrega reglas del lado del servidor: listas de negación de IP, gestión de bots de Cloudflare, limitación de tasas o autenticación frente a las rutas sensibles. Usa robots.txt para lo que es bueno: moldear qué páginas los bots que te importan gastan su presupuesto de rastreo en. La diferencia de 2026 es IA. Hace cinco años, "los bots" significaba Google y Bing. Hoy la lista es más larga y cada rastreador de IA usa un nombre de User-agent diferente. Nuestro verificador prueba cualquiera de ellos en un clic para que puedas ver exactamente qué ve cada bot. Emparéjalo con nuestro simulador de rastreador para una vista de página renderizada.

¿Puedo usar comodines en robots.txt?

Sí, dos comodines son soportados y entendidos por todos los principales bots. El asterisco (*) coincide con cualquier secuencia de caracteres y el signo de dólar ($) ancla el patrón al final de una URL. Disallow: /*.pdf$ bloquea cada URL que termina en .pdf. Disallow: /*?sort= bloquea cualquier URL con un parámetro sort en cualquier parte. Combínalos: Disallow: /search?*&page=$ bloquea resultados de búsqueda interna paginados pero deja la página de búsqueda principal rastreable. Los comodines no funcionan en líneas User-agent, así que no puedes escribir User-agent: Google* e golpear cada bot de Google. Nombra cada uno explícitamente (Googlebot, Googlebot-Image, Googlebot-News). La coincidencia literal más larga gana sobre un patrón más corto. Prueba reglas de comodín con una ruta concreta en nuestro verificador porque los modelos mentales se rompen rápido con parámetros anidados, cadenas de consulta y patrones superpuestos que se ven bien en papel. Para una línea de base limpia, genera uno con nuestro generador e itera desde allí con rutas de prueba.

¿Protegerá robots.txt páginas sensibles?

No. Robots.txt es un documento público que cualquiera puede leer en yourdomain.com/robots.txt escribiendo en un navegador. Listar una ruta allí le dice a cada rastreador, cada competidor y cada humano curioso que la ruta existe en tu sitio. Para URLs de staging, paneles admin o archivos privados, eso es lo opuesto a lo que quieres: acabas de anunciarlos. La protección real viene de controles del lado del servidor: autenticación de contraseña, listas de permitidos de IP, acceso solo por VPN o simplemente no exponer la URL en un servidor público. Una etiqueta meta noindex mantiene la página fuera de resultados de búsqueda si la página es alcanzable pero quieres que sea privada para buscadores. Para contenido verdaderamente oculto, no enlaces a él, no lo listes en sitemaps y bloquéalo con autenticación. Usa robots.txt para moldear presupuesto de rastreo en páginas que no te importa sean públicas. Audita qué está expuesto con nuestro verificador de metadatos y confirma reglas de robots con nuestro verificador de robots.txt.

Herramientas gratuitas relacionadas

Todas las herramientas →