Question 1

¿Qué es un archivo robots.txt?

Accepted Answer

Un archivo robots.txt es un archivo de texto plano en la raíz de tu dominio que le dice a los rastreadores qué rutas pueden y no pueden solicitar. Existe en exactamente una ubicación: /robots.txt. Googlebot lo verifica antes de cada rastreo, y también lo hacen Bingbot, GPTBot (OpenAI), ClaudeBot (Anthropic), CCBot (Common Crawl), PerplexityBot y Google-Extended. El archivo usa una gramática simple. Escribes uno o más bloques User-agent, cada uno seguido por reglas Allow y Disallow. Una línea Sitemap cerca de la parte superior señala a los rastreadores tu índice XML para que no tengan que adivinar la estructura. Pega cualquier URL de sitio en nuestro verificador de robots.txt , selecciona un User-agent , y verás la tabla de reglas analizada más qué regla gana para ese bot específico en esa ruta específica. Si no tienes un archivo aún, genera uno con nuestro generador de robots.txt y el preset CMS correcto incluido.

Question 2

¿Qué realmente prueba un verificador de robots.txt?

Accepted Answer

Un verificador de robots.txt real hace cuatro cosas. Obtiene el archivo y confirma que es alcanzable con un estado 200 y el tipo de contenido correcto. Analiza la sintaxis para que captures errores tipográficos que rompen silenciosamente reglas: capitalización incorrecta en User-agent, dos puntos faltantes, caracteres BOM extraviados al inicio del archivo. Resuelve una ruta específica para un bot específico para que puedas responder "¿está /admin bloqueado para GPTBot ahora?" sin adivinar. Y detecta conflictos de orden de reglas donde dos bots heredan diferentes reglas de bloques User-agent superpuestos. La mayoría de verificadores gratuitos se detienen en el paso uno. El nuestro ejecuta el conjunto completo. Establece Site URL , selecciona el bot de User-agent , coloca una Test path opcional, y obtienes un veredicto por regla. Cuando envíes una corrección, confirma el cambio con una segunda pasada en el verificador antes de pasar a otro trabajo.

Question 3

¿Dónde encuentro mi archivo robots.txt?

Accepted Answer

Escribe tu dominio seguido de /robots.txt en cualquier navegador. Si https://www.example.com/robots.txt devuelve un 200 y muestra texto plano, tienes uno. Si devuelve 404 o tu página de inicio de CMS, no tienes. El archivo debe estar en la exacta raíz del dominio. Las rutas de subdirectorio como /blog/robots.txt se ignoran completamente por cada rastreador. Los subdominios son separados: blog.example.com y www.example.com cada uno necesita su propio archivo en su propia raíz. Los sitios WordPress generalmente tienen uno virtual generado por el plugin SEO; Shopify genera uno automáticamente y bloquea la mayoría; Next.js y Astro necesitan que envíes un archivo estático bajo /public. Si no estás seguro qué rastreadores realmente ven, pega tu URL en nuestro verificador de robots.txt y lo obtenemos con los exactos encabezados que un bot real envía para que el resultado coincida con la realidad del rastreador. Para una reescritura limpia con presets CMS incluidos, usa el generador .

Question 4

¿Cómo corrijo un error "bloqueado por robots.txt" en Search Console?

Accepted Answer

Search Console señala "bloqueado por robots.txt" cuando una regla Disallow cubre la URL que Google intentó rastrear. Abre la herramienta de Inspección de URL para ver qué regla coincidió con Google. Luego ejecuta la misma URL a través de nuestro verificador de robots.txt con User-agent configurado en Googlebot y la ruta bloqueada pegada en Test path . El verificador te muestra la regla exacta que coincidió y el bloque User-agent de donde vino, para que puedas arreglar la fuente en lugar de adivinar. Tres correcciones cubren casi cada caso. Elimina la línea Disallow ofensiva. Estrechécela con una ruta más específica. O agrega una regla Allow arriba (la coincidencia más larga gana en superposición). Envía el cambio, prueba la misma ruta nuevamente en el verificador, luego solicita la indexación de regreso en Search Console. Si las páginas siguen pareciendo bloqueadas, la copia en caché de Google podría estar en juego; se actualiza robots.txt aproximadamente cada 24 horas.

Question 5

¿Debería bloquear rastreadores de IA en robots.txt?

Accepted Answer

Depende de lo que estés optimizando. Bloquéalos si tu contenido es el producto: editoriales, investigación pagada, archivos de suscripción, cualquier cosa donde datos de entrenamiento gratis perjudica el negocio. Permítelos si quieres ser citado en respuestas de ChatGPT y Claude, donde ser la fuente citada impulsa tráfico referral de regreso a tu sitio. La lista 2026 que vale la pena nombrar explícitamente: GPTBot (OpenAI), ClaudeBot y anthropic-ai (Anthropic), CCBot (Common Crawl, que entrena muchos modelos), PerplexityBot y Google-Extended (controla los usos de entrenamiento de páginas rastreadas por Googlebot sin afectar tus clasificaciones en búsqueda normal en Google). Nuestro generador de robots.txt te da una casilla por rastreador para que decidas por bot, no por todo. Después de desplegar, prueba cada uno con nuestro verificador contra una ruta real para confirmar que la regla se resuelve como esperas para ese bot. La mayoría de bugs vienen de conflictos de orden de reglas entre bloques User-agent superpuestos, no de entradas faltantes.

Question 6

¿Cómo debería estructurarse un archivo robots.txt?

Accepted Answer

Comienza con una línea Sitemap que señale a tu índice XML. Luego agrupa reglas por User-agent. El bloque comodín (User-agent: *) atrapa cada bot no nombrado en otro lugar, así que ponlo último. Arriba de él, agrega bloques nombrados para bots que quieras tratar diferente: Googlebot, Bingbot, GPTBot, ClaudeBot, CCBot, PerplexityBot, Google-Extended. Cada bloque puede tener múltiples líneas Allow y Disallow. La coincidencia más larga y específica gana cuando las reglas se superponen. Mantén rutas sensibles a mayúsculas: Disallow: /Admin no bloquea /admin. Lista un Sitemap por dominio, declarado una vez cerca de la parte superior. Mantén el archivo bajo 500 KB o Google comienza a ignorar líneas después de ese punto. Nuestro generador de robots.txt te proporciona todo esto con un preset CMS y controles de rastreador de IA. Una vez que publiques, verifica que la estructura se analiza correctamente con nuestro verificador contra un puñado de URLs reales y cada bot nombrado antes de cerrar el ticket.

Question 7

¿Cuál es la diferencia entre Disallow y noindex?

Accepted Answer

Disallow en robots.txt le dice a un bot que no rastree una URL. No le dice al bot que no la indexe. Si otro sitio enlaza a una página Disallowed, Google aún puede listar la URL en resultados de búsqueda con "sin descripción disponible" debajo. Para realmente mantener una página fuera del índice, usa una etiqueta meta robots noindex en la página misma, o un encabezado X-Robots-Tag noindex en la respuesta HTTP. La trampa: Google tiene que rastrear la página para ver la etiqueta noindex. Así que si bloqueas y no-indexas ambos, noindex nunca toma efecto y la página permanece en resultados. Elige uno por página. Disallow es para presupuesto de rastreo (bloqueando admin, búsqueda interna, URLs de filtro). Noindex es para mantener contenido fuera de resultados completamente. Para una auditoría completa a nivel de página de directivas de robots, usa nuestro simulador de rastreador junto con el verificador de metadatos del sitio web .

Question 8

¿Sigue funcionando robots.txt en 2026?

Accepted Answer

Sí, para rastreadores que elijan respetarlo. Googlebot, Bingbot y los principales rastreadores de IA (GPTBot, ClaudeBot, PerplexityBot, CCBot, Google-Extended) todos respetan robots.txt como cuestión de política. Los raspadores rogue lo ignoran porque el archivo es una solicitud cortés, no un firewall. Si necesitas bloqueo duro, agrega reglas del lado del servidor: listas de negación de IP, gestión de bots de Cloudflare, limitación de tasas o autenticación frente a las rutas sensibles. Usa robots.txt para lo que es bueno: moldear qué páginas los bots que te importan gastan su presupuesto de rastreo en. La diferencia de 2026 es IA. Hace cinco años, "los bots" significaba Google y Bing. Hoy la lista es más larga y cada rastreador de IA usa un nombre de User-agent diferente. Nuestro verificador prueba cualquiera de ellos en un clic para que puedas ver exactamente qué ve cada bot. Emparéjalo con nuestro simulador de rastreador para una vista de página renderizada.

Question 9

¿Puedo usar comodines en robots.txt?

Accepted Answer

Sí, dos comodines son soportados y entendidos por todos los principales bots. El asterisco (*) coincide con cualquier secuencia de caracteres y el signo de dólar ($) ancla el patrón al final de una URL. Disallow: /*.pdf$ bloquea cada URL que termina en .pdf. Disallow: /*?sort= bloquea cualquier URL con un parámetro sort en cualquier parte. Combínalos: Disallow: /search?*&page=$ bloquea resultados de búsqueda interna paginados pero deja la página de búsqueda principal rastreable. Los comodines no funcionan en líneas User-agent, así que no puedes escribir User-agent: Google* e golpear cada bot de Google. Nombra cada uno explícitamente (Googlebot, Googlebot-Image, Googlebot-News). La coincidencia literal más larga gana sobre un patrón más corto. Prueba reglas de comodín con una ruta concreta en nuestro verificador porque los modelos mentales se rompen rápido con parámetros anidados, cadenas de consulta y patrones superpuestos que se ven bien en papel. Para una línea de base limpia, genera uno con nuestro generador e itera desde allí con rutas de prueba.

Question 10

¿Protegerá robots.txt páginas sensibles?

Accepted Answer

No. Robots.txt es un documento público que cualquiera puede leer en yourdomain.com/robots.txt escribiendo en un navegador. Listar una ruta allí le dice a cada rastreador, cada competidor y cada humano curioso que la ruta existe en tu sitio. Para URLs de staging, paneles admin o archivos privados, eso es lo opuesto a lo que quieres: acabas de anunciarlos. La protección real viene de controles del lado del servidor: autenticación de contraseña, listas de permitidos de IP, acceso solo por VPN o simplemente no exponer la URL en un servidor público. Una etiqueta meta noindex mantiene la página fuera de resultados de búsqueda si la página es alcanzable pero quieres que sea privada para buscadores. Para contenido verdaderamente oculto, no enlaces a él, no lo listes en sitemaps y bloquéalo con autenticación. Usa robots.txt para moldear presupuesto de rastreo en páginas que no te importa sean públicas. Audita qué está expuesto con nuestro verificador de metadatos y confirma reglas de robots con nuestro verificador de robots.txt .

Robots.txt Checker

Generate the whole content, not just check it.

Qué hace realmente un verificador de robots.txt

Cómo usar este verificador de robots.txt

Por qué es importante probar por user-agent

Precedencia de reglas y comodines

Validación de sitemap y directivas de rastreo

Errores de sintaxis y casos extremos de validación

Errores comunes

Consejos avanzados

Generate the whole content, not just check it.

Preguntas frecuentes

Herramientas gratuitas relacionadas