Qué hace realmente un simulador de rastreador de Google
Un simulador de rastreador envía una solicitud HTTP a tu URL con una cadena de user-agent que coincide con el bot que seleccionas, descarga la respuesta y registra el código de estado, los encabezados y el HTML sin procesar. Luego carga la página en un navegador sin interfaz gráfica (Chrome con JavaScript habilitado), espera a que el DOM se estabilice, captura el HTML renderizado final y lo compara con el HTML inicial para mostrar qué cambió JavaScript.
Extrae el texto visible (lo que un bot ve después de eliminar etiquetas HTML, CSS y scripts) porque ese es el contenido que Google indexa. Marca los recursos que no se pudieron cargar: imágenes, fuentes, archivos CSS o paquetes JavaScript bloqueados por CORS, errores 404 o errores del servidor. Comprueba las etiquetas robots meta, los encabezados X-Robots-Tag y las etiquetas canónicas que podrían impedir la indexación incluso si la página se cargó correctamente.
Tres categorías de problemas aparecen en cada prueba de rastreo. La primera es contenido faltante del HTML sin procesar que solo aparece después de que se ejecuta JavaScript. Si tu titular de héroe o descripción de producto se renderiza del lado del cliente, Googlebot podría no verlo durante la descarga inicial. La segunda es el tiempo de espera de renderizado. Si JavaScript tarda más de cinco segundos en finalizar, Googlebot podría indexar la página incompleta. La tercera son los recursos bloqueados. Si tus archivos CSS o JavaScript críticos devuelven 403 o 404, la página se renderiza de forma rota y Googlebot ve un diseño roto.
Cómo usar este simulador de rastreador de Google
- Pega la URL de la página en Page URL. Usa la versión canónica (https, www si aplica, sin parámetros UTM a menos que estés probando cómo los parámetros afectan el renderizado).
- Elige un User-agent del menú desplegable. Googlebot Desktop es el predeterminado. Googlebot Mobile simula la indexación móvil prioritaria con una ventana gráfica móvil. Googlebot-Image prueba el rastreo específico de imágenes. Bingbot prueba el rastreador de Bing. GPTBot simula el rastreador de entrenamiento de OpenAI.
- Haz clic en Simulate crawler. Obtienes cuatro secciones: HTML sin procesar, HTML renderizado, texto visible y un registro de recursos que muestra qué archivos se cargaron o fallaron.
- Compara las pestañas Raw HTML y Rendered HTML. Si la versión renderizada tiene contenido faltante del sin procesar, ese contenido se inyecta con JavaScript. Si el tiempo de renderizado excede cinco segundos, mostramos una advertencia.
- Consulta la lista Blocked resources. Cualquier recurso que devolvió un estado que no es 200 se marca. Si CSS o JavaScript crítico está bloqueado, la página probablemente se renderice de forma rota para Googlebot.
- Desplázate a Visible text. Esto es lo que Google indexa. Si tu palabra clave objetivo aparece aquí, Google puede clasificar la página para ella. Si no aparece, la palabra clave es invisible.
Intenta simular una aplicación de una sola página construida con React o Vue. El HTML sin procesar a menudo contiene un <div id="root"></div> vacío y una etiqueta script. El HTML renderizado muestra la página completa después de que se ejecuta JavaScript. Si el renderizado tarda ocho segundos debido a llamadas API lentas, advertimos que Googlebot podría agotarse y indexar el shell vacío.
Por qué el HTML sin procesar frente al HTML renderizado es importante
La canalización de indexación de Google tiene dos fases. La primera es la descarga inicial, donde Googlebot descarga el HTML sin procesar. La segunda es el renderizado, donde Googlebot ejecuta JavaScript en una instancia de Chrome sin interfaz gráfica y captura el DOM final. El renderizado ocurre horas o días después de la descarga inicial, y no todas las páginas se renderizan. Las páginas con tiempos de carga rápidos, vinculación interna sólida y sin errores de JavaScript tienen prioridad.
Tres consecuencias prácticas.
El contenido en HTML sin procesar se indexa más rápido. Si tu H1, meta descripción y primer párrafo están en el HTML inicial, Googlebot puede indexarlos inmediatamente. Si solo aparecen después de que se ejecuta JavaScript, la indexación espera la cola de renderizado. En un sitio con 10,000 páginas, ese retraso puede ser de días o semanas.
Los errores de JavaScript bloquean la indexación. Si tu página lanza un error de consola durante el renderizado, Googlebot podría ver una página en blanco. Nuestro simulador ejecuta la página y captura registros de consola. Un error como "Uncaught TypeError: Cannot read property 'map' of undefined" puede impedir que se renderice toda la página.
El presupuesto de renderizado es finito. Google asigna un presupuesto de rastreo y un presupuesto de renderizado por sitio. Si renderizar tu página de inicio toma 10 segundos, Google podría renderizarla menos a menudo que los competidores cuyas páginas se renderizan en dos segundos. Reportamos el tiempo de renderizado para que sepas si estás fuera del presupuesto.
Recursos bloqueados e impacto en la indexación
Un recurso bloqueado es cualquier archivo (CSS, JavaScript, imagen, fuente) que la página intentó cargar pero recibió un código de estado 4xx o 5xx, o que fue bloqueado por robots.txt o política CORS. Googlebot ignora el archivo y continúa renderizando, pero el archivo faltante puede romper el diseño o la funcionalidad.
Los archivos CSS críticos controlan el diseño. Si styles.css está bloqueado por robots.txt, Googlebot renderiza la página sin estilos, lo que significa que el contenido podría estar oculto por estados CSS predeterminados (acordeones contraídos, pestañas ocultas, modales fuera de pantalla). El contenido existe en el DOM pero no es visible, por lo que Google podría no indexarlo.
Los archivos JavaScript críticos controlan la interactividad y la obtención de datos. Si app.js está bloqueado, el enrutamiento del lado del cliente se rompe y los enlaces dentro de la aplicación no funcionan. Si api-client.js está bloqueado, tu página de producto no puede obtener datos de productos, por lo que Googlebot ve un indicador de carga en lugar de detalles del producto.
Las imágenes y fuentes son menos críticas. Una imagen faltante no rompe la indexación, pero podría afectar las señales de experiencia del usuario si el diseño de la página se desplaza o aparecen marcadores de posición. Una fuente faltante recurre a fuentes del sistema, lo cual generalmente está bien para la indexación.
Nuestro simulador enumera todos los recursos, su URL, código de estado y tipo. Si un recurso falló, mostramos el error. Si fue bloqueado por robots.txt, lo marcamos. Usa esta lista para corregir bloqueos a nivel de servidor o en tu archivo robots.txt.
Indexación móvil prioritaria y ventana gráfica
En 2026, Google utiliza indexación móvil prioritaria para todos los sitios. Eso significa que Googlebot Mobile es el rastreador principal y la versión móvil de tu página determina las clasificaciones incluso para búsquedas de escritorio. Si tu página móvil oculta contenido detrás de un toggle "Read more" o elimina widgets de la barra lateral, Googlebot no ve ese contenido y no cuenta para las clasificaciones.
Probar con Googlebot Mobile como user-agent muestra lo que ve el rastreador móvil. Renderizamos la página con una ventana gráfica de 375px (ancho del iPhone SE), para que veas el diseño móvil. Si tu CSS oculta elementos a anchos móviles, faltan en el HTML renderizado. Si tu JavaScript carga de forma perezosa imágenes o texto mientras el usuario se desplaza, y Googlebot no se desplaza, ese contenido es invisible.
Dos soluciones son comunes. La primera es el renderizado del lado del servidor o la generación de sitio estático, donde el contenido completo está en el HTML sin procesar independientemente de la ventana gráfica. La segunda es asegurar que el CSS móvil no establezca display: none en contenido importante. Usa opacity: 0 o position: absolute; left: -9999px para accesibilidad, pero incluso esas pueden perjudicar la indexación si se usan en exceso.
Etiquetas robots meta y encabezados X-Robots-Tag
Incluso si una página se carga correctamente, una etiqueta <meta name="robots" content="noindex"> o un encabezado HTTP X-Robots-Tag: noindex le dice a Googlebot que no la indexe. Nuestro simulador verifica ambos e informa en el resumen.
Los valores comunes son noindex (no agregar a resultados de búsqueda), nofollow (no seguir enlaces en esta página), noarchive (no cachear), nosnippet (no mostrar un fragmento en resultados) y none (equivalente a noindex, nofollow). Si tu sitio de ensayo se publica accidentalmente con etiquetas noindex aún presentes, pierdes todo el tráfico de búsqueda. Verificar antes del lanzamiento detecta esto.
El encabezado HTTP tiene prioridad sobre la etiqueta HTML si ambos están presentes y difieren. Una página con <meta name="robots" content="index"> pero X-Robots-Tag: noindex no será indexada. Nuestro simulador muestra ambos para que puedas detectar conflictos.
Errores comunes
- Renderizar toda la página del lado del cliente. Si el HTML sin procesar está vacío y todo aparece después de JavaScript, la indexación es lenta y frágil. Mueve el contenido crítico al HTML inicial mediante renderizado del lado del servidor o prerrenderizado.
- Bloquear JavaScript o CSS en robots.txt. Google necesita estos archivos para renderizar la página.
Disallow: *.jsoDisallow: *.cssrompe el renderizado. Solo bloquea estos si tienes una razón sólida y vuelve a verificar con el simulador después. - Ignorar errores de consola. Una única excepción no capturada puede detener el renderizado. Consulta el registro de la consola en la salida del simulador y corrige los errores antes de implementar.
- Probar solo con un navegador, no con Googlebot. Los navegadores son más tolerantes que Googlebot. Una página que funciona en Chrome podría fallar en Chrome sin interfaz gráfica debido a polyfills faltantes o comprobaciones de user-agent. Simula Googlebot para ver la experiencia real.
- Asumir que Googlebot se desplaza. No lo hace. El contenido cargado de forma perezosa desencadenado por eventos de desplazamiento es invisible a menos que implementes Intersection Observer o cargues todo en el renderizado inicial.
- No probar después de actualizaciones de framework. Un bump de versión de Next.js o Gatsby puede cambiar cómo funciona la generación estática. Vuelve a verificar el renderizado después de las actualizaciones para confirmar que el contenido sigue estando en el HTML sin procesar.
Consejos avanzados
- Prueba la misma URL con Googlebot Desktop y Googlebot Mobile. Si el contenido difiere, la indexación móvil prioritaria puede clasificar la página de manera diferente a la esperada.
- Compara el tiempo de renderizado en las páginas. Si tu página de inicio se renderiza en 2 segundos pero las páginas de productos tardan 8 segundos, identifica la llamada API lenta o el script pesado y optimízalo.
- Consulta la sección Visible text para verificar la presencia de palabras clave. Si tu palabra clave objetivo está en la fuente HTML pero no en el texto visible, podría estar oculta por CSS o JavaScript, lo que significa que no cuenta para las clasificaciones.
- Usa el simulador después de implementar una nueva función. Un flujo de checkout, widget de chat en vivo o script de análisis pueden romper el renderizado si lanza errores. Detectarlo después de la implementación previene caídas de indexación.
- Si se encuentran recursos bloqueados, verifica con el robots.txt checker para confirmar si robots.txt es la causa. Si no, consulta los registros del servidor para errores 403 o CORS.
- Combina esta herramienta con el website metadata checker para confirmar que el título, meta y schema estén presentes en el HTML renderizado, no solo en la fuente sin procesar.
Después de simular, si encuentras que JavaScript es requerido para contenido crítico, considera pasar al renderizado del lado del servidor o generación estática. Si los recursos bloqueados son el problema, actualiza tu robots.txt con el robots.txt file generator. Si deseas ver cómo se apilan todos los factores SEO en la página (renderizado, metadatos, canónicos, enlaces internos), usa el SEO checklist para una auditoría de 20 puntos.