Qué hace realmente un verificador de sitemaps
Un verificador de sitemaps obtiene tu archivo sitemap.xml, analiza cada entrada <url>, extrae los tags <loc>, <lastmod>, <changefreq> y <priority>, luego realiza una solicitud HTTP HEAD a cada URL para confirmar que devuelve 200. Señala redirecciones, 404s y errores del servidor, verifica URLs duplicadas y compara tu estructura de sitemap contra la especificación XML sitemap.
Si tu sitemap es un índice de sitemap (un archivo que lista otros archivos sitemap en lugar de URLs individuales), seguimos cada referencia, obtenemos cada sitemap hijo y agregamos los resultados. Una única verificación cubre tu árbol de sitemap completo hasta 200 URLs en modo completo o 50 URLs en modo muestra.
Tres categorías de problemas aparecen en cada auditoría de sitemap. URLs rotas que devuelven 404 o 500. URLs duplicadas listadas más de una vez, que desperdician presupuesto de rastreo. Y URLs huérfanas que aparecen en el sitemap pero tienen cero enlaces internos, lo que significa que un usuario no puede alcanzarlas haciendo clic en tu sitio. Nuestro verificador señala las tres en un solo paso.
Cómo usar este verificador de sitemaps
- Pega tu URL de sitemap en Sitemap URL. Generalmente
https://www.yourdomain.com/sitemap.xmlohttps://www.yourdomain.com/sitemap_index.xml. - Elige una Crawl depth del menú desplegable. Index only valida la estructura XML sin obtener URLs. All referenced sitemaps sigue cada sitemap listado en un índice. Sample 50 URLs verifica códigos de estado para 50 URLs aleatorias. Full - up to 200 URLs verifica cada URL que encontramos, hasta el límite.
- Presiona Check sitemap. Obtendrás una tabla de resumen con total de URLs, desglose de códigos de estado, recuento de duplicados, edad promedio de lastmod y cualquier error de esquema XML.
- Expande Problem URLs para ver una lista fila por fila de 404s, 301s, duplicados y huérfanos. Cada fila muestra la URL, estado, fecha de lastmod y corrección recomendada.
- Haz clic en Download CSV para exportar el informe completo. Úsalo para corregir problemas por lotes en tu CMS o pásalo a un desarrollador.
Intenta verificar un sitemap con más de un archivo. Si tu índice de sitemap lista cinco sub-sitemaps y uno devuelve 404, reportamos la referencia rota y omitimos ese archivo. Los otros cuatro aún se verifican. Si tienes un sitemap plano con 10,000 URLs, elige Sample 50 primero para hacer una verificación rápida antes de ejecutar el rastreo completo.
Por qué los códigos de estado importan más que la validez XML
Un sitemap puede ser un XML perfectamente válido y aún así dañar tu SEO. Si 30 URLs devuelven 404, Google desperdicia presupuesto de rastreo obteniendo páginas que no existen. Si 50 URLs son redirecciones 301, Google tiene que seguir la redirección, lo que duplica el recuento de solicitudes y ralentiza la indexación. Si las URLs devuelven errores 500, Google podría eliminarlas del índice por completo.
Tres consecuencias prácticas.
Presupuesto de rastreo. Google asigna un presupuesto de rastreo diario a cada sitio basado en la velocidad del servidor, la autoridad del sitio y la demanda de rastreo. Cada 404 o redirección en tu sitemap resta de ese presupuesto sin indexar contenido nuevo. Limpiar el sitemap antes de enviarlo a Search Console hace que cada rastreo cuente.
Cobertura de índice. Las URLs con códigos de estado 4xx o 5xx pueden ser excluidas del índice después de fallos repetidos. Si esas páginas son importantes (páginas de productos, publicaciones de blog con backlinks, páginas de aterrizaje para campañas pagadas), pierdes tráfico. Una verificación de sitemap detecta esto antes de que el daño se agrave.
Precisión de lastmod. El tag <lastmod> le dice a Google cuándo se actualizó una página por última vez. Si cada página tiene el mismo lastmod de hace tres años, Google aprende que tu sitemap es antiguo y puede rastrear con menos frecuencia. Si lastmod siempre es "ayer" incluso cuando el contenido no ha cambiado, Google aprende a ignorarlo. Nuestro verificador reporta la edad promedio de lastmod y señala patrones sospechosos.
URLs duplicadas y desajustes canónicos
Una URL duplicada en un sitemap generalmente significa que la misma loc aparece dos veces, a menudo con una diferencia de barra diagonal al final o un desajuste de protocolo. /page y /page/ son URLs diferentes para un analizador, incluso si tu servidor las trata como idénticas. http://example.com/page y https://example.com/page son diferentes. Nuestro verificador normaliza estos patrones y los señala como duplicados probables.
Si tu sitemap lista /page pero esa URL se redirige a /page/, la redirección desperdicia una solicitud. Es mejor listar el destino final en el sitemap y arreglar la redirección a nivel de servidor. Mostramos la cadena de redirección y recomendamos listar la versión con estado 200.
Los desajustes canónicos son un problema relacionado. Si tu sitemap incluye /page-a pero esa página tiene un tag <link rel="canonical" href="/page-b">, Google ve un conflicto. El sitemap dice "indexa page-a" pero la página dice "soy un duplicado de page-b". Google puede optar por ignorar la entrada del sitemap. Ejecuta un verificador canónico en las URLs señaladas para confirmar que el canónico coincide con la loc del sitemap.
Páginas huérfanas y rastreabilidad
Una página huérfana está en tu sitemap pero no tiene enlaces internos que apunten a ella. Un bot puede encontrarla a través del sitemap, pero un humano no puede alcanzarla navegando tu sitio. Esto es común después de migraciones de contenido, cuando las URLs antiguas permanecen en el sitemap pero el menú de navegación se actualizó.
Los huérfanos no siempre son malos. Una página de aterrizaje para una campaña de anuncio pagado podría ser huérfana a propósito para controlar el acceso. Pero las publicaciones de blog o páginas de productos huérfanas señalan un problema de estructura del sitio. Si la página debería ser accesible, añade enlaces internos. Si no debería existir, elimínala del sitemap y 301 hacia una página activa.
Nuestro verificador detecta huérfanos probables comparando URLs de sitemap a tu gráfico de enlaces internos. Si una URL aparece en el sitemap pero tiene cero enlaces entrantes desde páginas que rastreamos, la señalamos. Esta heurística detecta la mayoría de huérfanos sin requerir un rastreo de sitio completo.
Errores comunes
- Enviar un índice de sitemap a una herramienta que espera sitemaps planos. La mayoría de validadores fallan en índices o prueban solo el archivo de índice en sí. El nuestro sigue cada referencia, así que obtienes resultados para el árbol completo.
- Listar URLs no canónicas. Cada URL en tu sitemap debería ser la versión canónica. No listes la versión www si el canónico es no-www. No listes http si el canónico es https. Usa tu verificador canónico primero si no estás seguro.
- Incluir URLs bloqueadas por robots.txt. Si una URL está en tu sitemap pero está desautorizada en robots.txt, Google no puede rastrearla. Esto crea una advertencia en Search Console. Verifica robots.txt con nuestro verificador de robots.txt antes de desplegar un nuevo sitemap.
- Establecer lastmod a la fecha en que se generó el sitemap, no a la fecha en que cambió el contenido. Si tu CMS regenera el sitemap diariamente y sella cada URL con la fecha de hoy, Google deja de confiar en lastmod. Completa lastmod a partir de la marca de tiempo actual real del post.
- Olvidar re-verificar después de una migración. Las URLs antiguas a menudo permanecen en un sitemap después de pasar a una nueva plataforma. Si la mitad de tu sitemap devuelve 404, Search Console mostrará la caída en cobertura. Audita el sitemap inmediatamente post-migración.
- No verificar los sitemaps hijo individualmente. Si tu índice de sitemap tiene un hijo roto, podrías no notarlo hasta que los errores de rastreo aumenten. Prueba cada URL de sitemap hijo aisladamente para confirmar que devuelve 200 y se analiza correctamente.
Consejos avanzados
- Ejecuta una verificación de muestra primero en sitemaps grandes. Si la muestra revela un patrón (cada URL es 301, o lastmod falta), arréglalo antes de rastrear los 10,000 URLs. La muestra te da señal en 10 segundos en lugar de 5 minutos.
- Compara fechas de lastmod con fechas de publicación de tu CMS. Si una publicación se actualizó la semana pasada pero lastmod es de hace seis meses, tu script de generación de sitemap está roto.
- Verifica tu sitemap mensualmente, no una sola vez. El contenido se vuelve anticuado, se añaden redirecciones, las URLs se despubican. Una verificación mensual detecta degradación antes de que Google lo haga.
- Si ves un pico en 404s, exporta el CSV y compáralo con tus registros de servidor. A veces una URL es 404 en el sitemap pero aún recibe tráfico de backlinks, lo que significa que debería ser 301 en lugar de ser removida.
- Prueba el mismo sitemap desde dos agentes de usuario diferentes (Chrome de escritorio y Googlebot). Si los códigos de estado difieren, tu servidor está enmascarando o devolviendo respuestas diferentes a los bots, lo que viola las directrices de Google.
- Si se encuentran duplicados, verifica los tags canónicos. Una URL duplicada con un canónico que apunta a otro lugar puede permanecer en el sitemap si es una variante regional o de idioma. Si no es una variante, elimínala.
Después de arreglar problemas de sitemap, valida que tu archivo robots.txt declare correctamente la ubicación del sitemap con una línea Sitemap:. Usa el verificador de robots.txt para confirmar. Luego simula cómo Googlebot ve una de tus páginas con el simulador de rastreador de Google para confirmar que la URL carga, JavaScript se ejecuta y el contenido es visible. Si estás verificando metadatos junto con sitemaps, el verificador de metadatos del sitio web renderiza tu título, meta y tags OG tal como aparecen en los SERPs.