Qué devuelve este extractor de enlaces
El resultado es una fila por cada <a href> en la página. Cada fila lleva la URL de destino, el texto ancla visible, el atributo rel (con nofollow, sponsored, ugc y noopener identificados), el valor target, y una columna de tipo: internal, external, anchor, mailto, o tel. Una típica página de inicio de blog de 300 enlaces se desglosa en 70% interno, 25% externo, 5% anchor o mailto. El menú desplegable de filtro colapsa la vista a un segmento. Esa estructura es lo que la diferencia de un extractor de URLs basado en regex sobre texto. Obtienes el contexto DOM completo para cada enlace, no solo la cadena de URL.
Cómo usar este extractor de enlaces
- Ingresa URL de la página. Pega la URL completa incluyendo
https://. La herramienta obtiene la página del lado del servidor, así que la URL debe ser públicamente accesible. Las páginas detrás de login o bloqueos estrictos a bots devuelven un error de obtención. - Selecciona Mostrar. Elige uno de cinco filtros: Todos los enlaces, Solo internos, Solo externos, Solo nofollow, o Solo texto ancla vacío. El predeterminado es Todos. Cambia a Solo internos para auditorías de estructura del sitio, Solo externos para revisiones de salida, Solo nofollow cuando verifiques etiquetado patrocinado.
- Haz clic en Extraer enlaces. La herramienta devuelve una tabla dentro de 2-4 segundos. Copia al portapapeles o descarga como CSV.
Prueba esto con una página de inicio de blog. Ingresa una URL, deja Mostrar en Todos los enlaces. Ves 124 filas: 87 internas, 31 externas, 6 saltos de ancla. Cambia a Solo texto ancla vacío y aparecen 4 filas, todas envolturas de logo y enlaces de icono. Esos son los que arreglas primero porque los rastreadores y lectores de pantalla ambos identifican anclas vacías. Usa el url-extractor cuando solo necesites URLs brutas de texto o markdown sin contexto HTML.
Por qué el texto ancla y los atributos rel importan para SEO
El texto ancla dice a los motores de búsqueda de qué se trata la página enlazada. Un enlace anclado "herramienta de auditoría SEO gratuita" pasa más relevancia temática que uno anclado "haz clic aquí". Las páginas con 80% de anclas genéricas ("leer más", "aquí", "esto") clasifican 5-8 posiciones más bajas en promedio que las páginas con anclas internas descriptivas, según estudios de Ahrefs de 1.2 millones de SERPs.
Los atributos rel cambian cómo fluye la equidad de enlace. rel="nofollow" dice a Google que ignore el enlace para clasificación. rel="sponsored" marca colocaciones pagadas. rel="ugc" marca enlaces de comentarios generados por usuarios. El mal uso de estos (nofollowing enlaces internos, olvidando marcar contenido patrocinado) ya sea filtra presupuesto o arriesga una acción manual. Este extractor expone cada valor rel para que puedas detectar un nofollow en un enlace de navegación en segundos. Combínalo con el canonical-checker para verificar que las páginas enlazadas envíen la señal canónica correcta.
Errores comunes
- Tratarlo como un scraper de JavaScript. La herramienta obtiene HTML crudo. Si una página renderiza enlaces vía React o Vue del lado del cliente, esos enlaces no aparecerán a menos que existan en la respuesta inicial del servidor. Usa el google-crawler-simulator para páginas renderizadas con JS.
- Ignorar filas de ancla vacío. Un ancla vacía generalmente significa un enlace solo de icono sin aria-label o alternativa de fallback. Los rastreadores no ven contexto, los lectores de pantalla no anuncian nada.
- Confundir nofollow con noindex. Nofollow controla el flujo de equidad de enlace en un enlace individual. Noindex controla si la página de destino misma clasifica.
- Auditar solo una página. Una página de inicio muestra 100 enlaces, pero el gráfico de enlace real emerge a través de 50-100 páginas. Ejecuta el extractor en plantillas principales (inicio, centro de blog, categoría, producto).
- Saltarse el filtro de Externo + Nofollow en artículos de invitado. Si aceptas contenido patrocinado, la combinación verifica que tu etiquetado patrocinado sea consistente.
Consejos avanzados
- Para auditorías de enlace interno, ejecuta el extractor en tus 20 principales páginas de aterrizaje orgánicas y verifica si cada una tiene 3-8 enlaces internos contextuales a páginas de ingresos. Las páginas con menos de 3 enlaces internos se rastrean menos frecuentemente y pierden 15-25% de la equidad potencial de enlaces.
- Haz referencia cruzada del resultado con el url-extractor cuando tengas una exportación markdown. La versión HTML expone nofollow y rel; la versión regex captura enlaces dentro de bloques de código que la versión HTML omite.
- Usa Solo texto ancla vacío como una auditoría rápida de accesibilidad. WCAG 2.2 falla cualquier enlace sin un nombre accesible. Una tasa de ancla vacía de 5%+ señala un defecto.
- Después de extraer enlaces externos, pégalos en un verificador de estado masivo para capturar 404s. Apunta a menos del 1% de enlaces externos rotos en las páginas principales.
- Compara proporciones entre competidores. Las páginas clasificadas en la primera página para palabras clave comerciales promedian 12-18% de enlaces externos y 82-88% internos. Más del 30% externo usualmente filtra autoridad.
Una vez que tengas una auditoría de enlace limpia, verifica que las páginas enlazadas envíen señales consistentes. Ejecuta cada destino único a través del canonical-checker para confirmar auto-canonicalización, y el google-crawler-simulator para ver cómo Googlebot las renderiza. Para inventario de URLs masivo extraído de volcados de texto, el url-extractor maneja entrada de pegado que el extractor de enlaces no acepta.