Qué extrae este extractor de URLs del texto sin procesar
El extractor coincide con patrones http, https, ftp, mailto y www. desnudo dentro de cualquier entrada que proporcionas. Eso cubre el 95% de los enlaces reales encontrados en registros de servidor, correos electrónicos de soporte técnico, hilos de chat exportados y artículos pegados. Las referencias www.example.com desnudas se normalizan a https://www.example.com antes de la validación para que sobrevivan al paso de análisis. La puntuación final que a menudo se adhiere a las URLs en prosa, cosas como )., ,, ; y ], se elimina antes de que el enlace se almacene.
Después de la extracción, cada candidato se ejecuta a través de new URL(). Cualquier cosa que falle el análisis se descarta. Esto detecta cadenas malformadas como https:// sin host o http://example sin TLD. La lista limpia se deduplica y ordena por host para que puedas ver qué dominios aparecen con más frecuencia. Un registro de acceso nginx de 4.000 líneas con 12.000 coincidencias sin procesar típicamente se reduce a 80-200 URLs únicas después de deduplicar.
Cómo usar este extractor de URLs
- Ingresa una URL o pega texto/HTML. Suelta un registro de servidor, carga JSON, exportación de correo, párrafo de prosa o fuente HTML sin procesar. También puedes ingresar una URL en el campo superior y hacer clic en Fetch para cargar el HTML de esa página directamente.
- Elige un filtro. Selecciona Todas las URLs para verlo todo, Solo HTTP/HTTPS para omitir coincidencias de mailto y ftp, u Ocultar mismo dominio para suprimir enlaces que apunten al host de la página de origen.
- Presiona Extraer URLs. La herramienta devuelve una lista deduplicada agrupada por host, con un recuento junto a cada dominio y una opción de copiar/descargar para la salida limpia.
Prueba esto con un registro de webhook de Stripe. Pega 200 líneas que contengan referencias como https://api.stripe.com/v1/charges/ch_3O2, https://yourapp.com/webhooks/stripe y mailto:[email protected]. Configura el filtro en Solo HTTP/HTTPS. El extractor devuelve tres URLs únicas agrupadas bajo dos hosts: api.stripe.com (1 enlace) y yourapp.com (1 enlace). La coincidencia de mailto está oculta. Cambia el filtro de nuevo a Todas las URLs y el mailto reaparece en su propio grupo.
Por qué un extractor de URLs basado en texto vence al análisis DOM para entrada desordenada
La mayoría de extractores de enlaces requieren HTML válido y analizan el DOM para encontrar etiquetas <a href>. Eso funciona para páginas web limpias pero se rompe en archivos de registro, JSON, texto sin formato y HTML roto donde los anclajes faltan o están malformados. Un extractor de URLs basado en regex lee los bytes sin procesar y encuentra cualquier cosa que parezca una URL, independientemente de la estructura. Eso lo convierte en la herramienta correcta para auditorías de seguridad, clasificación de tickets de soporte, migraciones de contenido y cualquier escenario donde la entrada no es una página web renderizada.
Si necesitas texto de anclaje, banderas nofollow o clasificación interna versus externa de una página web real, usa el link-extractor en su lugar. Esa herramienta obtiene la URL, analiza el DOM con DOMParser y devuelve metadatos de anclaje estructurados. Recurre al extractor de URLs cuando la entrada es no estructurada. Recurre al extractor de enlaces cuando la entrada es HTML y deseas el contexto del anclaje.
Errores comunes
- Confundir extractor de URLs con extractor de enlaces. El extractor de URLs lee cualquier texto y ejecuta regex. El extractor de enlaces analiza HTML y lee etiquetas
<a>. Usa el extractor de URLs para registros, JSON y prosa. Usa link-extractor para analizar la estructura de enlaces de una página web en vivo. - Olvidar eliminar parámetros de consulta antes de deduplicar para análisis. Dos URLs que difieren solo por
?utm_source=cuentan como entradas separadas. Si deseas páginas únicas, ejecuta la salida a través de un pase rápido de hoja de cálculo para eliminar cadenas de consulta antes de contar. - Pegar HTML truncado y perder la mitad de los enlaces. Copiar y pegar desde "Ver fuente de la página" a veces se trunca en 100 KB o se corta a mitad de etiqueta. Usa la opción de obtención de URL en el campo superior en su lugar, que extrae la respuesta completa del servidor.
- Confiar en el recuento de deduplicación como recuento de página única. La deduplicación es host más ruta más consulta.
example.com/pageyexample.com/page/son dos entradas aunque se resuelvan a la misma página. Normaliza barras finales si la singularidad exacta es importante. - Ejecutar el extractor en un archivo de registro de 50 MB en un solo pegado. El regex del navegador en entradas grandes puede bloquear la pestaña durante 30+ segundos. Divide los registros en fragmentos de 5 MB o usa el modo de obtención para URLs individuales.
Consejos avanzados
- Después de la extracción, canaliza la salida al link-extractor por URL para obtener texto de anclaje y atributos rel para cada enlace. Las dos herramientas se encadenan naturalmente para auditorías de enlaces completas.
- Para migraciones de SEO, extrae cada URL de tu sitemap.xml antiguo, ejecuta la misma extracción en el sitemap nuevo y haz diff de las listas para encontrar páginas faltantes. Un sitio de 5.000 URLs generalmente tiene 50-200 redirecciones faltantes después de un rediseño.
- Usa el filtro Ocultar mismo dominio cuando audites enlaces salientes desde una sola página. Un sitio de marketing B2B con 80 enlaces internos y 12 enlaces de socio externos muestra solo los 12 externos, haciendo que la auditoría de socio sea instantánea.
- Empareja esto con el email-extractor cuando proceses volcados de contactos. El extractor de correo captura direcciones que el regex de mailto del extractor de URLs pierde, como cadenas
[email protected]sin procesar sin el prefijomailto:. - Para flujos de trabajo de desarrolladores, ejecuta extracción en la salida de git log para encontrar cada referencia externa en mensajes de commit. Un historial de 2.000 commits típicamente contiene 40-80 URLs de referencia únicas (tickets Jira, PRs de GitHub, hilos de Slack).
Una vez que tengas una lista de URLs limpia, el siguiente paso depende de tu objetivo. Para auditoría de enlaces HTML con contexto de anclaje, ejecuta cada URL a través del link-extractor. Para encontrar información de contacto en la misma entrada, usa el email-extractor y phone-number-extractor en el mismo pegado. Para rastreos basados en sitemap, el sitemap-checker te da la vista XML estructurada que el enfoque regex omite.