Skip to content
Verificación en vivo · obtiene tu URL del lado del servidor

URL Extractor

Extrae todas las URLs de cualquier texto, archivo de registro, correo o página web en un clic.

Un URL Extractor escanea cualquier bloque de texto, archivo de registro, volcado JSON, cuerpo de correo electrónico o HTML sin procesar y extrae todos los enlaces que encuentra. Esta herramienta ejecuta una expresión regular sobre lo que pegues, valida cada coincidencia con el parser URL del navegador, elimina la puntuación final como comas y puntos, deduplica los resultados y los agrupa por host. Filtra la salida a todas las URLs, solo HTTP/HTTPS, u oculta enlaces del mismo dominio. Sin registro, sin carga, todo permanece en tu navegador.

or

Generate the whole content, not just check it.

BlazeHive writes SEO articles end to end from a single keyword. Outline, draft, meta, schema, internal links. Free trial, no card.

Start with BlazeHive Free trial

Qué extrae este extractor de URLs del texto sin procesar

El extractor coincide con patrones http, https, ftp, mailto y www. desnudo dentro de cualquier entrada que proporcionas. Eso cubre el 95% de los enlaces reales encontrados en registros de servidor, correos electrónicos de soporte técnico, hilos de chat exportados y artículos pegados. Las referencias www.example.com desnudas se normalizan a https://www.example.com antes de la validación para que sobrevivan al paso de análisis. La puntuación final que a menudo se adhiere a las URLs en prosa, cosas como )., ,, ; y ], se elimina antes de que el enlace se almacene.

Después de la extracción, cada candidato se ejecuta a través de new URL(). Cualquier cosa que falle el análisis se descarta. Esto detecta cadenas malformadas como https:// sin host o http://example sin TLD. La lista limpia se deduplica y ordena por host para que puedas ver qué dominios aparecen con más frecuencia. Un registro de acceso nginx de 4.000 líneas con 12.000 coincidencias sin procesar típicamente se reduce a 80-200 URLs únicas después de deduplicar.

Cómo usar este extractor de URLs

  1. Ingresa una URL o pega texto/HTML. Suelta un registro de servidor, carga JSON, exportación de correo, párrafo de prosa o fuente HTML sin procesar. También puedes ingresar una URL en el campo superior y hacer clic en Fetch para cargar el HTML de esa página directamente.
  2. Elige un filtro. Selecciona Todas las URLs para verlo todo, Solo HTTP/HTTPS para omitir coincidencias de mailto y ftp, u Ocultar mismo dominio para suprimir enlaces que apunten al host de la página de origen.
  3. Presiona Extraer URLs. La herramienta devuelve una lista deduplicada agrupada por host, con un recuento junto a cada dominio y una opción de copiar/descargar para la salida limpia.

Prueba esto con un registro de webhook de Stripe. Pega 200 líneas que contengan referencias como https://api.stripe.com/v1/charges/ch_3O2, https://yourapp.com/webhooks/stripe y mailto:[email protected]. Configura el filtro en Solo HTTP/HTTPS. El extractor devuelve tres URLs únicas agrupadas bajo dos hosts: api.stripe.com (1 enlace) y yourapp.com (1 enlace). La coincidencia de mailto está oculta. Cambia el filtro de nuevo a Todas las URLs y el mailto reaparece en su propio grupo.

Por qué un extractor de URLs basado en texto vence al análisis DOM para entrada desordenada

La mayoría de extractores de enlaces requieren HTML válido y analizan el DOM para encontrar etiquetas <a href>. Eso funciona para páginas web limpias pero se rompe en archivos de registro, JSON, texto sin formato y HTML roto donde los anclajes faltan o están malformados. Un extractor de URLs basado en regex lee los bytes sin procesar y encuentra cualquier cosa que parezca una URL, independientemente de la estructura. Eso lo convierte en la herramienta correcta para auditorías de seguridad, clasificación de tickets de soporte, migraciones de contenido y cualquier escenario donde la entrada no es una página web renderizada.

Si necesitas texto de anclaje, banderas nofollow o clasificación interna versus externa de una página web real, usa el link-extractor en su lugar. Esa herramienta obtiene la URL, analiza el DOM con DOMParser y devuelve metadatos de anclaje estructurados. Recurre al extractor de URLs cuando la entrada es no estructurada. Recurre al extractor de enlaces cuando la entrada es HTML y deseas el contexto del anclaje.

Errores comunes

  • Confundir extractor de URLs con extractor de enlaces. El extractor de URLs lee cualquier texto y ejecuta regex. El extractor de enlaces analiza HTML y lee etiquetas <a>. Usa el extractor de URLs para registros, JSON y prosa. Usa link-extractor para analizar la estructura de enlaces de una página web en vivo.
  • Olvidar eliminar parámetros de consulta antes de deduplicar para análisis. Dos URLs que difieren solo por ?utm_source= cuentan como entradas separadas. Si deseas páginas únicas, ejecuta la salida a través de un pase rápido de hoja de cálculo para eliminar cadenas de consulta antes de contar.
  • Pegar HTML truncado y perder la mitad de los enlaces. Copiar y pegar desde "Ver fuente de la página" a veces se trunca en 100 KB o se corta a mitad de etiqueta. Usa la opción de obtención de URL en el campo superior en su lugar, que extrae la respuesta completa del servidor.
  • Confiar en el recuento de deduplicación como recuento de página única. La deduplicación es host más ruta más consulta. example.com/page y example.com/page/ son dos entradas aunque se resuelvan a la misma página. Normaliza barras finales si la singularidad exacta es importante.
  • Ejecutar el extractor en un archivo de registro de 50 MB en un solo pegado. El regex del navegador en entradas grandes puede bloquear la pestaña durante 30+ segundos. Divide los registros en fragmentos de 5 MB o usa el modo de obtención para URLs individuales.

Consejos avanzados

  • Después de la extracción, canaliza la salida al link-extractor por URL para obtener texto de anclaje y atributos rel para cada enlace. Las dos herramientas se encadenan naturalmente para auditorías de enlaces completas.
  • Para migraciones de SEO, extrae cada URL de tu sitemap.xml antiguo, ejecuta la misma extracción en el sitemap nuevo y haz diff de las listas para encontrar páginas faltantes. Un sitio de 5.000 URLs generalmente tiene 50-200 redirecciones faltantes después de un rediseño.
  • Usa el filtro Ocultar mismo dominio cuando audites enlaces salientes desde una sola página. Un sitio de marketing B2B con 80 enlaces internos y 12 enlaces de socio externos muestra solo los 12 externos, haciendo que la auditoría de socio sea instantánea.
  • Empareja esto con el email-extractor cuando proceses volcados de contactos. El extractor de correo captura direcciones que el regex de mailto del extractor de URLs pierde, como cadenas [email protected] sin procesar sin el prefijo mailto:.
  • Para flujos de trabajo de desarrolladores, ejecuta extracción en la salida de git log para encontrar cada referencia externa en mensajes de commit. Un historial de 2.000 commits típicamente contiene 40-80 URLs de referencia únicas (tickets Jira, PRs de GitHub, hilos de Slack).

Una vez que tengas una lista de URLs limpia, el siguiente paso depende de tu objetivo. Para auditoría de enlaces HTML con contexto de anclaje, ejecuta cada URL a través del link-extractor. Para encontrar información de contacto en la misma entrada, usa el email-extractor y phone-number-extractor en el mismo pegado. Para rastreos basados en sitemap, el sitemap-checker te da la vista XML estructurada que el enfoque regex omite.

Generate the whole content, not just check it.

BlazeHive writes SEO articles end to end from a single keyword. Outline, draft, meta, schema, internal links. Free trial, no card.

Start with BlazeHive Free trial

Preguntas frecuentes

¿Qué es un extractor de URLs?

Un extractor de URLs es una herramienta que escanea cualquier entrada de texto y extrae cada URL que contiene. Usa una expresión regular para encontrar patrones que comiencen con http, https, ftp, mailto o www., luego valida cada coincidencia contra el parser URL del navegador para descartar cadenas malformadas. Después de la validación, la herramienta deduplica la lista y agrupa los resultados por host. Este extractor de BlazeHive maneja archivos de registro de 4.000 líneas, cargas JSON de hasta algunos megabytes, HTML sin procesar y prosa pegada sin cargar nada en un servidor. Todo se ejecuta en el navegador. Los casos de uso comunes incluyen clasificación de registro de seguridad, revisión de tickets de soporte, auditorías de migración de contenido e investigación competitiva rápida en enlaces salientes de un artículo competidor. Usa el link-extractor cuando específicamente necesites texto de anclaje y banderas nofollow de una página web en vivo en su lugar.

¿Cómo extraes URLs del texto?

Pega tu texto en el campo URL o pega texto/HTML, elige un filtro y haz clic en Extraer URLs. La herramienta ejecuta un patrón regex sobre tu entrada que coincida con cadenas http://, https://, ftp://, mailto: y www. desnudo. Cada coincidencia se ejecuta a través de new URL() para filtrar candidatos malformados, luego la puntuación final como comas, puntos, paréntesis y corchetes se elimina. La lista deduplicada agrupa por host y muestra un recuento para cada dominio. Un hilo de correo de 200 líneas típicamente produce 5-15 URLs únicas en menos de un segundo. Para extracción programática, el mismo patrón regex funciona en Python (re.findall), JavaScript (String.prototype.matchAll) o grep con la bandera -oE, pero una herramienta de navegador te da filtrado instantáneo y agrupación de host que una línea no.

¿Puedo extraer URLs de un archivo de registro?

Sí. Los registros del servidor son una de las entradas más comunes para este extractor de URLs. Pega hasta algunos megabytes de líneas de registro nginx, Apache o de aplicación en el área de texto y haz clic en Extraer URLs. La herramienta encuentra cada URL referenciada en el registro, deduplica y agrupa por host. Un registro de acceso nginx de 4.000 líneas con 12.000 coincidencias sin procesar típicamente se reduce a 80-200 URLs únicas después de deduplicar. Para archivos más grandes que 5 MB, divide el registro en fragmentos antes de pegar. Si necesitas extraer URLs de registros como parte de un flujo de trabajo automatizado, el mismo patrón regex funciona en grep -oE en la línea de comandos. Usa la herramienta del navegador cuando desees agrupación visual rápida. Usa grep cuando desees canalizar la salida a otro script. Después de la extracción, ejecuta hosts externos sospechosos a través del link-extractor para inspeccionar el contenido de la página real.

¿Cómo extraes URLs de un PDF?

El extractor de URLs funciona en texto, así que primero convierte el PDF a texto. En macOS, ejecuta pdftotext input.pdf output.txt desde la línea de comandos (instala vía brew install poppler). En Windows o Linux, usa la misma utilidad pdftotext del paquete Poppler. Abre el archivo de texto resultante, copia el contenido y pega en el campo URL o pega texto/HTML. Los PDFs creados a partir de páginas web típicamente contienen 20-100 URLs. Los PDFs de documentos nativos como reportes generalmente contienen 5-20. El extractor captura URLs que se extienden sobre saltos de línea si el PDF las preserva como cadenas continuas. Vigila PDFs que envuelvan URLs largas en múltiples líneas con guiones. Esos se convierten en dos URLs rotas. Si tu salida se ve sospechosa, abre el PDF en Preview o Adobe Reader y usa la exportación "Guardar como texto" integrada, que preserva la continuidad de URL mejor que las herramientas de línea de comandos para algunos PDFs.

¿Cómo extraes URLs de un correo electrónico?

Abre el correo, visualiza la fuente sin procesar u "Mostrar original" (Gmail) u "Ver fuente" (Outlook), y copia el cuerpo HTML completo. Pega eso en el campo URL o pega texto/HTML y haz clic en Extraer URLs. Un correo de marketing típico contiene 15-40 URLs incluidos píxeles de seguimiento, enlaces de cancelación de suscripción, iconos sociales y enlaces de contenido. Elige el filtro Solo HTTP/HTTPS para omitir la dirección de respuesta mailto:. Para Apple Mail o Thunderbird, puedes copiar el correo renderizado directamente sin ver la fuente, pero perderás las URLs ocultas en atributos alt de imágenes y píxeles de seguimiento. Ve la fuente para la extracción más completa. Si procesas correos en lote, exporta tu bandeja de entrada al formato mbox y ejecuta el archivo a través del extractor en fragmentos. El mismo regex captura URLs en cuerpos de correo de texto sin formato y HTML igualmente bien.

¿Cómo valida el extractor de URLs las URLs?

Cada coincidencia regex se ejecuta a través del constructor new URL() de JavaScript. Si el constructor lanza, el candidato se descarta. Esto filtra cadenas malformadas como https:// sin host, http://example sin dominio de nivel superior y fragmentos parciales. El validador no verifica si la URL se resuelve o devuelve una respuesta 200. Solo verifica validez sintáctica. Para verificar si las URLs están en vivo, ejecuta la lista extraída a través del http-status-checker de uno en uno. El paso de validación típicamente rechaza 5-10% de coincidencias regex sin procesar como malformadas. Las referencias www.example.com desnudas se normalizan con un prefijo https:// antes de la validación para que pasen el parser. La puntuación final como )., , y ] se elimina antes de la validación para prevenir rechazos falsos de URLs pegadas a prosa circundante.

¿Qué protocolos soporta el extractor de URLs?

El extractor coincide con cinco patrones de protocolo: http://, https://, ftp://, mailto: y www. desnudo (que se normaliza a https://www.). Eso cubre el 95% de las URLs encontradas en entradas del mundo real. El extractor no coincide con tel:, sms:, file://, chrome-extension:// u otros esquemas específicos del navegador por diseño. Si necesitas extraer números de teléfono del texto que mezcla URLs y enlaces tel:, usa el phone-number-extractor en la misma entrada. El filtro Solo HTTP/HTTPS restringe la salida a URLs web y descarta coincidencias mailto: y ftp://. El filtro Todas las URLs lo muestra todo. El alcance de 5 protocolos mantiene el patrón regex lo suficientemente rápido para procesar entradas de varios megabytes en menos de un segundo en navegadores modernos. Los protocolos personalizados se pueden agregar editando el patrón regex en la fuente si bifurcas la herramienta.

¿Cómo deduplicas URLs?

La deduplicación se ejecuta automáticamente después de la extracción. La herramienta compara cada URL por coincidencia de cadena completa incluido protocolo, host, ruta, consulta y fragmento. Dos URLs que difieren incluso por un carácter cuentan como entradas separadas. Eso significa https://example.com/page y https://example.com/page/ son dos entradas (diferencia de barra final). También significa example.com/page?utm_source=email y example.com/page?utm_source=social son dos entradas. Si deseas páginas únicas independientemente de parámetros de consulta, pega la salida en una hoja de cálculo, divide en ? y deduplica la columna de solo ruta. Una extracción sin procesar de 12.000 coincidencias de registros de servidor típicamente se deduplica a 80-200 URLs únicas, una reducción de 60-150x. El paso de deduplicación es lo que hace que el extractor sea útil para clasificación de registro. Sin deduplicación, obtienes el recuento de coincidencia sin procesar, que raramente es el número que deseas.

¿Cómo cuento URLs en texto?

Pega el texto, haz clic en Extraer URLs, y la herramienta muestra el recuento de URL único junto a los totales del grupo de host. Para el recuento de coincidencia sin procesar antes de deduplicación, mira el resumen de resultado que muestra ambos números. Un artículo de blog de 1.000 palabras típicamente contiene 5-20 URLs. Un documento legal de 10 páginas contiene 30-80 URLs. Un archivo de registro del servidor contiene 50-500 URLs únicas dependiendo de los patrones de tráfico. Si solo necesitas el recuento sin ver las URLs, esta herramienta todavía te da la respuesta más rápida. Para recuentos programáticos en scripts, usa grep -oE 'https?://[^ ]+' input.txt | sort -u | wc -l en la línea de comandos. La herramienta del navegador gana en entradas que ya tienes en el portapapeles. El enfoque de línea de comandos gana para procesar lotes de 100+ archivos.

¿Cuál es la diferencia entre un extractor de URLs y un extractor de enlaces?

Un extractor de URLs lee texto sin procesar con regex y extrae cualquier cosa que parezca una URL. Funciona en registros, JSON, prosa, HTML roto y cualquier entrada no estructurada. Un extractor de enlaces analiza HTML válido con DOMParser y lee etiquetas <a href>, devolviendo metadatos estructurados como texto de anclaje, banderas nofollow y clasificación interna versus externa. El extractor de URLs es primero texto. El link-extractor es consciente de HTML. Usa el extractor de URLs cuando tu entrada es desordenada o no tienes una URL en vivo. Usa el extractor de enlaces cuando deseas auditar la estructura de enlaces de una página web real con contexto de anclaje completo. Las dos herramientas se complementan: extrae URLs de un registro, luego ejecuta cada URL única a través del extractor de enlaces para ver a qué enlaza cada página. Juntas cubren tanto entradas de texto no estructurado como entradas HTML estructuradas.

¿Puede el extractor de URLs clasificar enlaces internos versus externos?

El extractor de URLs no clasifica enlaces por defecto porque no tiene concepto de una URL base cuando pegas texto sin procesar. El filtro Ocultar mismo dominio hace lo siguiente mejor: cuando obtienes una URL usando el campo superior, la herramienta conoce el host de origen y puede ocultar URLs que apunten a ese mismo host. Eso te da una vista de solo externa. Para texto pegado sin una fuente obtenida, cada URL cuenta como externa porque no hay URL base para comparar contra. Si necesitas verdadera clasificación interna versus externa con texto de anclaje, usa el link-extractor. Obtiene la URL, analiza el HTML y etiqueta cada etiqueta <a> como interna o externa basado en el host de la página de origen. Una publicación típica de blog B2B tiene 80% enlaces internos y 20% externos. Un artículo de noticias invierte esa proporción.

¿Cómo extraes URLs de HTML?

Pega la fuente HTML sin procesar en el campo URL o pega texto/HTML y haz clic en Extraer URLs. El regex captura URLs dentro de <a href>, <img src>, <link href>, <script src>, <iframe src>, llamadas inline de CSS url() y URLs de texto sin formato en el cuerpo HTML. Una página HTML de 50 KB típicamente contiene 80-200 URLs únicas en todas esas fuentes. Usa el filtro Solo HTTP/HTTPS para enfocarte en URLs web y omitir coincidencias mailto: y ftp://. Para HTML donde específicamente deseas solo los enlaces de anclaje y necesitas texto de anclaje, usa el link-extractor en su lugar. Analiza el DOM y devuelve solo coincidencias <a href> con contenido de texto. El extractor de URLs es más amplio. El extractor de enlaces es más preciso para auditorías específicas de anclaje. Elige basado en si deseas cada URL o solo los enlaces de anclaje.

¿Qué patrón regex usa el extractor de URLs?

El patrón coincide con los cinco prefijos de protocolo soportados seguidos de caracteres de URL válidos: aproximadamente (?:https?|ftp|mailto):\/\/[^\s<>"]+ más una coincidencia separada para cadenas www. desnudas. El patrón exacto maneja casos límite como URLs que terminan en puntuación, URLs con paréntesis y URLs que contienen parámetros de consulta con caracteres especiales. Después de coincidir, cada candidato se ejecuta a través de validación new URL(), así que el regex puede ser ligeramente permisivo sin contaminar la salida. Si deseas usar el mismo patrón fuera del navegador, la versión simplificada https?:\/\/[^\s<>"]+ funciona en Python re.findall y grep -oE. El patrón completo con soporte mailto y www requiere escapado más cuidadoso. Para la mayoría de extracciones ad hoc, el patrón simplificado captura el 95% de URLs reales. La herramienta del navegador usa la versión completa para completitud.

¿Es gratuito el extractor de URLs?

Sí. Este extractor de URLs es gratuito sin registro, sin carga y sin límite de velocidad. Todo se ejecuta en tu navegador. Puedes pegar hasta algunos megabytes de texto y extraer URLs en menos de un segundo. La herramienta no envía tu entrada a un servidor, lo que importa al procesar registros o correos que contienen datos sensibles. Compáralo con herramientas de pago como Screaming Frog (250 URLs gratuitas, luego $259/año para ilimitado) o Ahrefs (sin extracción de URL gratuita, requiere suscripción de $99/mes). Esas herramientas incluyen características que el extractor de BlazeHive no tiene, como rastreo recursivo y puntuación de SEO. Para pura extracción de URLs del texto o HTML, la herramienta del navegador gratuita cubre el caso de uso. Emparéjala con el email-extractor y phone-number-extractor para extracción completa de datos de contacto de la misma entrada, todo gratuito.

¿Por qué el extractor de URLs elimina la puntuación final?

Porque las URLs en prosa a menudo tienen puntuación pegada al final. Una oración como "Lee el artículo en https://example.com/post." tiene el período adjunto a la URL después de una coincidencia regex ingenua. Sin eliminación, la URL extraída se convierte en https://example.com/post. que falla el parser URL porque el período final no es parte de la ruta. El extractor elimina )., ,, ;, ], >, ", ' y . del final de cada coincidencia antes de la validación. Eso recupera la URL limpia https://example.com/post. La misma lógica maneja URLs en markdown como [link](https://example.com) donde el paréntesis de cierre no es parte de la URL. Sin eliminación de puntuación final, 10-20% de URLs extraídas de prosa fallarían la validación y se descartarían. El paso de eliminación es lo que hace que el extractor sea confiable en texto del mundo real en lugar de solo archivos de registro limpios.

Herramientas gratuitas relacionadas

Todas las herramientas →