Question 1

¿Qué es un extractor de URLs?

Accepted Answer

Un extractor de URLs es una herramienta que escanea cualquier entrada de texto y extrae cada URL que contiene. Usa una expresión regular para encontrar patrones que comiencen con http , https , ftp , mailto o www. , luego valida cada coincidencia contra el parser URL del navegador para descartar cadenas malformadas. Después de la validación, la herramienta deduplica la lista y agrupa los resultados por host. Este extractor de BlazeHive maneja archivos de registro de 4.000 líneas, cargas JSON de hasta algunos megabytes, HTML sin procesar y prosa pegada sin cargar nada en un servidor. Todo se ejecuta en el navegador. Los casos de uso comunes incluyen clasificación de registro de seguridad, revisión de tickets de soporte, auditorías de migración de contenido e investigación competitiva rápida en enlaces salientes de un artículo competidor. Usa el link-extractor cuando específicamente necesites texto de anclaje y banderas nofollow de una página web en vivo en su lugar.

Question 2

¿Cómo extraes URLs del texto?

Accepted Answer

Pega tu texto en el campo URL o pega texto/HTML , elige un filtro y haz clic en Extraer URLs. La herramienta ejecuta un patrón regex sobre tu entrada que coincida con cadenas http:// , https:// , ftp:// , mailto: y www. desnudo. Cada coincidencia se ejecuta a través de new URL() para filtrar candidatos malformados, luego la puntuación final como comas, puntos, paréntesis y corchetes se elimina. La lista deduplicada agrupa por host y muestra un recuento para cada dominio. Un hilo de correo de 200 líneas típicamente produce 5-15 URLs únicas en menos de un segundo. Para extracción programática, el mismo patrón regex funciona en Python ( re.findall ), JavaScript ( String.prototype.matchAll ) o grep con la bandera -oE , pero una herramienta de navegador te da filtrado instantáneo y agrupación de host que una línea no.

Question 3

¿Puedo extraer URLs de un archivo de registro?

Accepted Answer

Sí. Los registros del servidor son una de las entradas más comunes para este extractor de URLs. Pega hasta algunos megabytes de líneas de registro nginx, Apache o de aplicación en el área de texto y haz clic en Extraer URLs. La herramienta encuentra cada URL referenciada en el registro, deduplica y agrupa por host. Un registro de acceso nginx de 4.000 líneas con 12.000 coincidencias sin procesar típicamente se reduce a 80-200 URLs únicas después de deduplicar. Para archivos más grandes que 5 MB, divide el registro en fragmentos antes de pegar. Si necesitas extraer URLs de registros como parte de un flujo de trabajo automatizado, el mismo patrón regex funciona en grep -oE en la línea de comandos. Usa la herramienta del navegador cuando desees agrupación visual rápida. Usa grep cuando desees canalizar la salida a otro script. Después de la extracción, ejecuta hosts externos sospechosos a través del link-extractor para inspeccionar el contenido de la página real.

Question 4

¿Cómo extraes URLs de un PDF?

Accepted Answer

El extractor de URLs funciona en texto, así que primero convierte el PDF a texto. En macOS, ejecuta pdftotext input.pdf output.txt desde la línea de comandos (instala vía brew install poppler ). En Windows o Linux, usa la misma utilidad pdftotext del paquete Poppler. Abre el archivo de texto resultante, copia el contenido y pega en el campo URL o pega texto/HTML . Los PDFs creados a partir de páginas web típicamente contienen 20-100 URLs. Los PDFs de documentos nativos como reportes generalmente contienen 5-20. El extractor captura URLs que se extienden sobre saltos de línea si el PDF las preserva como cadenas continuas. Vigila PDFs que envuelvan URLs largas en múltiples líneas con guiones. Esos se convierten en dos URLs rotas. Si tu salida se ve sospechosa, abre el PDF en Preview o Adobe Reader y usa la exportación "Guardar como texto" integrada, que preserva la continuidad de URL mejor que las herramientas de línea de comandos para algunos PDFs.

Question 5

¿Cómo extraes URLs de un correo electrónico?

Accepted Answer

Abre el correo, visualiza la fuente sin procesar u "Mostrar original" (Gmail) u "Ver fuente" (Outlook), y copia el cuerpo HTML completo. Pega eso en el campo URL o pega texto/HTML y haz clic en Extraer URLs. Un correo de marketing típico contiene 15-40 URLs incluidos píxeles de seguimiento, enlaces de cancelación de suscripción, iconos sociales y enlaces de contenido. Elige el filtro Solo HTTP/HTTPS para omitir la dirección de respuesta mailto: . Para Apple Mail o Thunderbird, puedes copiar el correo renderizado directamente sin ver la fuente, pero perderás las URLs ocultas en atributos alt de imágenes y píxeles de seguimiento. Ve la fuente para la extracción más completa. Si procesas correos en lote, exporta tu bandeja de entrada al formato mbox y ejecuta el archivo a través del extractor en fragmentos. El mismo regex captura URLs en cuerpos de correo de texto sin formato y HTML igualmente bien.

Question 6

¿Cómo valida el extractor de URLs las URLs?

Accepted Answer

Cada coincidencia regex se ejecuta a través del constructor new URL() de JavaScript. Si el constructor lanza, el candidato se descarta. Esto filtra cadenas malformadas como https:// sin host, http://example sin dominio de nivel superior y fragmentos parciales. El validador no verifica si la URL se resuelve o devuelve una respuesta 200. Solo verifica validez sintáctica. Para verificar si las URLs están en vivo, ejecuta la lista extraída a través del http-status-checker de uno en uno. El paso de validación típicamente rechaza 5-10% de coincidencias regex sin procesar como malformadas. Las referencias www.example.com desnudas se normalizan con un prefijo https:// antes de la validación para que pasen el parser. La puntuación final como ). , , y ] se elimina antes de la validación para prevenir rechazos falsos de URLs pegadas a prosa circundante.

Question 7

¿Qué protocolos soporta el extractor de URLs?

Accepted Answer

El extractor coincide con cinco patrones de protocolo: http:// , https:// , ftp:// , mailto: y www. desnudo (que se normaliza a https://www. ). Eso cubre el 95% de las URLs encontradas en entradas del mundo real. El extractor no coincide con tel: , sms: , file:// , chrome-extension:// u otros esquemas específicos del navegador por diseño. Si necesitas extraer números de teléfono del texto que mezcla URLs y enlaces tel: , usa el phone-number-extractor en la misma entrada. El filtro Solo HTTP/HTTPS restringe la salida a URLs web y descarta coincidencias mailto: y ftp:// . El filtro Todas las URLs lo muestra todo. El alcance de 5 protocolos mantiene el patrón regex lo suficientemente rápido para procesar entradas de varios megabytes en menos de un segundo en navegadores modernos. Los protocolos personalizados se pueden agregar editando el patrón regex en la fuente si bifurcas la herramienta.

Question 8

¿Cómo deduplicas URLs?

Accepted Answer

La deduplicación se ejecuta automáticamente después de la extracción. La herramienta compara cada URL por coincidencia de cadena completa incluido protocolo, host, ruta, consulta y fragmento. Dos URLs que difieren incluso por un carácter cuentan como entradas separadas. Eso significa https://example.com/page y https://example.com/page/ son dos entradas (diferencia de barra final). También significa example.com/page?utm_source=email y example.com/page?utm_source=social son dos entradas. Si deseas páginas únicas independientemente de parámetros de consulta, pega la salida en una hoja de cálculo, divide en ? y deduplica la columna de solo ruta. Una extracción sin procesar de 12.000 coincidencias de registros de servidor típicamente se deduplica a 80-200 URLs únicas, una reducción de 60-150x. El paso de deduplicación es lo que hace que el extractor sea útil para clasificación de registro. Sin deduplicación, obtienes el recuento de coincidencia sin procesar, que raramente es el número que deseas.

Question 9

¿Cómo cuento URLs en texto?

Accepted Answer

Pega el texto, haz clic en Extraer URLs, y la herramienta muestra el recuento de URL único junto a los totales del grupo de host. Para el recuento de coincidencia sin procesar antes de deduplicación, mira el resumen de resultado que muestra ambos números. Un artículo de blog de 1.000 palabras típicamente contiene 5-20 URLs. Un documento legal de 10 páginas contiene 30-80 URLs. Un archivo de registro del servidor contiene 50-500 URLs únicas dependiendo de los patrones de tráfico. Si solo necesitas el recuento sin ver las URLs, esta herramienta todavía te da la respuesta más rápida. Para recuentos programáticos en scripts, usa grep -oE 'https?://[^ ]+' input.txt | sort -u | wc -l en la línea de comandos. La herramienta del navegador gana en entradas que ya tienes en el portapapeles. El enfoque de línea de comandos gana para procesar lotes de 100+ archivos.

Question 10

¿Cuál es la diferencia entre un extractor de URLs y un extractor de enlaces?

Accepted Answer

Un extractor de URLs lee texto sin procesar con regex y extrae cualquier cosa que parezca una URL. Funciona en registros, JSON, prosa, HTML roto y cualquier entrada no estructurada. Un extractor de enlaces analiza HTML válido con DOMParser y lee etiquetas <a href> , devolviendo metadatos estructurados como texto de anclaje, banderas nofollow y clasificación interna versus externa. El extractor de URLs es primero texto. El link-extractor es consciente de HTML. Usa el extractor de URLs cuando tu entrada es desordenada o no tienes una URL en vivo. Usa el extractor de enlaces cuando deseas auditar la estructura de enlaces de una página web real con contexto de anclaje completo. Las dos herramientas se complementan: extrae URLs de un registro, luego ejecuta cada URL única a través del extractor de enlaces para ver a qué enlaza cada página. Juntas cubren tanto entradas de texto no estructurado como entradas HTML estructuradas.

Question 11

¿Puede el extractor de URLs clasificar enlaces internos versus externos?

Accepted Answer

El extractor de URLs no clasifica enlaces por defecto porque no tiene concepto de una URL base cuando pegas texto sin procesar. El filtro Ocultar mismo dominio hace lo siguiente mejor: cuando obtienes una URL usando el campo superior, la herramienta conoce el host de origen y puede ocultar URLs que apunten a ese mismo host. Eso te da una vista de solo externa. Para texto pegado sin una fuente obtenida, cada URL cuenta como externa porque no hay URL base para comparar contra. Si necesitas verdadera clasificación interna versus externa con texto de anclaje, usa el link-extractor . Obtiene la URL, analiza el HTML y etiqueta cada etiqueta <a> como interna o externa basado en el host de la página de origen. Una publicación típica de blog B2B tiene 80% enlaces internos y 20% externos. Un artículo de noticias invierte esa proporción.

Question 12

¿Cómo extraes URLs de HTML?

Accepted Answer

Pega la fuente HTML sin procesar en el campo URL o pega texto/HTML y haz clic en Extraer URLs. El regex captura URLs dentro de , , ,

Question 13

¿Qué patrón regex usa el extractor de URLs?

Accepted Answer

El patrón coincide con los cinco prefijos de protocolo soportados seguidos de caracteres de URL válidos: aproximadamente (?:https?|ftp|mailto):\/\/[^\s<>"]+ más una coincidencia separada para cadenas www. desnudas. El patrón exacto maneja casos límite como URLs que terminan en puntuación, URLs con paréntesis y URLs que contienen parámetros de consulta con caracteres especiales. Después de coincidir, cada candidato se ejecuta a través de validación new URL() , así que el regex puede ser ligeramente permisivo sin contaminar la salida. Si deseas usar el mismo patrón fuera del navegador, la versión simplificada https?:\/\/[^\s<>"]+ funciona en Python re.findall y grep -oE . El patrón completo con soporte mailto y www requiere escapado más cuidadoso. Para la mayoría de extracciones ad hoc, el patrón simplificado captura el 95% de URLs reales. La herramienta del navegador usa la versión completa para completitud.

Question 14

¿Es gratuito el extractor de URLs?

Accepted Answer

Sí. Este extractor de URLs es gratuito sin registro, sin carga y sin límite de velocidad. Todo se ejecuta en tu navegador. Puedes pegar hasta algunos megabytes de texto y extraer URLs en menos de un segundo. La herramienta no envía tu entrada a un servidor, lo que importa al procesar registros o correos que contienen datos sensibles. Compáralo con herramientas de pago como Screaming Frog (250 URLs gratuitas, luego $259/año para ilimitado) o Ahrefs (sin extracción de URL gratuita, requiere suscripción de $99/mes). Esas herramientas incluyen características que el extractor de BlazeHive no tiene, como rastreo recursivo y puntuación de SEO. Para pura extracción de URLs del texto o HTML, la herramienta del navegador gratuita cubre el caso de uso. Emparéjala con el email-extractor y phone-number-extractor para extracción completa de datos de contacto de la misma entrada, todo gratuito.

Question 15

¿Por qué el extractor de URLs elimina la puntuación final?

Accepted Answer

Porque las URLs en prosa a menudo tienen puntuación pegada al final. Una oración como "Lee el artículo en https://example.com/post ." tiene el período adjunto a la URL después de una coincidencia regex ingenua. Sin eliminación, la URL extraída se convierte en https://example.com/post. que falla el parser URL porque el período final no es parte de la ruta. El extractor elimina ). , , , ; , ] , > , " , ' y . del final de cada coincidencia antes de la validación. Eso recupera la URL limpia https://example.com/post . La misma lógica maneja URLs en markdown como [link](https://example.com) donde el paréntesis de cierre no es parte de la URL. Sin eliminación de puntuación final, 10-20% de URLs extraídas de prosa fallarían la validación y se descartarían. El paso de eliminación es lo que hace que el extractor sea confiable en texto del mundo real en lugar de solo archivos de registro limpios.

URL Extractor

Generate the whole content, not just check it.

Qué extrae este extractor de URLs del texto sin procesar

Cómo usar este extractor de URLs

Por qué un extractor de URLs basado en texto vence al análisis DOM para entrada desordenada

Errores comunes

Consejos avanzados

Generate the whole content, not just check it.

Preguntas frecuentes

Herramientas gratuitas relacionadas