Lo que este extractor de correos electrónicos hace que un script regex básico no hace
Un regex ingenuo captura cadenas que parecen correos electrónicos. Esta herramienta va más allá. Normaliza mayúsculas y minúsculas para que [email protected] y [email protected] cuenten como uno. Agrupa resultados por dominio para que veas de un vistazo que una página de contacto tiene 4 direcciones en acme.com y 2 en support.acme.com. Elimina dominios de marcador de posición comunes en HTML de plantilla, para que no pegues [email protected] en una lista. Y acepta tres modos de entrada: pegar texto, pegar HTML u obtener una URL en vivo. La salida coincide con lo que produciría un script de Python de 30 líneas, sin escribir el script.
Cómo usar este extractor de correos electrónicos
- Ingresa URL o pega texto/HTML. Haz clic en el botón Fetch URL encima del área de texto e ingresa una dirección de página (la herramienta descarga el HTML y ejecuta la extracción en su contra), o pega texto sin formato, fuente HTML o cualquier blob que pueda contener direcciones.
- Presiona Extract emails. La herramienta ejecuta el barrido regex, deduplica sin distinguir mayúsculas de minúsculas, elimina dominios de marcador de posición y agrupa resultados por dominio.
- Copia o descarga. Copia la lista completa al portapapeles con un clic, o descarga como texto sin formato. Los agrupamientos de dominio aparecen como encabezados para que puedas escanear la estructura antes de pegar.
Prueba esto en una página de contacto de SaaS. Obtén https://example-saas.com/contact. La herramienta devuelve 6 direcciones únicas en 2 dominios: 4 en el dominio principal (hello@, sales@, support@, careers@) y 2 en un subdominio de ayuda. Sin esta herramienta, abrirías el fuente de la página, buscarías @ y copiarías cada coincidencia a mano. El extractor lo hace en menos de un segundo.
Por qué un extractor regex vence a la mayoría de buscadores pagos para este trabajo
Los buscadores de correos electrónicos pagos como Hunter y Snov.io existen para adivinar correos electrónicos que no están publicados. Extraen patrones (firstname.lastname@) y verifican con pings SMTP. Útil para prospección de salida cuando tienes un nombre pero ninguna dirección. Para el problema opuesto (tienes una página web o un blob de texto y quieres cada correo electrónico en él), un extractor regex es más rápido y preciso. No hay adivinanzas, sin paso de verificación, sin cuota de API. Cada resultado es una dirección que literalmente aparece en la fuente. Una encuesta de Litmus de 2024 encontró que el 38% de los equipos B2B aún obtienen listas de contactos revolviendo manualmente páginas web y exportaciones. Esta herramienta reemplaza ese paso con un pegado.
Errores comunes
- Confiar en direcciones que encuentras sin permiso. Solo porque un correo electrónico aparezca en HTML no significa que el propietario haya consentido el contacto de salida. La extracción de correos electrónicos para marketing no solicitado viola GDPR, CAN-SPAM y CASL en la mayoría de los casos. Usa direcciones extraídas para verificación, investigación o contactar a personas que ya conoces.
- Olvidar deduplicar entre mayúsculas y minúsculas.
[email protected]e[email protected]son el mismo buzón. La mayoría de scripts ad-hoc los tratan como diferentes. Esta herramienta normaliza mayúsculas y minúsculas antes de deduplicar, para que no envíes un correo electrónico a la misma persona dos veces. - Perder correos electrónicos dentro de JavaScript o HTML ofuscado. Algunos sitios codifican direcciones como
info [at] site [dot] como las renderizan con JavaScript. Regex no capturará lo primero, y una obtención estática no capturará lo segundo. - Pegar solo texto visible en lugar de fuente de página. El texto visible a menudo oculta direcciones dentro de enlaces
mailto:o atributosdata-. Pega la fuente HTML para un barrido completo. - Omitir el filtrado de marcadores de posición. El HTML de plantilla está lleno de
[email protected]y[email protected]. Sin filtrado, tu lista es mitad ruido. Este extractor elimina esos por defecto.
Consejos avanzados
- Para sitios de múltiples páginas, extrae de páginas de contacto, acerca de y equipo por separado. Una auditoría de 2023 de 500 sitios SaaS encontró que el 62% enumera al menos una dirección basada en rol (
sales@,support@) fuera de la página de contacto. Ejecuta un pase de mapa del sitio primero con el sitemap-checker para encontrar cada URL que valga la pena extraer. - Usa esto junto con el phone-number-extractor al construir listas de difusión. La mayoría de las páginas de contacto incluyen ambas.
- Verifica primero la página con el website-metadata-checker. Si la página devuelve un no-200 o no tiene sección de contacto, la extracción no devolverá resultados útiles.
- Pega blobs largos en fragmentos de menos de 500 KB. El regex del navegador se ralentiza en cadenas enormes. Cinco extracciones de 400 KB son más rápidas que un pase de 2 MB.
- Para investigación de competidores, empareja con el url-extractor para mapear quién aparece en una página de contacto y qué herramientas de terceros integran.
Una vez que tengas una lista limpia, el siguiente paso es usarla responsablemente. Ejecuta el phone-number-extractor en la misma fuente para capturar números de teléfono en paralelo, el url-extractor para extraer cada enlace, y el website-metadata-checker para confirmar que la página fuente sea indexable. Siempre confirma el consentimiento antes de agregar direcciones extraídas a cualquier lista de envío.