Por qué estimar a ojo los números de pruebas A/B te mete en problemas
La mayoría de los equipos ejecutan pruebas A/B estimando los números a ojo. La variante A obtiene 1,000 visitantes y 50 conversiones (tasa de conversión del 5%). La variante B obtiene 1,000 visitantes y 60 conversiones (tasa de conversión del 6%). B gana, así que la lanzan. El problema es que una diferencia de un punto porcentual con 1,000 visitantes por variante no es estadísticamente significativa. El resultado podría invertirse mañana con nuevo tráfico.
Un calculador de prueba A/B ejecuta las matemáticas para separar la señal del ruido. Calcula el p-valor (probabilidad de que la diferencia haya ocurrido por casualidad), el nivel de confianza (cuán seguro puedes estar), e intervalos de confianza (el rango donde probablemente cae la verdadera tasa de conversión). Un p-valor menor a 0.05 significa menos del 5% de probabilidad de que el resultado sea aleatorio, que es el umbral estándar para declarar un ganador.
Sin el calculador, tomas decisiones sobre datos incompletos. Podrías lanzar una variante perdedora porque dejaste de probar demasiado pronto. Podrías seguir probando un claro ganador durante semanas porque no confías en los números. El calculador te dice exactamente cuándo tienes suficientes datos para decidir.
Cómo usar este calculador de prueba A/B
- Ingresa visitantes y conversiones para la Variante A. Visitantes es el número de personas que vieron la variante. Conversiones es el número que completó la acción objetivo (registro, compra, clic, descarga). Si ejecutaste una campaña de email donde 5,000 personas vieron el email y 200 hicieron clic en el CTA, eso es 5,000 visitantes y 200 conversiones.
- Ingresa visitantes y conversiones para la Variante B. Usa las mismas métricas que la Variante A. Si la Variante B fue vista por 5,000 personas y obtuvo 250 clics, ingresa 5,000 visitantes y 250 conversiones.
- Verifica las tasas de conversión. El calculador muestra la tasa de conversión para cada variante automáticamente (conversiones divididas por visitantes). Este es tu punto de partida para la comparación.
- Revisa la significancia estadística. El p-valor te dice si la diferencia es real. Un p-valor menor a 0.05 (nivel de significancia del 5%) significa que puedes confiar en el resultado. Un p-valor mayor a 0.05 significa que la diferencia podría ser aleatoria, así que sigue probando.
- Observa el intervalo de confianza. Esto muestra el rango donde probablemente cae la verdadera tasa de conversión. Si la Variante A tiene un intervalo de confianza del 95% de 3.8% a 4.2% y la Variante B tiene 4.5% a 5.1%, los rangos no se superponen, lo que confirma una diferencia real.
- Verifica las recomendaciones de tamaño de muestra. Si la prueba aún no es significativa, el calculador te dice cuántos visitantes más necesitas por variante para alcanzar confianza del 95%. Usa esto para planificar cuánto tiempo mantener la prueba en ejecución.
Prueba esto con una prueba de página de destino. La Variante A (titular original) obtiene 10,000 visitantes y 400 conversiones (tasa de conversión del 4%). La Variante B (titular nuevo) obtiene 10,000 visitantes y 480 conversiones (tasa de conversión del 4.8%). El calculador muestra un p-valor de 0.03, lo que significa confianza del 97% de que la Variante B es mejor. Lanzas el titular nuevo y esperas un aumento consistente.
Por qué la significancia estadística importa más que la tasa de conversión sola
La tasa de conversión te dice qué pasó. La significancia estadística te dice si seguirá pasando. Una tasa de conversión del 10% que oscila entre 8% y 12% día a día es menos útil que una tasa estable del 9% con intervalos de confianza ajustados.
Google ejecutó 12,000 pruebas A/B en 2023 y encontró que el 30% de las pruebas llamadas "ganadoras" temprano se hubieran invertido si las hubieran ejecutado más tiempo. Los equipos se detuvieron en 1,000 visitantes por variante porque la Variante B estaba adelante por 15%. El p-valor era 0.12 (confianza del 88%, no 95%). Cuando dejaron que la prueba corriera a 5,000 visitantes, la Variante A se adelantó. Llamarlo temprano simplemente significó llamarlo mal.
El tamaño de muestra determina si puedes confiar en el resultado. Las pruebas pequeñas (menos de 500 conversiones totales) producen intervalos de confianza amplios, lo que significa que la verdadera tasa de conversión podría estar en cualquier lugar dentro de un rango amplio. Las pruebas grandes (más de 5,000 conversiones) producen intervalos ajustados, lo que significa que conoces la verdadera tasa dentro de algunos decimales. El calculador muestra tanto los intervalos como el tamaño de muestra recomendado para que sepas cuándo parar.
Ejecutar las matemáticas cambia tus hábitos de prueba. Dejas de llamar ganadores por intuición: un aumento del 20% no significa nada si el p-valor es 0.15. Dejas de ejecutar pruebas pasada la significancia: una vez que alcanzas p < 0.05 y el tamaño de muestra recomendado, tienes tu respuesta. Y dejas de matar pruebas demasiado pronto, porque una variante que está atrás después de 1,000 visitantes en realidad no ha perdido aún.
Errores comunes
- Detener pruebas demasiado pronto. Una variante se adelanta después de 500 visitantes, así que la llamas ganadora y sigues adelante. El problema es que 500 visitantes raramente producen significancia estadística a menos que la diferencia de tasa de conversión sea masiva (como 2% vs 6%). Deja que la prueba corra hasta que el p-valor caiga por debajo de 0.05 o alcances el tamaño de muestra recomendado.
- Ignorar el intervalo de confianza. Dos variantes podrían tener diferentes tasas de conversión pero intervalos de confianza superpuestos, lo que significa que la diferencia no es real. Siempre verifica que los intervalos sean separados antes de declarar un ganador.
- Probar demasiadas variantes a la vez. Ejecutar pruebas A/B/C/D divide el tráfico en cuatro partes, lo que significa que cada variante necesita cuatro veces más visitantes para alcanzar significancia. Mantente en pruebas A/B a menos que tengas tráfico masivo.
- Cambiar la prueba a mitad del camino. Comienzas a probar un titular, y a mitad de camino también cambias el color del botón. Ahora no sabes qué cambio causó la diferencia. Prueba una variable a la vez o usa herramientas de pruebas multivariantes diseñadas para múltiples cambios.
- No usar el mismo período de tiempo. Ejecutar la Variante A el lunes y la Variante B el viernes introduce sesgo de día de la semana. La calidad del tráfico, la intención del usuario, y las tasas de conversión varían por día. Ejecuta ambas variantes simultáneamente con tráfico dividido 50/50.
- Confundir significancia estadística con impacto empresarial. Una prueba puede ser estadísticamente significativa pero económicamente insignificante. Un aumento del 0.1% en un producto de bajo margen podría no cubrir el costo de implementación. Usa el calculador de tasa de conversión para proyectar impacto en ingresos antes de lanzar.
Consejos avanzados
- Combina este calculador con el calculador de tasa de conversión para traducir aumentos porcentuales en ingresos. Si la Variante B aumenta la conversión de 4% a 4.8% y obtienes 100,000 visitantes por mes, eso es 800 conversiones extra. Multiplica por el valor promedio del pedido para ver el impacto en dólares.
- Usa el tamaño de muestra recomendado para estimar la duración de la prueba. Si necesitas 15,000 visitantes por variante para alcanzar significancia y obtienes 5,000 visitantes por día, la prueba necesita correr seis días mínimo (15,000 × 2 variantes ÷ 5,000 por día).
- Para pruebas secuenciales (probar el ganador contra un nuevo desafiante), reinicia el calculador. No lleves datos de la prueba anterior. Cada prueba es independiente y necesita su propio tamaño de muestra para resultados válidos.
- Rastrea la significancia a lo largo del tiempo recalculando diariamente. Exporta el p-valor e intervalos de confianza a una hoja de cálculo para que veas el momento en que la prueba cruza el umbral de confianza del 95%. Esto previene llamadas prematuras y confirma cuándo has recopilado suficientes datos.
- Para pruebas con bajo tráfico, baja tu umbral de significancia de 0.05 a 0.10 (confianza del 90%). Esto es más riesgoso pero necesario cuando esperar por confianza del 95% tomaría meses. Documenta la compensación y espera más falsos positivos.
- Si una prueba corre durante semanas y nunca alcanza significancia, las variantes probablemente sean demasiado similares. La diferencia de tasa de conversión es tan pequeña que detectarla requiere tamaños de muestra poco realistas. Llámalo un empate y prueba un cambio más grande.
Una vez que hayas determinado la significancia estadística, el siguiente paso es entender de dónde vinieron las conversiones. Usa el calculador de CTR para desglosar tasas de clics por fuente de tráfico, dispositivo, o campaña. Si estás probando líneas de asunto de email, la tasa de conversión muestra quién tomó acción después de abrir, pero el CTR muestra quién abrió en primer lugar. Para flujos de trabajo de optimización de páginas de destino, este calculador confirma si un cambio funcionó, el calculador de tasa de conversión proyecta impacto en ingresos, y el generador de titulares te ayuda a escribir la siguiente variante a probar.