Question 1

¿Para qué se usa un calculador de prueba A/B?

Accepted Answer

Un calculador de prueba A/B determina si la diferencia entre dos variantes es estadísticamente significativa o solo casualidad aleatoria. Ingresas visitantes y conversiones para cada variante, y el calculador te muestra el p-valor (probabilidad de que el resultado sea aleatorio), el nivel de confianza (cuán seguro puedes estar), y si necesitas más datos antes de declarar un ganador. Los especialistas en marketing lo usan para validar pruebas de páginas de destino, líneas de asunto de email, creatividades de anuncios, y experimentos de precios antes de lanzar cambios. Los equipos de producto lo usan para confirmar que los cambios de características mejoran las tasas de conversión. La alternativa es estimar los números o esperar hasta que una variante sea "obviamente" mejor, lo que lleva a falsos positivos (lanzar una variante que en realidad no ganó) o tiempo desperdiciado (probar pasado el punto donde la significancia ya se había alcanzado). Usa el calculador de tasa de conversión después de determinar la significancia para traducir aumentos porcentuales en ingresos proyectados. Usa el calculador de CTR junto con esta herramienta al probar campañas de email o anuncios donde la tasa de clics importa tanto como la conversión final.

Question 2

¿Qué es la significancia estadística en una prueba A/B?

Accepted Answer

La significancia estadística se calcula usando una prueba z de dos proporciones que compara tasas de conversión entre variantes. El calculador toma visitantes y conversiones para la Variante A y Variante B, calcula cada tasa de conversión, luego calcula la puntuación z (cuántas desviaciones estándar aparte están las dos tasas). La puntuación z se convierte en un p-valor, que es la probabilidad de que la diferencia haya ocurrido por casualidad aleatoria. Un p-valor menor a 0.05 significa menos del 5% de probabilidad de que el resultado sea aleatorio, así que puedes confiar en que la diferencia es real. La mayoría de los calculadores de prueba A/B usan un umbral de confianza del 95% (p-valor < 0.05), aunque algunos equipos aceptan confianza del 90% (p-valor < 0.10) para decisiones más rápidas en pruebas de bajo tráfico. Las matemáticas también producen intervalos de confianza, mostrando el rango donde probablemente cae la verdadera tasa de conversión para cada variante. Si los intervalos no se superponen, la diferencia es significativa. No necesitas calcular esto manualmente; pega tus números en esta herramienta y ejecuta la prueba z instantáneamente. Después de confirmar la significancia, usa el calculador de tasa de conversión para proyectar impacto empresarial.

Question 3

¿Cuál es un buen tamaño de muestra para una prueba A/B?

Accepted Answer

Un buen tamaño de muestra depende de tu tasa de conversión línea base, el efecto mínimo detectable (el aumento más pequeño que vale la pena detectar), y tu nivel de confianza deseado. Para la mayoría de pruebas, necesitas al menos 1,000 conversiones totales (a través de ambas variantes) para alcanzar confianza del 95%. Si tu tasa de conversión es 2%, eso significa 50,000 visitantes por variante (100,000 total). Si tu tasa de conversión es 10%, necesitas 10,000 visitantes por variante (20,000 total). Cuanto más pequeño es el aumento esperado, más visitantes necesitas. Detectar una mejora del 50% (2% a 3%) requiere menos visitantes que detectar una mejora del 10% (2% a 2.2%). Este calculador muestra tamaño de muestra recomendado basado en tus datos actuales, así que sabes si debes seguir probando o llamarlo. Detener demasiado pronto produce resultados poco confiables. Probar pasada la muestra requerida desperdicia tiempo sin mejorar la precisión. Si no tienes suficiente tráfico para alcanzar significancia en un marco de tiempo razonable (digamos, dos semanas), prueba un cambio más grande o acepta un umbral de confianza más bajo como 90%. Usa el calculador de CTR para analizar tráfico por fuente para que sepas qué canales traen suficiente volumen para pruebas válidas.

Question 4

¿Qué significa p-valor en pruebas A/B?

Accepted Answer

El p-valor es la probabilidad de que la diferencia observada entre variantes haya ocurrido por casualidad aleatoria en lugar de un efecto real. Un p-valor de 0.03 significa que hay un 3% de probabilidad de que la diferencia sea aleatoria, o equivalentemente, confianza del 97% de que la Variante B en realidad funciona mejor que la Variante A. El umbral estándar es p < 0.05, lo que significa que necesitas al menos confianza del 95% para llamar un ganador. Si el p-valor es 0.12, hay un 12% de probabilidad de que la diferencia sea solo ruido, así que sigues probando. Los p-valores más bajos significan evidencia más fuerte. Un p-valor de 0.001 significa confianza del 99.9%, que es raro en pruebas de marketing pero común en experimentos científicos. Si detienes una prueba en p = 0.15 porque una variante está adelante, tienes un 15% de probabilidad de lanzar un cambio que en realidad no funciona. Por eso los calculadores marcan resultados como "no significativo" cuando p > 0.05. El p-valor cambia a medida que recopila más datos. Una prueba podría comenzar con p = 0.20 después de 500 visitantes, caer a p = 0.08 en 2,000 visitantes, y finalmente cruzar p = 0.04 en 5,000 visitantes. Usa este calculador diariamente durante tu prueba para ver cuándo cruzas el umbral de significancia. Después de alcanzar significancia, usa el calculador de tasa de conversión para estimar impacto en ingresos antes de implementar el ganador.

Question 5

¿Cuánto tiempo debes ejecutar una prueba A/B?

Accepted Answer

Ejecuta una prueba A/B hasta que alcances significancia estadística (p-valor < 0.05) e impactes el tamaño de muestra recomendado, o hasta que pasen dos semanas completas para que captures patrones de tráfico semanal. La mayoría de pruebas necesitan 1,000 a 5,000 conversiones por variante, que se traduce a una a cuatro semanas dependiendo del volumen de tráfico. Detener temprano porque una variante está adelante después de tres días arriesga falsos positivos. Ejecutar para siempre porque quieres confianza del 99.9% desperdicia tiempo con retornos decrecientes. La regla de parada correcta es significancia más tamaño de muestra más cobertura de tiempo. La significancia confirma que la diferencia es real. El tamaño de muestra confirma que tienes suficientes datos. La cobertura de tiempo confirma que has visto tráfico de día laboral y fin de semana, que frecuentemente se convierte diferente. Si tu prueba alcanza significancia después de cinco días pero tu tráfico varía por día de la semana, déjala correr a 14 días. Si ha sido tres semanas y estás lejos de significancia, las variantes probablemente sean demasiado similares. Llámalo un empate y prueba un cambio más grande. Usa este calculador diariamente para rastrear progreso de p-valor y tamaño de muestra. Una vez que ambos umbrales se alcanzan, detén la prueba y usa el calculador de tasa de conversión para proyectar el impacto de lanzar el ganador.

Question 6

¿Qué es un intervalo de confianza en pruebas A/B?

Accepted Answer

Un intervalo de confianza muestra el rango donde probablemente cae la verdadera tasa de conversión. Si la Variante A tiene un intervalo de confianza del 95% de 3.5% a 4.5%, eso significa que tienes 95% de confianza de que la verdadera tasa de conversión está en algún lugar en ese rango. Los intervalos estrechos (como 4.0% a 4.2%) significan que conoces la verdadera tasa precisamente porque tienes muchos datos. Los intervalos amplios (como 2% a 8%) significan alta incertidumbre porque el tamaño de muestra es demasiado pequeño. En pruebas A/B, comparas los intervalos de ambas variantes. Si el intervalo de la Variante A es 3.5% a 4.5% y el de la Variante B es 4.8% a 5.8%, los rangos no se superponen, lo que confirma una diferencia significativa. Si la Variante A es 3.5% a 4.5% y la Variante B es 4.0% a 5.0%, se superponen, lo que significa que la diferencia podría ser ruido. El calculador muestra intervalos de confianza automáticamente junto con p-valores. Ambas métricas te cuentan la misma historia desde ángulos diferentes. Un intervalo de confianza no superpuesto usualmente corresponde a p < 0.05. Los intervalos superpuestos usualmente corresponden a p > 0.05. Usa los intervalos cuando expliques resultados a partes interesadas no técnicas porque "los rangos no se superponen" es más fácil de entender que "p-valor de 0.03". Después de confirmar significancia vía intervalos o p-valor, usa el calculador de tasa de conversión para traducir el aumento en ingresos esperados proyectados.

Question 7

¿Puedes ejecutar una prueba A/B con tamaños de muestra desiguales?

Accepted Answer

Sí, puedes ejecutar una prueba A/B con tamaños de muestra desiguales, pero divisiones iguales (tráfico 50/50) son mejor para alcanzar significancia más rápido. Si la Variante A obtiene 10,000 visitantes y la Variante B obtiene 2,000 visitantes, el calculador aún funciona, pero el intervalo de confianza para la Variante B será más amplio porque tamaño de muestra más pequeño significa mayor incertidumbre. Las divisiones desiguales ocurren cuando estás probando un cambio riesgoso y quieres limitar la exposición. Podrías enviar 90% del tráfico a la versión probada y 10% a la nueva variante para evitar hundirse en conversiones si la prueba sale mal. La compensación es que la prueba toma más tiempo para alcanzar significancia porque la variante más pequeña acumula datos lentamente. Si estás probando dos variantes igualmente seguras, divide el tráfico equitativamente para minimizar duración de la prueba. Si estás probando algo riesgoso (como un flujo de pago completamente nuevo), sesga el tráfico hacia el control hasta que datos tempranos confirmen que la nueva variante no está rota. Este calculador maneja divisiones desiguales automáticamente; solo ingresa los visitantes y conversiones reales para cada variante. Después de la prueba, usa el calculador de tasa de conversión para modelar el impacto de tráfico completo antes de implementar el ganador a 100% de usuarios.

Question 8

¿Cuál es la diferencia entre pruebas A/B y pruebas multivariantes?

Accepted Answer

Las pruebas A/B comparan dos versiones de una variable (como Titular A vs Titular B). Las pruebas multivariantes comparan múltiples variables simultáneamente (como Titular A vs B, Color de Botón Rojo vs Azul, e Imagen X vs Y, todo a la vez). Las pruebas A/B son más simples y requieren menos tráfico. Si obtienes 10,000 visitantes por semana, puedes ejecutar una prueba A/B y obtener resultados en una a dos semanas. Las pruebas multivariantes dividen el tráfico entre todas las combinaciones (en el ejemplo anterior, eso es 2 titulares × 2 colores de botón × 2 imágenes = 8 combinaciones), así que necesitas 8x el tráfico para alcanzar significancia en el mismo período de tiempo. Usa pruebas A/B cuando tienes una hipótesis sobre un cambio específico. Usa pruebas multivariantes cuando quieres probar interacciones entre variables (como "¿Funciona mejor el Titular A con botón Rojo o Azul?"). La mayoría de los equipos se mantienen en pruebas A/B porque el tráfico es limitado y probar una variable a la vez es más fácil de implementar y analizar. Este calculador está construido para pruebas A/B (dos variantes). Si estás ejecutando pruebas multivariantes, necesitarás una herramienta especializada que maneje más de dos grupos. Después de determinar qué cambio individual funciona mejor vía prueba A/B, usa el calculador de CTR para desglosar rendimiento por fuente de tráfico o dispositivo.

Question 9

¿Cómo interpretas resultados de prueba A/B?

Accepted Answer

Interpreta resultados de prueba A/B verificando tres cosas en orden: significancia estadística, superposición de intervalo de confianza, e impacto práctico. Primero, mira el p-valor. Si está por debajo de 0.05, la diferencia es estadísticamente significativa y puedes confiar en el resultado. Si está por encima de 0.05, la prueba aún no ha alcanzado significancia, así que mantenla ejecutando o concluye que las variantes son demasiado similares. Segundo, verifica los intervalos de confianza. Si no se superponen, la diferencia es real. Si se superponen, una variante podría parecer adelante pero las verdaderas tasas podrían ser las mismas. Tercero, calcula impacto práctico usando el calculador de tasa de conversión . Un aumento del 0.1% podría ser estadísticamente significativo pero económicamente insignificante si solo obtienes 1,000 visitantes por mes. Un aumento del 2% en 100,000 visitantes mensuales es tanto significativo como valioso. También considera el costo de implementación. Si la Variante B requiere un rediseño completo del sitio para lanzar, el aumento debe justificar el tiempo de ingeniería. Si es un cambio de copia de una línea, lánzalo incluso por un aumento pequeño. Evita errores comunes de interpretación como llamar un ganador basado solo en tasa de conversión (ignorando p-valor), detener demasiado pronto porque una variante está adelante, o probar para siempre porque quieres confianza del 99% cuando 95% es suficiente.

Question 10

¿Cuál es el efecto mínimo detectable en pruebas A/B?

Accepted Answer

El efecto mínimo detectable (MDE) es el aumento de tasa de conversión más pequeño que puedes detectar de manera confiable dado tu tamaño de muestra y umbral de significancia. Si tu tasa de conversión línea base es 4% y tu MDE es 0.5 puntos porcentuales, puedes detectar un cambio de 4% a 4.5% (un aumento relativo del 12.5%) con confianza del 95%. Los efectos más pequeños requieren más visitantes. Detectar un cambio de 0.1 puntos porcentuales (4% a 4.1%) podría necesitar 10x el tamaño de muestra. La mayoría de los equipos establecen MDE basado en qué es digno de implementar. Si un aumento relativo del 10% impactaría significativamente ingresos, establece MDE a 0.4 puntos porcentuales (4% a 4.4%). Si solo un aumento del 25% justifica el costo de ingeniería, establece MDE a 1 punto porcentual (4% a 5%). Este calculador no pregunta por MDE explícitamente; en cambio muestra tamaño de muestra recomendado basado en la diferencia que estás viendo en datos reales. Si el calculador dice que necesitas 50,000 visitantes por variante para alcanzar significancia y solo obtienes 5,000 por mes, tu prueba tomaría 10 meses. En ese punto, o prueba un cambio más grande (MDE más grande) o acepta un umbral de confianza más bajo (90% en lugar de 95%). Usa el calculador de tasa de conversión para modelar impacto en ingresos en diferentes tamaños de aumento para que sepas cuál MDE es digno de probar.

Question 11

¿Qué significa si un resultado de prueba A/B no es estadísticamente significativo?

Accepted Answer

Un resultado que no es estadísticamente significativo significa que los datos recopilados hasta ahora no pueden confirmar que la diferencia observada entre variantes sea real en lugar de aleatoria. No significa que la Variante B sea peor o que la prueba haya fallado. Significa que aún no tienes evidencia suficiente para llamar un ganador. Un p-valor por encima de 0.05 (por ejemplo, 0.12 o 0.18) dice que hay más del 5% de probabilidad de que la diferencia que ves haya ocurrido por casualidad, que es demasiado incierto para tomar una decisión.

Hay tres razones comunes para un resultado no significativo. Primero, tu tamaño de muestra es demasiado pequeño y necesitas más visitantes. El calculador muestra cuántos más necesitas. Segundo, la diferencia entre variantes es genuinamente pequeña y detectarla requiere mucho mayor volumen de tráfico del que tienes. Tercero, ambas variantes en realidad funcionan igual, y no hay ganador real.

Si el resultado no es significativo después de alcanzar el tamaño de muestra recomendado, trátalo como un empate. No lances la Variante B esperando que la tendencia se sostenga. No reviertas tu variante original tampoco. Llámalo un empate y prueba un cambio más grande, más significativo en su lugar. Usa el calculador de tasa de conversión para modelar qué tamaño de aumento en realidad movería ingresos, luego diseña tu próxima prueba alrededor de ese objetivo en lugar de probar cambios incrementales que requieren tamaños de muestra poco realistas para detectar.

Question 12

¿Las pruebas A/B realmente funcionan?

Accepted Answer

Sí, las pruebas A/B funcionan de manera confiable cuando se implementan correctamente. El principio central es sólido: divide aleatoriamente el tráfico entre dos variantes, mide resultados, y usa estadísticas para determinar si alguna diferencia es real. El método es el mismo que usan ensayos farmacéuticos, estudios económicos, e investigación agrícola, aplicado a páginas web y copia de marketing.

El modo de fallo no es el método mismo sino cómo los equipos lo aplican. Las pruebas A/B fallan cuando las pruebas se detienen demasiado pronto, cuando los equipos cambian la prueba mid-run, cuando los tamaños de muestra son demasiado pequeños, o cuando los resultados se declaran significativos en p-valores por encima de 0.05. Estos son errores de ejecución, no fallas de método.

Evidencia de que las pruebas A/B producen resultados reales: Google, Amazon, y Microsoft ejecutan miles de experimentos por año y atribuyen una parte significativa de sus mejoras de producto a pruebas que mostraron ganancias estadísticamente significativas. Booking.com supuestamente ejecuta más de 25,000 experimentos por año a través de su producto. Cuando las estadísticas se aplican correctamente, las ganancias validadas se replican consistentemente.

El tema práctico para equipos más pequeños es tráfico. Si tu sitio obtiene 5,000 visitantes por mes, una prueba que necesita 20,000 visitantes por variante tomará ocho meses. En ese tiempo, factores externos como estacionalidad y cambios de algoritmo contaminan los resultados. Para sitios de bajo tráfico, enfócate en probar cambios con grandes efectos esperados (por encima del 20% de aumento relativo) y usa el calculador de CTR para identificar qué fuentes de tráfico son lo suficientemente grandes para ejecutar experimentos válidos en ellas.

A/B Test Calculator

Generate the whole content, not just check it.

Por qué estimar a ojo los números de pruebas A/B te mete en problemas

Cómo usar este calculador de prueba A/B

Por qué la significancia estadística importa más que la tasa de conversión sola

Errores comunes

Consejos avanzados

Generate the whole content, not just check it.

Preguntas frecuentes

Herramientas gratuitas relacionadas