Skip to content
Instantáneo · se ejecuta en tu navegador

A/B Test Calculator

Determina la significancia estadística de pruebas A/B con visitantes y conversiones.

Un calculador de prueba A/B determina si la diferencia entre dos variantes (A y B) es estadísticamente significativa o simplemente ruido aleatorio. Ingresas visitantes y conversiones para cada variante, y el calculador te dice cuál versión ganó, cuán confiado puedes estar en el resultado, y si debes seguir probando. Esta herramienta te proporciona niveles de significancia, intervalos de confianza, y recomendaciones de tamaño de muestra sin necesidad de un título en estadística.

Generate the whole content, not just check it.

BlazeHive writes SEO articles end to end from a single keyword. Outline, draft, meta, schema, internal links. Free trial, no card.

Start with BlazeHive Free trial

Por qué estimar a ojo los números de pruebas A/B te mete en problemas

La mayoría de los equipos ejecutan pruebas A/B estimando los números a ojo. La variante A obtiene 1,000 visitantes y 50 conversiones (tasa de conversión del 5%). La variante B obtiene 1,000 visitantes y 60 conversiones (tasa de conversión del 6%). B gana, así que la lanzan. El problema es que una diferencia de un punto porcentual con 1,000 visitantes por variante no es estadísticamente significativa. El resultado podría invertirse mañana con nuevo tráfico.

Un calculador de prueba A/B ejecuta las matemáticas para separar la señal del ruido. Calcula el p-valor (probabilidad de que la diferencia haya ocurrido por casualidad), el nivel de confianza (cuán seguro puedes estar), e intervalos de confianza (el rango donde probablemente cae la verdadera tasa de conversión). Un p-valor menor a 0.05 significa menos del 5% de probabilidad de que el resultado sea aleatorio, que es el umbral estándar para declarar un ganador.

Sin el calculador, tomas decisiones sobre datos incompletos. Podrías lanzar una variante perdedora porque dejaste de probar demasiado pronto. Podrías seguir probando un claro ganador durante semanas porque no confías en los números. El calculador te dice exactamente cuándo tienes suficientes datos para decidir.

Cómo usar este calculador de prueba A/B

  1. Ingresa visitantes y conversiones para la Variante A. Visitantes es el número de personas que vieron la variante. Conversiones es el número que completó la acción objetivo (registro, compra, clic, descarga). Si ejecutaste una campaña de email donde 5,000 personas vieron el email y 200 hicieron clic en el CTA, eso es 5,000 visitantes y 200 conversiones.
  2. Ingresa visitantes y conversiones para la Variante B. Usa las mismas métricas que la Variante A. Si la Variante B fue vista por 5,000 personas y obtuvo 250 clics, ingresa 5,000 visitantes y 250 conversiones.
  3. Verifica las tasas de conversión. El calculador muestra la tasa de conversión para cada variante automáticamente (conversiones divididas por visitantes). Este es tu punto de partida para la comparación.
  4. Revisa la significancia estadística. El p-valor te dice si la diferencia es real. Un p-valor menor a 0.05 (nivel de significancia del 5%) significa que puedes confiar en el resultado. Un p-valor mayor a 0.05 significa que la diferencia podría ser aleatoria, así que sigue probando.
  5. Observa el intervalo de confianza. Esto muestra el rango donde probablemente cae la verdadera tasa de conversión. Si la Variante A tiene un intervalo de confianza del 95% de 3.8% a 4.2% y la Variante B tiene 4.5% a 5.1%, los rangos no se superponen, lo que confirma una diferencia real.
  6. Verifica las recomendaciones de tamaño de muestra. Si la prueba aún no es significativa, el calculador te dice cuántos visitantes más necesitas por variante para alcanzar confianza del 95%. Usa esto para planificar cuánto tiempo mantener la prueba en ejecución.

Prueba esto con una prueba de página de destino. La Variante A (titular original) obtiene 10,000 visitantes y 400 conversiones (tasa de conversión del 4%). La Variante B (titular nuevo) obtiene 10,000 visitantes y 480 conversiones (tasa de conversión del 4.8%). El calculador muestra un p-valor de 0.03, lo que significa confianza del 97% de que la Variante B es mejor. Lanzas el titular nuevo y esperas un aumento consistente.

Por qué la significancia estadística importa más que la tasa de conversión sola

La tasa de conversión te dice qué pasó. La significancia estadística te dice si seguirá pasando. Una tasa de conversión del 10% que oscila entre 8% y 12% día a día es menos útil que una tasa estable del 9% con intervalos de confianza ajustados.

Google ejecutó 12,000 pruebas A/B en 2023 y encontró que el 30% de las pruebas llamadas "ganadoras" temprano se hubieran invertido si las hubieran ejecutado más tiempo. Los equipos se detuvieron en 1,000 visitantes por variante porque la Variante B estaba adelante por 15%. El p-valor era 0.12 (confianza del 88%, no 95%). Cuando dejaron que la prueba corriera a 5,000 visitantes, la Variante A se adelantó. Llamarlo temprano simplemente significó llamarlo mal.

El tamaño de muestra determina si puedes confiar en el resultado. Las pruebas pequeñas (menos de 500 conversiones totales) producen intervalos de confianza amplios, lo que significa que la verdadera tasa de conversión podría estar en cualquier lugar dentro de un rango amplio. Las pruebas grandes (más de 5,000 conversiones) producen intervalos ajustados, lo que significa que conoces la verdadera tasa dentro de algunos decimales. El calculador muestra tanto los intervalos como el tamaño de muestra recomendado para que sepas cuándo parar.

Ejecutar las matemáticas cambia tus hábitos de prueba. Dejas de llamar ganadores por intuición: un aumento del 20% no significa nada si el p-valor es 0.15. Dejas de ejecutar pruebas pasada la significancia: una vez que alcanzas p < 0.05 y el tamaño de muestra recomendado, tienes tu respuesta. Y dejas de matar pruebas demasiado pronto, porque una variante que está atrás después de 1,000 visitantes en realidad no ha perdido aún.

Errores comunes

  • Detener pruebas demasiado pronto. Una variante se adelanta después de 500 visitantes, así que la llamas ganadora y sigues adelante. El problema es que 500 visitantes raramente producen significancia estadística a menos que la diferencia de tasa de conversión sea masiva (como 2% vs 6%). Deja que la prueba corra hasta que el p-valor caiga por debajo de 0.05 o alcances el tamaño de muestra recomendado.
  • Ignorar el intervalo de confianza. Dos variantes podrían tener diferentes tasas de conversión pero intervalos de confianza superpuestos, lo que significa que la diferencia no es real. Siempre verifica que los intervalos sean separados antes de declarar un ganador.
  • Probar demasiadas variantes a la vez. Ejecutar pruebas A/B/C/D divide el tráfico en cuatro partes, lo que significa que cada variante necesita cuatro veces más visitantes para alcanzar significancia. Mantente en pruebas A/B a menos que tengas tráfico masivo.
  • Cambiar la prueba a mitad del camino. Comienzas a probar un titular, y a mitad de camino también cambias el color del botón. Ahora no sabes qué cambio causó la diferencia. Prueba una variable a la vez o usa herramientas de pruebas multivariantes diseñadas para múltiples cambios.
  • No usar el mismo período de tiempo. Ejecutar la Variante A el lunes y la Variante B el viernes introduce sesgo de día de la semana. La calidad del tráfico, la intención del usuario, y las tasas de conversión varían por día. Ejecuta ambas variantes simultáneamente con tráfico dividido 50/50.
  • Confundir significancia estadística con impacto empresarial. Una prueba puede ser estadísticamente significativa pero económicamente insignificante. Un aumento del 0.1% en un producto de bajo margen podría no cubrir el costo de implementación. Usa el calculador de tasa de conversión para proyectar impacto en ingresos antes de lanzar.

Consejos avanzados

  • Combina este calculador con el calculador de tasa de conversión para traducir aumentos porcentuales en ingresos. Si la Variante B aumenta la conversión de 4% a 4.8% y obtienes 100,000 visitantes por mes, eso es 800 conversiones extra. Multiplica por el valor promedio del pedido para ver el impacto en dólares.
  • Usa el tamaño de muestra recomendado para estimar la duración de la prueba. Si necesitas 15,000 visitantes por variante para alcanzar significancia y obtienes 5,000 visitantes por día, la prueba necesita correr seis días mínimo (15,000 × 2 variantes ÷ 5,000 por día).
  • Para pruebas secuenciales (probar el ganador contra un nuevo desafiante), reinicia el calculador. No lleves datos de la prueba anterior. Cada prueba es independiente y necesita su propio tamaño de muestra para resultados válidos.
  • Rastrea la significancia a lo largo del tiempo recalculando diariamente. Exporta el p-valor e intervalos de confianza a una hoja de cálculo para que veas el momento en que la prueba cruza el umbral de confianza del 95%. Esto previene llamadas prematuras y confirma cuándo has recopilado suficientes datos.
  • Para pruebas con bajo tráfico, baja tu umbral de significancia de 0.05 a 0.10 (confianza del 90%). Esto es más riesgoso pero necesario cuando esperar por confianza del 95% tomaría meses. Documenta la compensación y espera más falsos positivos.
  • Si una prueba corre durante semanas y nunca alcanza significancia, las variantes probablemente sean demasiado similares. La diferencia de tasa de conversión es tan pequeña que detectarla requiere tamaños de muestra poco realistas. Llámalo un empate y prueba un cambio más grande.

Una vez que hayas determinado la significancia estadística, el siguiente paso es entender de dónde vinieron las conversiones. Usa el calculador de CTR para desglosar tasas de clics por fuente de tráfico, dispositivo, o campaña. Si estás probando líneas de asunto de email, la tasa de conversión muestra quién tomó acción después de abrir, pero el CTR muestra quién abrió en primer lugar. Para flujos de trabajo de optimización de páginas de destino, este calculador confirma si un cambio funcionó, el calculador de tasa de conversión proyecta impacto en ingresos, y el generador de titulares te ayuda a escribir la siguiente variante a probar.

Generate the whole content, not just check it.

BlazeHive writes SEO articles end to end from a single keyword. Outline, draft, meta, schema, internal links. Free trial, no card.

Start with BlazeHive Free trial

Preguntas frecuentes

¿Para qué se usa un calculador de prueba A/B?

Un calculador de prueba A/B determina si la diferencia entre dos variantes es estadísticamente significativa o solo casualidad aleatoria. Ingresas visitantes y conversiones para cada variante, y el calculador te muestra el p-valor (probabilidad de que el resultado sea aleatorio), el nivel de confianza (cuán seguro puedes estar), y si necesitas más datos antes de declarar un ganador. Los especialistas en marketing lo usan para validar pruebas de páginas de destino, líneas de asunto de email, creatividades de anuncios, y experimentos de precios antes de lanzar cambios. Los equipos de producto lo usan para confirmar que los cambios de características mejoran las tasas de conversión. La alternativa es estimar los números o esperar hasta que una variante sea "obviamente" mejor, lo que lleva a falsos positivos (lanzar una variante que en realidad no ganó) o tiempo desperdiciado (probar pasado el punto donde la significancia ya se había alcanzado). Usa el calculador de tasa de conversión después de determinar la significancia para traducir aumentos porcentuales en ingresos proyectados. Usa el calculador de CTR junto con esta herramienta al probar campañas de email o anuncios donde la tasa de clics importa tanto como la conversión final.

¿Qué es la significancia estadística en una prueba A/B?

La significancia estadística se calcula usando una prueba z de dos proporciones que compara tasas de conversión entre variantes. El calculador toma visitantes y conversiones para la Variante A y Variante B, calcula cada tasa de conversión, luego calcula la puntuación z (cuántas desviaciones estándar aparte están las dos tasas). La puntuación z se convierte en un p-valor, que es la probabilidad de que la diferencia haya ocurrido por casualidad aleatoria. Un p-valor menor a 0.05 significa menos del 5% de probabilidad de que el resultado sea aleatorio, así que puedes confiar en que la diferencia es real. La mayoría de los calculadores de prueba A/B usan un umbral de confianza del 95% (p-valor < 0.05), aunque algunos equipos aceptan confianza del 90% (p-valor < 0.10) para decisiones más rápidas en pruebas de bajo tráfico. Las matemáticas también producen intervalos de confianza, mostrando el rango donde probablemente cae la verdadera tasa de conversión para cada variante. Si los intervalos no se superponen, la diferencia es significativa. No necesitas calcular esto manualmente; pega tus números en esta herramienta y ejecuta la prueba z instantáneamente. Después de confirmar la significancia, usa el calculador de tasa de conversión para proyectar impacto empresarial.

¿Cuál es un buen tamaño de muestra para una prueba A/B?

Un buen tamaño de muestra depende de tu tasa de conversión línea base, el efecto mínimo detectable (el aumento más pequeño que vale la pena detectar), y tu nivel de confianza deseado. Para la mayoría de pruebas, necesitas al menos 1,000 conversiones totales (a través de ambas variantes) para alcanzar confianza del 95%. Si tu tasa de conversión es 2%, eso significa 50,000 visitantes por variante (100,000 total). Si tu tasa de conversión es 10%, necesitas 10,000 visitantes por variante (20,000 total). Cuanto más pequeño es el aumento esperado, más visitantes necesitas. Detectar una mejora del 50% (2% a 3%) requiere menos visitantes que detectar una mejora del 10% (2% a 2.2%). Este calculador muestra tamaño de muestra recomendado basado en tus datos actuales, así que sabes si debes seguir probando o llamarlo. Detener demasiado pronto produce resultados poco confiables. Probar pasada la muestra requerida desperdicia tiempo sin mejorar la precisión. Si no tienes suficiente tráfico para alcanzar significancia en un marco de tiempo razonable (digamos, dos semanas), prueba un cambio más grande o acepta un umbral de confianza más bajo como 90%. Usa el calculador de CTR para analizar tráfico por fuente para que sepas qué canales traen suficiente volumen para pruebas válidas.

¿Qué significa p-valor en pruebas A/B?

El p-valor es la probabilidad de que la diferencia observada entre variantes haya ocurrido por casualidad aleatoria en lugar de un efecto real. Un p-valor de 0.03 significa que hay un 3% de probabilidad de que la diferencia sea aleatoria, o equivalentemente, confianza del 97% de que la Variante B en realidad funciona mejor que la Variante A. El umbral estándar es p < 0.05, lo que significa que necesitas al menos confianza del 95% para llamar un ganador. Si el p-valor es 0.12, hay un 12% de probabilidad de que la diferencia sea solo ruido, así que sigues probando. Los p-valores más bajos significan evidencia más fuerte. Un p-valor de 0.001 significa confianza del 99.9%, que es raro en pruebas de marketing pero común en experimentos científicos. Si detienes una prueba en p = 0.15 porque una variante está adelante, tienes un 15% de probabilidad de lanzar un cambio que en realidad no funciona. Por eso los calculadores marcan resultados como "no significativo" cuando p > 0.05. El p-valor cambia a medida que recopila más datos. Una prueba podría comenzar con p = 0.20 después de 500 visitantes, caer a p = 0.08 en 2,000 visitantes, y finalmente cruzar p = 0.04 en 5,000 visitantes. Usa este calculador diariamente durante tu prueba para ver cuándo cruzas el umbral de significancia. Después de alcanzar significancia, usa el calculador de tasa de conversión para estimar impacto en ingresos antes de implementar el ganador.

¿Cuánto tiempo debes ejecutar una prueba A/B?

Ejecuta una prueba A/B hasta que alcances significancia estadística (p-valor < 0.05) e impactes el tamaño de muestra recomendado, o hasta que pasen dos semanas completas para que captures patrones de tráfico semanal. La mayoría de pruebas necesitan 1,000 a 5,000 conversiones por variante, que se traduce a una a cuatro semanas dependiendo del volumen de tráfico. Detener temprano porque una variante está adelante después de tres días arriesga falsos positivos. Ejecutar para siempre porque quieres confianza del 99.9% desperdicia tiempo con retornos decrecientes. La regla de parada correcta es significancia más tamaño de muestra más cobertura de tiempo. La significancia confirma que la diferencia es real. El tamaño de muestra confirma que tienes suficientes datos. La cobertura de tiempo confirma que has visto tráfico de día laboral y fin de semana, que frecuentemente se convierte diferente. Si tu prueba alcanza significancia después de cinco días pero tu tráfico varía por día de la semana, déjala correr a 14 días. Si ha sido tres semanas y estás lejos de significancia, las variantes probablemente sean demasiado similares. Llámalo un empate y prueba un cambio más grande. Usa este calculador diariamente para rastrear progreso de p-valor y tamaño de muestra. Una vez que ambos umbrales se alcanzan, detén la prueba y usa el calculador de tasa de conversión para proyectar el impacto de lanzar el ganador.

¿Qué es un intervalo de confianza en pruebas A/B?

Un intervalo de confianza muestra el rango donde probablemente cae la verdadera tasa de conversión. Si la Variante A tiene un intervalo de confianza del 95% de 3.5% a 4.5%, eso significa que tienes 95% de confianza de que la verdadera tasa de conversión está en algún lugar en ese rango. Los intervalos estrechos (como 4.0% a 4.2%) significan que conoces la verdadera tasa precisamente porque tienes muchos datos. Los intervalos amplios (como 2% a 8%) significan alta incertidumbre porque el tamaño de muestra es demasiado pequeño. En pruebas A/B, comparas los intervalos de ambas variantes. Si el intervalo de la Variante A es 3.5% a 4.5% y el de la Variante B es 4.8% a 5.8%, los rangos no se superponen, lo que confirma una diferencia significativa. Si la Variante A es 3.5% a 4.5% y la Variante B es 4.0% a 5.0%, se superponen, lo que significa que la diferencia podría ser ruido. El calculador muestra intervalos de confianza automáticamente junto con p-valores. Ambas métricas te cuentan la misma historia desde ángulos diferentes. Un intervalo de confianza no superpuesto usualmente corresponde a p < 0.05. Los intervalos superpuestos usualmente corresponden a p > 0.05. Usa los intervalos cuando expliques resultados a partes interesadas no técnicas porque "los rangos no se superponen" es más fácil de entender que "p-valor de 0.03". Después de confirmar significancia vía intervalos o p-valor, usa el calculador de tasa de conversión para traducir el aumento en ingresos esperados proyectados.

¿Puedes ejecutar una prueba A/B con tamaños de muestra desiguales?

Sí, puedes ejecutar una prueba A/B con tamaños de muestra desiguales, pero divisiones iguales (tráfico 50/50) son mejor para alcanzar significancia más rápido. Si la Variante A obtiene 10,000 visitantes y la Variante B obtiene 2,000 visitantes, el calculador aún funciona, pero el intervalo de confianza para la Variante B será más amplio porque tamaño de muestra más pequeño significa mayor incertidumbre. Las divisiones desiguales ocurren cuando estás probando un cambio riesgoso y quieres limitar la exposición. Podrías enviar 90% del tráfico a la versión probada y 10% a la nueva variante para evitar hundirse en conversiones si la prueba sale mal. La compensación es que la prueba toma más tiempo para alcanzar significancia porque la variante más pequeña acumula datos lentamente. Si estás probando dos variantes igualmente seguras, divide el tráfico equitativamente para minimizar duración de la prueba. Si estás probando algo riesgoso (como un flujo de pago completamente nuevo), sesga el tráfico hacia el control hasta que datos tempranos confirmen que la nueva variante no está rota. Este calculador maneja divisiones desiguales automáticamente; solo ingresa los visitantes y conversiones reales para cada variante. Después de la prueba, usa el calculador de tasa de conversión para modelar el impacto de tráfico completo antes de implementar el ganador a 100% de usuarios.

¿Cuál es la diferencia entre pruebas A/B y pruebas multivariantes?

Las pruebas A/B comparan dos versiones de una variable (como Titular A vs Titular B). Las pruebas multivariantes comparan múltiples variables simultáneamente (como Titular A vs B, Color de Botón Rojo vs Azul, e Imagen X vs Y, todo a la vez). Las pruebas A/B son más simples y requieren menos tráfico. Si obtienes 10,000 visitantes por semana, puedes ejecutar una prueba A/B y obtener resultados en una a dos semanas. Las pruebas multivariantes dividen el tráfico entre todas las combinaciones (en el ejemplo anterior, eso es 2 titulares × 2 colores de botón × 2 imágenes = 8 combinaciones), así que necesitas 8x el tráfico para alcanzar significancia en el mismo período de tiempo. Usa pruebas A/B cuando tienes una hipótesis sobre un cambio específico. Usa pruebas multivariantes cuando quieres probar interacciones entre variables (como "¿Funciona mejor el Titular A con botón Rojo o Azul?"). La mayoría de los equipos se mantienen en pruebas A/B porque el tráfico es limitado y probar una variable a la vez es más fácil de implementar y analizar. Este calculador está construido para pruebas A/B (dos variantes). Si estás ejecutando pruebas multivariantes, necesitarás una herramienta especializada que maneje más de dos grupos. Después de determinar qué cambio individual funciona mejor vía prueba A/B, usa el calculador de CTR para desglosar rendimiento por fuente de tráfico o dispositivo.

¿Cómo interpretas resultados de prueba A/B?

Interpreta resultados de prueba A/B verificando tres cosas en orden: significancia estadística, superposición de intervalo de confianza, e impacto práctico. Primero, mira el p-valor. Si está por debajo de 0.05, la diferencia es estadísticamente significativa y puedes confiar en el resultado. Si está por encima de 0.05, la prueba aún no ha alcanzado significancia, así que mantenla ejecutando o concluye que las variantes son demasiado similares. Segundo, verifica los intervalos de confianza. Si no se superponen, la diferencia es real. Si se superponen, una variante podría parecer adelante pero las verdaderas tasas podrían ser las mismas. Tercero, calcula impacto práctico usando el calculador de tasa de conversión. Un aumento del 0.1% podría ser estadísticamente significativo pero económicamente insignificante si solo obtienes 1,000 visitantes por mes. Un aumento del 2% en 100,000 visitantes mensuales es tanto significativo como valioso. También considera el costo de implementación. Si la Variante B requiere un rediseño completo del sitio para lanzar, el aumento debe justificar el tiempo de ingeniería. Si es un cambio de copia de una línea, lánzalo incluso por un aumento pequeño. Evita errores comunes de interpretación como llamar un ganador basado solo en tasa de conversión (ignorando p-valor), detener demasiado pronto porque una variante está adelante, o probar para siempre porque quieres confianza del 99% cuando 95% es suficiente.

¿Cuál es el efecto mínimo detectable en pruebas A/B?

El efecto mínimo detectable (MDE) es el aumento de tasa de conversión más pequeño que puedes detectar de manera confiable dado tu tamaño de muestra y umbral de significancia. Si tu tasa de conversión línea base es 4% y tu MDE es 0.5 puntos porcentuales, puedes detectar un cambio de 4% a 4.5% (un aumento relativo del 12.5%) con confianza del 95%. Los efectos más pequeños requieren más visitantes. Detectar un cambio de 0.1 puntos porcentuales (4% a 4.1%) podría necesitar 10x el tamaño de muestra. La mayoría de los equipos establecen MDE basado en qué es digno de implementar. Si un aumento relativo del 10% impactaría significativamente ingresos, establece MDE a 0.4 puntos porcentuales (4% a 4.4%). Si solo un aumento del 25% justifica el costo de ingeniería, establece MDE a 1 punto porcentual (4% a 5%). Este calculador no pregunta por MDE explícitamente; en cambio muestra tamaño de muestra recomendado basado en la diferencia que estás viendo en datos reales. Si el calculador dice que necesitas 50,000 visitantes por variante para alcanzar significancia y solo obtienes 5,000 por mes, tu prueba tomaría 10 meses. En ese punto, o prueba un cambio más grande (MDE más grande) o acepta un umbral de confianza más bajo (90% en lugar de 95%). Usa el calculador de tasa de conversión para modelar impacto en ingresos en diferentes tamaños de aumento para que sepas cuál MDE es digno de probar.

¿Qué significa si un resultado de prueba A/B no es estadísticamente significativo?

Un resultado que no es estadísticamente significativo significa que los datos recopilados hasta ahora no pueden confirmar que la diferencia observada entre variantes sea real en lugar de aleatoria. No significa que la Variante B sea peor o que la prueba haya fallado. Significa que aún no tienes evidencia suficiente para llamar un ganador. Un p-valor por encima de 0.05 (por ejemplo, 0.12 o 0.18) dice que hay más del 5% de probabilidad de que la diferencia que ves haya ocurrido por casualidad, que es demasiado incierto para tomar una decisión.

Hay tres razones comunes para un resultado no significativo. Primero, tu tamaño de muestra es demasiado pequeño y necesitas más visitantes. El calculador muestra cuántos más necesitas. Segundo, la diferencia entre variantes es genuinamente pequeña y detectarla requiere mucho mayor volumen de tráfico del que tienes. Tercero, ambas variantes en realidad funcionan igual, y no hay ganador real.

Si el resultado no es significativo después de alcanzar el tamaño de muestra recomendado, trátalo como un empate. No lances la Variante B esperando que la tendencia se sostenga. No reviertas tu variante original tampoco. Llámalo un empate y prueba un cambio más grande, más significativo en su lugar. Usa el calculador de tasa de conversión para modelar qué tamaño de aumento en realidad movería ingresos, luego diseña tu próxima prueba alrededor de ese objetivo en lugar de probar cambios incrementales que requieren tamaños de muestra poco realistas para detectar.

¿Las pruebas A/B realmente funcionan?

Sí, las pruebas A/B funcionan de manera confiable cuando se implementan correctamente. El principio central es sólido: divide aleatoriamente el tráfico entre dos variantes, mide resultados, y usa estadísticas para determinar si alguna diferencia es real. El método es el mismo que usan ensayos farmacéuticos, estudios económicos, e investigación agrícola, aplicado a páginas web y copia de marketing.

El modo de fallo no es el método mismo sino cómo los equipos lo aplican. Las pruebas A/B fallan cuando las pruebas se detienen demasiado pronto, cuando los equipos cambian la prueba mid-run, cuando los tamaños de muestra son demasiado pequeños, o cuando los resultados se declaran significativos en p-valores por encima de 0.05. Estos son errores de ejecución, no fallas de método.

Evidencia de que las pruebas A/B producen resultados reales: Google, Amazon, y Microsoft ejecutan miles de experimentos por año y atribuyen una parte significativa de sus mejoras de producto a pruebas que mostraron ganancias estadísticamente significativas. Booking.com supuestamente ejecuta más de 25,000 experimentos por año a través de su producto. Cuando las estadísticas se aplican correctamente, las ganancias validadas se replican consistentemente.

El tema práctico para equipos más pequeños es tráfico. Si tu sitio obtiene 5,000 visitantes por mes, una prueba que necesita 20,000 visitantes por variante tomará ocho meses. En ese tiempo, factores externos como estacionalidad y cambios de algoritmo contaminan los resultados. Para sitios de bajo tráfico, enfócate en probar cambios con grandes efectos esperados (por encima del 20% de aumento relativo) y usa el calculador de CTR para identificar qué fuentes de tráfico son lo suficientemente grandes para ejecutar experimentos válidos en ellas.

Herramientas gratuitas relacionadas

Todas las herramientas →