Teste A/B: o que é um erro tipo 1 e tipo 2 e como evitá-los
Publicados: 2019-05-20Uma das principais razões para realizar testes A/B é obter resultados verificáveis e repetíveis. A única maneira de conseguir isso é usar métodos científicos. O objetivo é obter a verdade objetiva – livre de suposições, conjecturas e quaisquer sentimentos pessoais sobre qual variação é melhor.
No entanto, às vezes os testadores cometem erros e estes podem ser facilmente ignorados trazendo resultados ruins. Quando os profissionais de marketing realizam testes A/B ou testes multivariantes durante o trabalho de otimização da taxa de conversão, todos os testes estão sujeitos a vários tipos possíveis de erro. Os tipos comuns de erros são o erro tipo 1 e o erro tipo 2.
Apesar da facilidade com que as ferramentas fazem testes A/B, você, como usuário, deve entender tanto a metodologia científica quanto como interpretar os resultados para evitar tomar decisões erradas.
É seu trabalho projetar os testes, e é aí que os erros tendem a surgir, dentro do projeto experimental. Nenhuma ferramenta de teste A/B pode detectar esses erros. Cabe a você identificá-los quando eles ocorrem, ou melhor, impedi-los de acontecer em primeiro lugar.
Então, quais são esses erros, qual é a diferença entre um erro tipo 1 e tipo 2 e como evitar um erro tipo 1 e um erro tipo 2?
Vamos descobrir!
O que é um erro tipo 1 - falso positivo?
Um falso positivo pode ocorrer ao testar uma nova sobreposição de pop-up (variação B) versus o controle original (variação A). Você decide mudar a imagem de fundo para testar uma mais emotiva.
Após 10 dias de variação A versus variação B, você verifica o resultado. Os resultados parecem claros, mostrando uma grande melhora na conversão. Consequentemente, o teste A/B é concluído e a variação B é implementada como vencedora.
No entanto, após vários meses, os resultados não foram melhores do que o original, na verdade, foram piores.
Este é um exemplo de um falso positivo e um erro tipo 1.
Um erro tipo 1 é um resultado testado experimentalmente, um resultado que sugere uma correlação positiva, indicando uma opção superior que acabou não sendo verdadeira.
Como isso é possível?
Simplificando, é o fator humano que introduz erros. Muitas vezes, isso é o resultado de não fazer pesquisas suficientes sobre o que deve ser testado. Existem muitas variáveis possíveis que devem ser consideradas ao projetar testes, você só precisa perder uma para que sua hipótese de teste esteja errada.
Se todas as coisas forem iguais, livres de influências externas, os resultados deste teste A/B teriam fornecido resultados corretos. Se você se encontra nessa posição, você perdeu alguma coisa ou deixou que fatores externos influenciassem os resultados.
Em última análise, houve uma falha em seu método científico, o ponto é, VOCÊ, como o testador, não levou em conta isso.
Por que os testes de divisão falham?
- Sua persona é muito ampla
- O tamanho da sua amostra é muito pequeno
- Você está testando a coisa errada
- A duração do seu teste é muito curta
O que é um erro tipo 2 - falso negativo?
Vamos trabalhar com o mesmo cenário acima, a variação original (A) (controle) versus nova variação (B). Nesse caso, o resultado não mostra nenhuma alteração na conversão entre os dois. Nesse caso, você pode decidir manter a versão original ou mudar para a nova versão, com base em outros fatores, como preferência pessoal.
Neste caso, a Hipótese Nula (definição abaixo) é considerada correta (incorretamente).
O teste foi falho e a versão B era uma opção muito melhor, portanto, o cenário potencialmente leva a uma decisão incorreta. O problema nesse cenário é que é provável que você nunca saiba que a versão B é melhor. Isso é, a menos que você elimine o erro antes de testar novamente.
Um erro tipo 2 é quando a hipótese nula (sem diferença) é considerada correta – incorretamente.
Testando a significância
Antes de executar seu teste, você precisa calcular qual deve ser o nível de significância para o teste. Aqui você está decidindo qual resultado determina o sucesso.
Geralmente, isso deve ser baseado na Hipótese Nula, que é a posição padrão de que não há diferença significativa entre os dois.
Que desvio positivo dessa posição você deve considerar significativo? O consenso geral é que você deve continuar testando até que sua significância estatística seja de pelo menos 90%, mas de preferência 95% ou mais antes de tomar uma decisão baseada nela, ou em outras palavras, sua confiança no resultado é superior a 95%.
Outro fator que deve ser considerado é o tamanho da amostra. Quanto menor o tamanho da amostra, maior a margem de erro. O que isso significa é que, à medida que suas taxas de conversão aumentam, menor o tamanho da amostra que você precisa para medir a melhoria.
Confira esta calculadora de tamanho de amostra para entender o que quero dizer com isso e ver qual tamanho de amostra seu teste A/B deve ter.
Como evitar erros tipo 1 e tipo 2?
- Geralmente apenas teste A/B uma mudança de cada vez
- Não faça um teste A/B se você tiver um site pequeno de baixo tráfego, com um volume de conversão abaixo de 1.000 por mês. Só não vale o seu tempo.
- Verifique se você está testando a coisa certa.