Test A/B : qu'est-ce qu'une erreur de type 1 et de type 2 et comment les éviter
Publié: 2019-05-20L'une des principales raisons d'effectuer des tests A/B est d'obtenir des résultats vérifiables et reproductibles. La seule façon d'y parvenir est d'utiliser des méthodes scientifiques. Le but est d'obtenir la vérité objective - exempte de conjectures, de conjectures et de tout sentiment personnel sur lequel la variation est la meilleure.
Cependant, les testeurs commettent parfois des erreurs et celles-ci peuvent facilement être ignorées, entraînant de mauvais résultats. Lorsque les marketeurs réalisent des tests A/B ou des tests multivariants lors de leur travail d'optimisation du taux de conversion, chaque test est sujet à plusieurs types d'erreurs possibles. Les types d'erreurs les plus courants sont les erreurs de type 1 et les erreurs de type 2.
Malgré la facilité avec laquelle les outils permettent de réaliser des tests A/B, vous, en tant qu'utilisateur, devez comprendre à la fois la méthodologie scientifique et la manière d'interpréter les résultats pour éviter de prendre de mauvaises décisions.
C'est votre travail de concevoir les tests, et c'est là que les erreurs ont tendance à se produire, dans la conception expérimentale. Aucun outil de test A/B ne peut détecter ces erreurs. C'est à vous de les repérer lorsqu'ils se produisent, ou plutôt de les empêcher de se produire en premier lieu.
Quelles sont donc ces erreurs, quelle est la différence entre une erreur de type 1 et une erreur de type 2, et comment éviter une erreur de type 1 et une erreur de type 2 ?
Découvrons-le!
Qu'est-ce qu'une erreur de type 1 - faux positif ?
Un faux positif peut se produire lors du test d'une nouvelle superposition contextuelle (variante B) par rapport au contrôle d'origine (variante A). Vous décidez de changer l'image de fond pour en tester une plus émotive.
Après 10 jours d'exécution de la variante A contre la variante B, vous vérifiez le résultat. Les résultats semblent clairs, montrant une grande amélioration de la conversion. Par conséquent, le test A/B est terminé et la variante B est mise en œuvre en tant que gagnante.
Cependant, après plusieurs mois, les résultats n'étaient pas meilleurs que l'original, en fait, ils étaient pires.
Ceci est un exemple de faux positif et d'erreur de type 1.
Une erreur de type 1 est un résultat testé expérimentalement, un résultat qui suggère une corrélation positive, indiquant une option supérieure qui s'est avérée fausse.
Comment est-ce possible?
Autrement dit, c'est le facteur humain qui introduit des erreurs. C'est souvent le résultat d'une recherche insuffisante sur ce qui doit être testé. Il existe de nombreuses variables possibles qui doivent être prises en compte lors de la conception des tests, il vous suffit d'en manquer une pour que votre hypothèse de test soit erronée.
Si toutes choses sont égales par ailleurs, sans influences extérieures, les résultats de ce test A/B auraient fourni des résultats corrects. Si vous vous trouvez dans cette position, vous avez manqué quelque chose ou vous avez laissé des facteurs externes influencer les résultats.
En fin de compte, il y avait une faille dans votre méthode scientifique, le fait est que VOUS, en tant que testeur, n'en avez pas tenu compte.
Pourquoi les tests fractionnés échouent ?
- Votre persona est trop large
- La taille de votre échantillon est trop petite
- Vous testez la mauvaise chose
- La durée de votre test est trop courte
Qu'est-ce qu'une erreur de type 2 - faux négatif ?
Travaillons avec le même scénario ci-dessus, l'original (A) (contrôle) contre la nouvelle variation (B). Dans ce cas, le résultat ne montre aucun changement de conversion entre les deux. Dans ce cas, vous pouvez décider de conserver l'original ou de passer à la nouvelle version, en fonction d'autres facteurs tels que vos préférences personnelles.
Dans ce cas, l'hypothèse nulle (définition ci-dessous) est considérée comme correcte (incorrectement).
Le test était défectueux et la version B était une bien meilleure option, donc le scénario conduit potentiellement à une décision incorrecte. Le problème dans ce scénario est qu'il est probable que vous ne sachiez jamais que la version B était meilleure. C'est à moins que vous n'éliminiez l'erreur avant de retester.
Une erreur de type 2 se produit lorsque l'hypothèse nulle (pas de différence) est considérée comme correcte - incorrectement.
Signification des tests
Avant d'exécuter votre test, vous devez calculer quel devrait être le niveau de signification du test. Ici, vous décidez quel résultat détermine le succès.
Généralement, cela devrait être basé sur l'hypothèse nulle, qui est la position par défaut selon laquelle il n'y a pas de différence significative entre les deux.
Quel écart positif par rapport à cette position devriez-vous juger significatif ? Le consensus général est que vous devez continuer à tester jusqu'à ce que votre signification statistique soit d'au moins 90 %, mais de préférence de 95 % ou plus, avant de prendre une décision basée sur celle-ci, ou en d'autres termes, votre confiance dans le résultat est supérieure à 95 %.
Un autre facteur à prendre en compte est la taille de l'échantillon. Plus la taille de l'échantillon est petite, plus la marge d'erreur est grande. Cela signifie que plus vos taux de conversion augmentent, plus la taille de l'échantillon dont vous avez besoin pour mesurer l'amélioration est petite.
Consultez ce calculateur de taille d'échantillon pour comprendre ce que je veux dire par là et pour voir quelle taille d'échantillon votre test A/B devrait avoir.
Comment éviter les erreurs de type 1 et de type 2 ?
- En règle générale, ne testez A/B qu'un seul changement à la fois
- Ne faites pas de test A/B si vous avez un petit site Web à faible trafic, avec un volume de conversion inférieur à 1 000 par mois. Cela ne vaut tout simplement pas votre temps.
- Assurez-vous que vous testez la bonne chose.