A/B-Tests: Was ist ein Typ-1- und Typ-2-Fehler und wie man ihn vermeidet
Veröffentlicht: 2019-05-20Einer der Hauptgründe für die Durchführung von A/B-Tests ist es, überprüfbare Ergebnisse zu erhalten, die wiederholbar sind. Dies kann nur mit wissenschaftlichen Methoden erreicht werden. Das Ziel ist es, die objektive Wahrheit zu erhalten – frei von Vermutungen, Vermutungen und persönlichen Gefühlen darüber, welche Variation die beste ist.
Manchmal machen Tester jedoch Fehler, die leicht übersehen werden können und zu schlechten Ergebnissen führen. Wenn Vermarkter im Rahmen ihrer Conversion-Rate-Optimierung A/B-Tests oder multivariante Tests durchführen, ist jeder Test mehreren möglichen Fehlerarten ausgesetzt. Häufige Fehlertypen sind Fehler vom Typ 1 und Fehler vom Typ 2.
Obwohl Tools A/B-Tests einfach machen, müssen Sie als Benutzer sowohl die wissenschaftliche Methodik als auch die Interpretation der Ergebnisse verstehen, um Fehlentscheidungen zu vermeiden.
Es ist Ihre Aufgabe, die Tests zu entwerfen, und hier treten im experimentellen Design häufig Fehler auf. Kein A/B-Testing-Tool kann diese Fehler erkennen. Es liegt an Ihnen, sie zu erkennen, wenn sie auftreten, oder besser gesagt, sie von vornherein zu verhindern.
Was sind diese Fehler, was ist der Unterschied zwischen einem Fehler vom Typ 1 und vom Typ 2 und wie vermeidet man einen Fehler vom Typ 1 und einen Fehler vom Typ 2?
Lass es uns herausfinden!
Was ist ein Typ-1-Fehler – falsch positiv?
Beim Testen eines neuen Popup-Overlays (Variation B) im Vergleich zur ursprünglichen Kontrolle (Variation A) kann ein falsch positives Ergebnis auftreten. Sie beschließen, das Hintergrundbild zu ändern, um ein emotionaleres zu testen.
Nachdem Sie 10 Tage lang Variation A gegen Variation B ausgeführt haben, überprüfen Sie das Ergebnis. Die Ergebnisse scheinen klar und zeigen eine große Verbesserung der Konversion. Damit ist das A/B-Testing abgeschlossen und Variante B als Sieger implementiert.
Nach einigen Monaten waren die Ergebnisse jedoch nicht besser als das Original, sie waren sogar schlechter.
Dies ist ein Beispiel für einen Fehlalarm und einen Typ-1-Fehler.
Ein Typ-1-Fehler ist ein experimentell getestetes Ergebnis, ein Ergebnis, das auf eine positive Korrelation hindeutet, was auf eine überlegene Option hinweist, die sich als nicht wahr herausgestellt hat.
Wie ist das möglich?
Einfach ausgedrückt ist es der menschliche Faktor, der Fehler einführt. Oft ist dies das Ergebnis einer unzureichenden Recherche darüber, was getestet werden sollte. Es gibt viele mögliche Variablen, die beim Entwerfen von Tests berücksichtigt werden müssen. Sie müssen nur eine auslassen, damit Ihre Testhypothese falsch ist.
Wenn alle Dinge gleich und frei von äußeren Einflüssen wären, hätten die Ergebnisse dieses A/B-Tests korrekte Ergebnisse geliefert. Wenn Sie sich in dieser Position wiederfinden, haben Sie etwas verpasst oder lassen externe Faktoren die Ergebnisse beeinflussen.
Letztendlich gab es einen Fehler in Ihrer wissenschaftlichen Methode, der Punkt ist, dass SIE als Tester nicht dafür verantwortlich waren.
Warum schlagen Split-Tests fehl?
- Ihre Persönlichkeit ist zu weit gefasst
- Ihre Stichprobengröße ist zu klein
- Du testest das Falsche
- Ihre Testdauer ist zu kurz
Was ist ein Typ-2-Fehler – falsch negativ?
Lassen Sie uns mit dem gleichen Szenario oben arbeiten, dem Original (A) (Kontrolle) vs. der neuen Variante (B). In diesem Fall zeigt das Ergebnis keine Änderung der Konvertierung zwischen den beiden. In diesem Fall können Sie sich entscheiden, das Original zu behalten oder auf die neue Version umzusteigen, basierend auf anderen Faktoren wie z. B. persönlichen Vorlieben.
In diesem Fall wird die Nullhypothese (Definition unten) als richtig (falsch) betrachtet.
Der Test war fehlerhaft und Version B war eine viel bessere Option, daher führt das Szenario möglicherweise zu einer falschen Entscheidung. Das Problem in diesem Szenario ist, dass Sie wahrscheinlich nie erfahren würden, dass Version B besser war. Es sei denn, Sie beseitigen den Fehler vor dem erneuten Testen.
Ein Fehler 2. Art liegt vor, wenn die Nullhypothese (kein Unterschied) als richtig – falsch – angesehen wird.
Signifikanz testen
Bevor Sie Ihren Test durchführen, müssen Sie das Signifikanzniveau für den Test berechnen. Hier entscheiden Sie, welches Ergebnis über den Erfolg entscheidet.
Im Allgemeinen sollte dies auf der Nullhypothese basieren, was die Standardposition ist, dass es keinen signifikanten Unterschied zwischen den beiden gibt.
Welche positive Abweichung von dieser Position sollten Sie als signifikant erachten? Der allgemeine Konsens ist, dass Sie so lange testen sollten, bis Ihre statistische Signifikanz mindestens 90 %, aber vorzugsweise 95 % oder mehr beträgt, bevor Sie darauf basierend eine Entscheidung treffen, oder mit anderen Worten, Ihr Vertrauen in das Ergebnis beträgt über 95 %.
Ein weiterer Faktor, der berücksichtigt werden muss, ist die Stichprobengröße. Je kleiner die Stichprobengröße, desto größer die Fehlerspanne. Das bedeutet, je höher Ihre Conversion-Raten werden, desto kleiner ist die Stichprobengröße, die Sie benötigen, um die Verbesserung zu messen.
Sehen Sie sich diesen Stichprobenrechner an, um zu verstehen, was ich damit meine, und um zu sehen, welche Stichprobengröße Ihr A/B-Test haben sollte.
Wie vermeidet man Fehler 1. und 2. Art?
- Im Allgemeinen A/B-Test nur eine Änderung auf einmal
- Führen Sie keinen A/B-Test durch, wenn Sie eine kleine Website mit geringem Traffic und einem Conversion-Volumen von weniger als 1000 pro Monat haben. Es ist deine Zeit einfach nicht wert.
- Stellen Sie sicher, dass Sie das Richtige testen.