A/B 测试:什么是类型 1 和类型 2 错误以及如何避免它们
已发表: 2019-05-20进行 A/B 测试的主要原因之一是获得可重复的可验证结果。 实现这一目标的唯一方法是使用科学方法。 目标是获得客观真理——摆脱猜测、猜想和任何个人感受,最好是变异。
但是,有时测试人员会犯错误,这些错误很容易被忽视,带来不好的结果。 当营销人员在转化率优化工作中进行 A/B 测试或多变量测试时,每个测试都会出现几种可能的错误类型。 常见的错误类型是类型 1 错误和类型 2 错误。
尽管工具使 A/B 测试变得如此简单,但作为用户,您必须了解科学方法以及如何解释结果以避免做出错误的决定。
设计测试是您的工作,而这也是在实验设计中容易出现错误的地方。 没有 A/B 测试工具可以检测到这些错误。 当它们确实发生时,您可以发现它们,或者更确切地说,从一开始就阻止它们发生。
那么这些错误是什么,1 类错误和 2 类错误有什么区别,如何避免 1 类错误和 2 类错误呢?
让我们来了解一下!
什么是类型 1 错误 - 误报?
在测试新的弹出式覆盖(变体 B)与原始控件(变体 A)时,可能会出现误报。 您决定更改背景图像以测试更情绪化的图像。
在运行变体 A 与变体 B 10 天后,您检查结果。 结果似乎很清楚,表明转化率有了很大的提高。 因此,A/B 测试结束,变体 B 被实施为获胜者。
然而几个月后,结果并没有比原来的好,反而更糟。
这是误报和类型 1 错误的示例。
类型 1 错误是经过实验测试的结果,该结果表明存在正相关,表明一个更好的选择,但事实证明它不是真的。
这怎么可能?
简而言之,这是引入错误的人为因素。 这通常是由于没有对应该测试的内容进行充分研究的结果。 在设计测试时必须考虑许多可能的变量,您只需错过一个,您的测试假设就会出错。
如果一切都是平等的,不受外界影响,这个 A/B 测试的结果将提供正确的结果。 如果你发现自己处于这个位置,你错过了一些东西,或者你让外部因素影响了结果。
最终,您的科学方法存在缺陷,关键是,您作为测试人员没有考虑到这一点。
为什么拆分测试失败?
- 你的人设太宽泛了
- 您的样本量太小
- 你在测试错误的东西
- 您的测试时间太短
什么是类型 2 错误 - 假阴性?
让我们使用上述相同的场景,原始 (A) (控制) 与新变体 (B)。 在这种情况下,结果显示两者之间的转换没有变化。 在这种情况下,您可能会根据个人喜好等其他因素决定保留原版或切换到新版本。
在这种情况下,零假设(定义如下)被认为是正确的(不正确的)。
测试存在缺陷,版本 B 是一个更好的选择,因此该场景可能会导致一个不正确的决定。 这种情况下的问题是,您可能永远不会知道版本 B 更好。 除非您在重新测试之前消除错误。
类型 2 错误是指原假设(无差异)被认为是正确的——不正确。
测试意义
在运行测试之前,您需要计算测试的显着性水平。 在这里,您决定什么结果决定成功。
一般来说,这应该基于Null Hypothesis,这是两者之间没有显着差异的默认位置。
你认为与这个立场有什么积极的偏差是显着的? 一般的共识是,您应该继续测试,直到您的统计显着性至少达到 90%,但最好是 95% 或更高,然后再根据它做出决定,或者换句话说,您对结果的信心超过 95%。
另一个必须考虑的因素是样本量。 样本量越小,误差幅度越大。 这意味着随着您的转化率越来越高,您需要衡量改进的样本量越小。
看看这个样本量计算器来理解我的意思,看看你的 A/B 测试应该有多大的样本量。
如何避免类型 1 和类型 2 错误?
- 通常一次只 A/B 测试一项更改
- 如果您有一个小型低流量网站,每月转化量低于 1000 次,请不要进行 A/B 测试。 这不值得你花时间。
- 确保您正在测试正确的东西。