A/B 測試:什麼是類型 1 和類型 2 錯誤以及如何避免它們
已發表: 2019-05-20進行 A/B 測試的主要原因之一是獲得可重複的可驗證結果。 實現這一目標的唯一方法是使用科學方法。 我們的目標是獲得客觀真理——擺脫猜測、猜想和任何個人感覺,最好是變異。
但是,有時測試人員會犯錯誤,這些錯誤很容易被忽視,帶來不好的結果。 當營銷人員在轉化率優化工作中進行 A/B 測試或多變量測試時,每個測試都會出現幾種可能的錯誤類型。 常見的錯誤類型是類型 1 錯誤和類型 2 錯誤。
儘管工具使 A/B 測試變得如此簡單,但作為用戶,您必須了解科學方法以及如何解釋結果以避免做出錯誤的決定。
設計測試是您的工作,而這也是在實驗設計中容易出現錯誤的地方。 沒有 A/B 測試工具可以檢測到這些錯誤。 當它們確實發生時,您可以發現它們,或者更確切地說,從一開始就阻止它們發生。
那麼這些錯誤是什麼,1 類錯誤和 2 類錯誤有什麼區別,如何避免 1 類錯誤和 2 類錯誤呢?
讓我們來了解一下!
什麼是類型 1 錯誤 - 誤報?
在測試新的彈出式覆蓋(變體 B)與原始控件(變體 A)時,可能會出現誤報。 您決定更改背景圖像以測試更情緒化的圖像。
在運行變體 A 與變體 B 10 天后,您檢查結果。 結果似乎很清楚,表明轉化率有了很大的提高。 因此,A/B 測試結束,變體 B 被實施為獲勝者。
然而幾個月後,結果並沒有比原來的好,反而更糟。
這是誤報和類型 1 錯誤的示例。
類型 1 錯誤是經過實驗測試的結果,該結果表明存在正相關,表明一個更好的選擇,但事實證明它不是真的。
這怎麼可能?
簡而言之,這是引入錯誤的人為因素。 這通常是由於沒有對應該測試的內容進行充分研究的結果。 在設計測試時必須考慮許多可能的變量,您只需錯過一個,您的測試假設就會出錯。
如果一切都是平等的,不受外界影響,這個 A/B 測試的結果將提供正確的結果。 如果你發現自己處於這個位置,你錯過了一些東西,或者你讓外部因素影響了結果。
最終,您的科學方法存在缺陷,關鍵是,您作為測試人員沒有考慮到這一點。
為什麼拆分測試失敗?
- 你的人設太寬泛了
- 您的樣本量太小
- 你在測試錯誤的東西
- 您的測試時間太短
什麼是類型 2 錯誤 - 假陰性?
讓我們使用上述相同的場景,原始 (A) (控制) 與新變體 (B)。 在這種情況下,結果顯示兩者之間的轉換沒有變化。 在這種情況下,您可能會根據個人喜好等其他因素決定保留原版或切換到新版本。
在這種情況下,零假設(定義如下)被認為是正確的(不正確的)。
測試存在缺陷,版本 B 是一個更好的選擇,因此該場景可能會導致一個不正確的決定。 這種情況下的問題是,您可能永遠不會知道版本 B 更好。 除非您在重新測試之前消除錯誤。
類型 2 錯誤是指原假設(無差異)被認為是正確的——不正確。
測試意義
在運行測試之前,您需要計算測試的顯著性水平。 在這裡,您決定什麼結果決定成功。
一般來說,這應該基於Null Hypothesis,這是兩者之間沒有顯著差異的默認位置。
你認為與這個立場有什麼積極的偏差是顯著的? 一般的共識是,您應該繼續測試,直到您的統計顯著性至少達到 90%,但最好是 95% 或更高,然後再根據它做出決定,或者換句話說,您對結果的信心超過 95%。
另一個必須考慮的因素是樣本量。 樣本量越小,誤差幅度越大。 這意味著隨著您的轉化率越來越高,您需要衡量改進的樣本量越小。
看看這個樣本量計算器來理解我的意思,看看你的 A/B 測試應該有多大的樣本量。
如何避免類型 1 和類型 2 錯誤?
- 通常一次只 A/B 測試一項更改
- 如果您有一個小型低流量網站,每月轉化量低於 1000 次,請不要進行 A/B 測試。 這不值得你花時間。
- 確保您正在測試正確的東西。