Pengujian A/B: Apa Itu Kesalahan Tipe 1 dan Tipe 2 dan Bagaimana Menghindarinya
Diterbitkan: 2019-05-20Salah satu alasan utama untuk melakukan pengujian A/B adalah untuk mendapatkan hasil yang dapat diverifikasi dan dapat diulang. Satu-satunya cara untuk mencapai ini adalah dengan menggunakan metode ilmiah. Tujuannya adalah untuk mendapatkan kebenaran objektif – bebas dari dugaan, dugaan, dan perasaan pribadi apa pun tentang variasi mana yang terbaik.
Namun, terkadang penguji membuat kesalahan dan ini dapat dengan mudah diabaikan karena membawa hasil yang buruk. Saat pemasar melakukan pengujian A/B atau pengujian multivarian selama pekerjaan pengoptimalan tingkat konversi mereka, setiap pengujian tunduk pada beberapa kemungkinan jenis kesalahan. Jenis kesalahan yang umum adalah kesalahan tipe 1 dan kesalahan tipe 2.
Terlepas dari betapa mudahnya alat membuat pengujian A/B, Anda sebagai pengguna harus memahami metodologi ilmiah dan cara menginterpretasikan hasil untuk menghindari pengambilan keputusan yang buruk.
Adalah tugas Anda untuk merancang tes, dan di sinilah kesalahan cenderung muncul, dalam desain eksperimental. Tidak ada alat pengujian A/B yang dapat mendeteksi kesalahan ini. Terserah Anda untuk melihat mereka ketika itu terjadi, atau lebih tepatnya mencegahnya terjadi di tempat pertama.
Jadi apa kesalahan ini, apa perbedaan antara kesalahan tipe 1 dan tipe 2, dan bagaimana cara menghindari kesalahan tipe 1 dan kesalahan tipe 2?
Mari kita cari tahu!
Apa yang dimaksud dengan kesalahan tipe 1 - positif palsu?
Positif palsu dapat terjadi saat menguji hamparan munculan baru (variasi B) vs kontrol asli (variasi A). Anda memutuskan untuk mengubah gambar latar belakang untuk menguji yang lebih emosional.
Setelah 10 hari menjalankan variasi A vs variasi B, Anda memeriksa hasilnya. Hasilnya tampak jelas, menunjukkan peningkatan besar dalam konversi. Akibatnya, pengujian A/B selesai dan variasi B diterapkan sebagai pemenang.
Namun setelah beberapa bulan, hasilnya tidak lebih baik dari aslinya, bahkan lebih buruk.
Ini adalah contoh kesalahan positif palsu dan kesalahan tipe 1.
Kesalahan tipe 1 adalah hasil yang diuji secara eksperimental, hasil yang menunjukkan korelasi positif, yang menunjukkan opsi unggul yang ternyata tidak benar.
Bagaimana ini mungkin?
Sederhananya, itu adalah faktor manusia yang menyebabkan kesalahan. Seringkali ini adalah hasil dari tidak melakukan penelitian yang memadai tentang apa yang harus diuji. Ada banyak kemungkinan variabel yang harus diperhitungkan saat merancang tes, Anda hanya perlu melewatkan satu agar hipotesis pengujian Anda salah.
Jika semuanya sama, bebas dari pengaruh luar, hasil tes A/B ini akan memberikan hasil yang benar. Jika Anda menemukan diri Anda dalam posisi ini, Anda melewatkan sesuatu atau Anda membiarkan faktor eksternal mempengaruhi hasil.
Pada akhirnya ada kekurangan dalam metode ilmiah Anda, intinya adalah, ANDA sebagai penguji tidak memperhitungkannya.
Mengapa tes split gagal?
- Kepribadianmu terlalu luas
- Ukuran sampel Anda terlalu kecil
- Anda menguji hal yang salah
- Durasi tes Anda terlalu pendek
Apa yang dimaksud dengan kesalahan tipe 2 - negatif palsu?
Mari kita bekerja dengan skenario yang sama di atas, yang asli (A) (kontrol) vs variasi baru (B). Dalam hal ini, hasilnya tidak menunjukkan perubahan konversi di antara keduanya. Dalam hal ini, Anda dapat memutuskan untuk menyimpan yang asli atau beralih ke versi baru, berdasarkan faktor lain seperti preferensi pribadi.
Dalam hal ini, Hipotesis Null (definisi di bawah) dianggap benar (salah).
Tes itu cacat dan versi B adalah pilihan yang jauh lebih baik, sehingga skenario berpotensi mengarah pada keputusan yang salah. Masalah dalam skenario ini adalah kemungkinan Anda tidak akan pernah tahu bahwa versi B lebih baik. Itu kecuali Anda menghilangkan kesalahan sebelum menguji ulang.
Kesalahan tipe 2 adalah ketika hipotesis nol (tidak ada perbedaan) dianggap benar – salah.
Menguji signifikansi
Sebelum menjalankan pengujian, Anda perlu menghitung tingkat signifikansi yang seharusnya untuk pengujian. Di sini Anda memutuskan hasil apa yang menentukan kesuksesan.
Umumnya, ini harus didasarkan pada Hipotesis Null, yang merupakan posisi default bahwa tidak ada perbedaan yang signifikan antara keduanya.
Penyimpangan positif apa dari posisi ini yang Anda anggap signifikan? Konsensus umum adalah bahwa Anda harus terus menguji sampai signifikansi statistik Anda setidaknya 90% tetapi sebaiknya 95% atau lebih sebelum membuat keputusan berdasarkan itu, atau dengan kata lain kepercayaan Anda pada hasilnya lebih dari 95%.
Faktor lain yang harus diperhatikan adalah ukuran sampel. Semakin kecil ukuran sampel semakin besar margin of error. Artinya, saat rasio konversi Anda semakin tinggi, semakin kecil ukuran sampel yang Anda perlukan untuk mengukur peningkatan.
Lihat kalkulator ukuran sampel ini untuk memahami apa yang saya maksud dengan ini dan untuk melihat ukuran sampel apa yang harus dimiliki pengujian A/B Anda.
Bagaimana cara menghindari kesalahan tipe 1 dan tipe 2?
- Umumnya hanya uji A/B satu perubahan pada satu waktu
- Jangan uji A/B jika Anda memiliki situs web kecil dengan lalu lintas rendah, dengan volume konversi di bawah 1000 per bulan. Itu tidak sepadan dengan waktu Anda.
- Pastikan Anda menguji hal yang benar.