اختبار A / B: ما هو الخطأ من النوع 1 والنوع 2 وكيفية تجنبه
نشرت: 2019-05-20أحد الأسباب الرئيسية لإجراء اختبار A / B هو الحصول على نتائج يمكن التحقق منها وقابلة للتكرار. الطريقة الوحيدة لتحقيق ذلك هي استخدام الأساليب العلمية. الهدف هو الحصول على الحقيقة الموضوعية - خالية من التخمين والتخمين وأي مشاعر شخصية يكون الاختلاف فيها أفضل.
ومع ذلك ، في بعض الأحيان يرتكب المختبرين أخطاء ويمكن التغاضي عنها بسهولة مما يؤدي إلى نتائج سيئة. عندما يقوم المسوقون بإجراء اختبار A / B أو اختبار متعدد المتغيرات أثناء عمل تحسين معدل التحويل ، فإن كل اختبار يخضع لعدة أنواع محتملة من الأخطاء. الأنواع الشائعة من الأخطاء هي خطأ من النوع 1 وخطأ من النوع 2.
على الرغم من سهولة استخدام الأدوات لاختبار A / B ، يجب عليك كمستخدم فهم المنهجية العلمية وكيفية تفسير النتائج لتجنب اتخاذ قرارات سيئة.
إن مهمتك هي تصميم الاختبارات ، وهذا هو المكان الذي تظهر فيه الأخطاء ، داخل التصميم التجريبي. لا توجد أداة اختبار A / B يمكنها اكتشاف هذه الأخطاء. الأمر متروك لك لتحديدها عند حدوثها ، أو بالأحرى منعها من الحدوث في المقام الأول.
إذن ما هي هذه الأخطاء ، وما الفرق بين الخطأ من النوع 1 والنوع 2 ، وكيفية تجنب الخطأ من النوع 1 والنوع 2؟
هيا نكتشف!
ما هو الخطأ من النوع 1 - الإيجابي الكاذب؟
يمكن أن تحدث إيجابية خاطئة عند اختبار تراكب منبثق جديد (الشكل ب) مقابل عنصر التحكم الأصلي (الشكل أ). قررت تغيير صورة الخلفية لاختبار صورة أكثر عاطفية.
بعد 10 أيام من تشغيل الصيغة "أ" في مقابل الصيغة "ب" ، يمكنك التحقق من النتيجة. تبدو النتائج واضحة ، وتُظهر تحسنًا كبيرًا في التحويل. وبالتالي ، يتم الانتهاء من اختبار A / B ويتم تنفيذ الشكل B باعتباره الفائز.
لكن بعد عدة أشهر ، لم تكن النتائج أفضل من النسخة الأصلية ، بل كانت في الواقع أسوأ.
هذا مثال على خطأ موجب كاذب وخطأ من النوع 1.
الخطأ من النوع الأول هو نتيجة مختبرة تجريبياً ، نتيجة تشير إلى وجود علاقة إيجابية ، مما يشير إلى خيار أفضل اتضح أنه غير صحيح.
كيف يكون هذا ممكنا؟
ببساطة ، إنه العامل البشري الذي يتسبب في حدوث أخطاء. غالبًا ما يكون هذا نتيجة عدم إجراء بحث كافٍ حول ما يجب اختباره. هناك العديد من المتغيرات المحتملة التي يجب أخذها في الاعتبار عند تصميم الاختبارات ، ما عليك سوى أن تفوتك واحدة حتى تكون فرضية الاختبار الخاصة بك خاطئة.
إذا كانت كل الأشياء متساوية ، وخالية من التأثيرات الخارجية ، فإن نتائج اختبار A / B هذا ستوفر النتائج الصحيحة. إذا وجدت نفسك في هذا الموقف ، فقد فاتك شيء أو تركت العوامل الخارجية تؤثر على النتائج.
في النهاية كان هناك عيب في طريقتك العلمية ، النقطة المهمة هي أنك أنت لأن المختبر لم يأخذ في الحسبان ذلك.
لماذا تفشل اختبارات الانقسام؟
- شخصيتك واسعة جدًا
- حجم عينتك صغير جدًا
- أنت تختبر الشيء الخطأ
- مدة اختبارك قصيرة جدًا
ما هو الخطأ من النوع 2 - الخطأ السلبي؟
دعونا نعمل مع نفس السيناريو أعلاه ، الأصلي (أ) (التحكم) مقابل الشكل الجديد (ب). في هذه الحالة ، لا تظهر النتيجة أي تغيير في التحويل بين الاثنين. في هذه الحالة ، قد تقرر الاحتفاظ بالنسخة الأصلية أو التبديل إلى الإصدار الجديد ، بناءً على عوامل أخرى مثل التفضيل الشخصي.
في هذه الحالة ، تعتبر فرضية Null (التعريف أدناه) صحيحة (بشكل غير صحيح).
كان الاختبار معيبًا وكان الإصدار B خيارًا أفضل بكثير ، وبالتالي من المحتمل أن يؤدي السيناريو إلى قرار غير صحيح. تكمن المشكلة في هذا السيناريو في أنه من المحتمل ألا تعرف أبدًا أن الإصدار B كان أفضل. هذا ما لم تقم بإزالة الخطأ قبل إعادة الاختبار.
الخطأ من النوع 2 هو عندما تعتبر الفرضية الصفرية (لا فرق) صحيحة - بشكل غير صحيح.
اختبار الأهمية
قبل إجراء الاختبار ، تحتاج إلى حساب مستوى الأهمية الذي يجب أن يكون عليه الاختبار. هنا أنت تقرر ما هي النتيجة التي تحدد النجاح.
بشكل عام ، يجب أن يعتمد هذا على فرضية Null ، وهي الوضع الافتراضي الذي لا يوجد فيه فرق كبير بين الاثنين.
ما هو الانحراف الإيجابي عن هذا الموقف الذي يجب أن تعتبره مهمًا؟ الإجماع العام هو أنه يجب عليك الاستمرار في الاختبار حتى تصل دلالاتك الإحصائية إلى 90٪ على الأقل ولكن يفضل 95٪ أو أكثر قبل اتخاذ قرار بناءً عليه ، أو بعبارة أخرى ، تزيد ثقتك بالنتيجة عن 95٪.
عامل آخر يجب مراعاته هو حجم العينة. كلما كان حجم العينة أصغر كلما زاد هامش الخطأ. ما يعنيه هذا هو أنه كلما زادت معدلات التحويل ، قل حجم العينة التي تحتاجها لقياس التحسن.
تحقق من هذه الآلة الحاسبة لحجم العينة لفهم ما أعنيه بهذا ولمعرفة حجم العينة الذي يجب أن يحتوي عليه اختبار أ / ب.
كيف تتجنب أخطاء النوع 1 والنوع 2؟
- بشكل عام ، يختبر A / B فقط تغييرًا واحدًا في كل مرة
- لا تختبر أ / ب إذا كان لديك موقع ويب صغير منخفض الحركة ، مع حجم تحويل أقل من 1000 في الشهر. انها فقط لا تستحق وقتك.
- تأكد من أنك تختبر الشيء الصحيح.