A/B-тестирование: что такое ошибки 1-го и 2-го типа и как их избежать
Опубликовано: 2019-05-20Одной из основных причин проведения A/B-тестирования является получение поддающихся проверке результатов, которые можно воспроизвести. Единственный способ добиться этого — использовать научные методы. Цель состоит в том, чтобы получить объективную истину, свободную от догадок, предположений и каких-либо личных чувств относительно того, какой вариант лучше.
Однако иногда тестировщики допускают ошибки, и их легко не заметить, что приводит к плохим результатам. Когда маркетологи проводят A/B-тестирование или многовариантное тестирование во время работы по оптимизации коэффициента конверсии, каждое тестирование подвержено нескольким возможным типам ошибок. Распространенными типами ошибок являются ошибка типа 1 и ошибка типа 2.
Несмотря на то, насколько простыми инструментами является A/B-тестирование, вы, как пользователь, должны понимать как научную методологию, так и то, как интерпретировать результаты, чтобы избежать принятия неправильных решений.
Ваша работа заключается в разработке тестов, и именно здесь обычно возникают ошибки в экспериментальном плане. Ни один инструмент A/B-тестирования не может обнаружить эти ошибки. Вы должны обнаружить их, когда они действительно происходят, или, скорее, предотвратить их появление в первую очередь.
Так что же это за ошибки, в чем разница между ошибкой типа 1 и ошибкой типа 2 и как избежать ошибки типа 1 и ошибки типа 2?
Давай выясним!
Что такое ошибка 1 рода — ложное срабатывание?
Ложное срабатывание может произойти при тестировании нового наложения всплывающего окна (вариант B) по сравнению с исходным элементом управления (вариант A). Вы решаете изменить фоновое изображение на более эмоциональное.
После 10 дней работы варианта А и варианта Б вы проверяете результат. Результаты кажутся ясными, показывая значительное улучшение конверсии. Следовательно, A/B-тестирование завершается, и вариант B реализуется как победитель.
Однако через несколько месяцев результаты оказались не лучше оригинала, а даже хуже.
Это пример ложного срабатывания и ошибки первого рода.
Ошибка 1-го типа — это экспериментально проверенный результат, результат, который предполагает положительную корреляцию, указывающую на лучший вариант, который оказался неверным.
Как это возможно?
Проще говоря, человеческий фактор вносит ошибки. Часто это результат недостаточного исследования того, что следует тестировать. Есть много возможных переменных, которые необходимо учитывать при разработке тестов, вам нужно всего лишь пропустить одну из них, чтобы ваша тестовая гипотеза оказалась неверной.
Если бы все было равным, свободным от внешних влияний, результаты этого A/B-теста дали бы правильные результаты. Если вы оказались в таком положении, значит, вы что-то упустили или позволили внешним факторам повлиять на результаты.
В конце концов, в вашем научном методе была ошибка, суть в том, что ВЫ, как тестер, этого не учитывали.
Почему сплит-тесты не работают?
- Ваша персона слишком широка
- Размер вашей выборки слишком мал
- Вы тестируете не ту вещь
- Продолжительность вашего теста слишком мала
Что такое ошибка 2 рода — ложноотрицательный результат?
Давайте поработаем с тем же сценарием, что и выше, исходный (A) (контрольный) и новый вариант (B). В этом случае результат показывает отсутствие изменений в конверсии между ними. В этом случае вы можете решить оставить исходную версию или перейти на новую версию, исходя из других факторов, таких как личные предпочтения.
В этом случае Нулевая Гипотеза (определение ниже) считается правильной (неверной).
Тест был ошибочным, а версия B была гораздо лучшим вариантом, поэтому сценарий потенциально может привести к неверному решению. Проблема в этом сценарии заключается в том, что вы, вероятно, никогда не узнаете, что версия B лучше. Это если вы не устраните ошибку до повторного тестирования.
Ошибка 2-го рода — это когда нулевая гипотеза (отсутствие различий) считается верной — неверно.
Значение тестирования
Перед запуском теста необходимо рассчитать, каким должен быть уровень значимости теста. Здесь вы решаете, какой результат определяет успех.
Как правило, это должно быть основано на нулевой гипотезе, которая является позицией по умолчанию, согласно которой между ними нет существенной разницы.
Какое положительное отклонение от этой позиции вы считаете значительным? Общее мнение заключается в том, что вы должны продолжать тестирование до тех пор, пока ваша статистическая значимость не составит не менее 90 %, но предпочтительно 95 % или выше, прежде чем принимать решение на его основе, или, другими словами, ваша уверенность в результате не превысит 95 %.
Еще одним фактором, который необходимо учитывать, является размер выборки. Чем меньше размер выборки, тем больше погрешность. Это означает, что чем выше ваши коэффициенты конверсии, тем меньше размер выборки, необходимый для измерения улучшения.
Посмотрите этот калькулятор размера выборки, чтобы понять, что я имею в виду, и узнать, какой размер выборки должен быть у вашего A/B-теста.
Как избежать ошибок первого и второго рода?
- Как правило, A/B-тестирование проводится только по одному изменению за раз.
- Не проводите A/B-тестирование, если у вас небольшой веб-сайт с низким трафиком и объемом конверсий ниже 1000 в месяц. Это просто не стоит вашего времени.
- Убедитесь, что вы тестируете правильную вещь.