t-критерий Уэлча — тест, основанный на распределении Стьюдента и предназначенный для проверки статистической гипотезы о равенстве математических ожиданий случайных величин, имеющих необязательно равные известные дисперсии. Является модификацией t-критерия Стьюдента. Назван в честь британского статистика Бернарда Льюиса Уэлча.
Для применения двухвыборочного t-критерия Стьюдента необходимо, чтобы истинные дисперсии были равны. В случае t-критерия Уэлча истинные дисперсии уже могут быть не равны, но предпосылка о нормальном распределении средних сохраняется.
Пусть даны две независимые выборки нормально распределённых случайных величин:
Проверяем следующую нулевую гипотезу о равенстве математический ожиданий:
Пусть нулевая гипотеза верна. Тогда и . Пусть и — несмещенные оценки дисперсий и соответственно. Рассчитаем следующую статистику:
Сделаем следующее преобразование:
Распределение первой статистики является стандартным нормальным распределением:
Рассмотрим вторую статистику и для дальнейших вычислений назовем её :
Статистика напоминает случайную величину с распределением хи-квадрат, поделенную на степень свободы, но таковой не является. Пусть является случайной величиной с распределением хи-квадрат с степенями свободы. Тогда , равно как и . Теперь заметим, что (так как мы используем несмещенные оценки дисперсий), а .
Раз мы хотим, чтобы была максимально похожа на , то приравняем дисперсии данных случайных величин:
Рассчитаем дисперсию случайной величины :
Отсюда:
В конечном итоге имеем при справедливости нулевой гипотезы:
,
где находится как:
При достаточно больших объёмах выборок мы можем воспользоваться нормальной аппроксимацией:
Двухвыборочный t-критерий Уэлча для независимых выборок
Пусть даны две независимые выборки нормально распределённых случайных величин:
При нулевой гипотезе мы рассчитываем следующую статистику:
Пусть альтернативная гипотеза .
При справедливости нулевой гипотезы распределение будет приблизительно являться распределением Стьюдента с степенями свободы:
,
где находится как:
Следовательно, при превышении значения наблюдаемой статистики по абсолютной величине критического значения данного распределения (при заданном уровне значимости) нулевая гипотеза отвергается.
Для всех трех примеров математические ожидания будут равны и соответственно.
В первом примере истинные дисперсии равны () и объёмы выборок равны (). Обозначим за и как соответствующие случайные выборки:
Во втором примере истинные дисперсии неравны (, ) и неравные объёмы у выборок (,). У меньшей выборки большая дисперсия:
В третьем примере истинные дисперсии неравны (, ) и неравные объёмы у выборок (,). У большей выборки большая дисперсия:
Выборка
Выборка
t-критерий Стьюдента
t-критерий Уэлча
Пример
-value
-value
-value
-value
1
15
20.29
4.61
15
22.67
4.35
-3.07
28
0.005
0.005
−3.07
28.0
0.005
0.004
2
10
21.10
21.01
20
22.22
1.04
−1.06
28
0.299
0.465
−0.76
9.57
0.464
0.459
3
10
20.27
1.31
20
22.89
16.69
−1.97
28
0.059
0.015
−2.66
23.28
0.014
0.018
Для равных дисперсий и равных объёмов выборок t-критерий Стьюдента и t-критерий Уэлча выдали примерно одинаковый результат (пример 1). Для неравных дисперсий t-критерий Уэлча точнее оценивает истинное распределение статистики, чем t-критерий Стьюдента (-value для t-критерия Уэлча ближе к моделированной -value, чем для t-критерия Стьюдента).
Если неизвестно, равны ли дисперсии двух генеральных совокупностей, крайне не рекомендуется проводить пре-тесты для определения равенства дисперсий, а лучше сразу использовать t-критерий Уэлча.[1]