T-критерий Стьюдента: различия между версиями

[отпатрулированная версия][отпатрулированная версия]
Содержимое удалено Содержимое добавлено
м VanyaTihonov переименовал страницу T-Критерий Стьюдента в T-критерий Стьюдента поверх перенаправления
м пунктуация, ёфикация
Строка 2:
'''t-критерий Стьюдента''' — общее название для класса методов [[Математическая статистика|статистической]] проверки [[Статистическая гипотеза|гипотез]] ([[статистический критерий|статистических критериев]]), основанных на [[Распределение Стьюдента|распределении Стьюдента]]. Наиболее частые случаи применения t-критерия связаны с проверкой равенства средних значений в двух [[выборка]]х.
 
''t''-статистика строится обычно по следующему общему принципу: в числителе случайная величина с нулевым математическим ожиданием (при выполнении [[Нулевая гипотеза|нулевой гипотезы]]), а в знаменателе — выборочное стандартное отклонение этой случайной величины, получаемое как квадратный корень из несмещённой оценки дисперсии.
 
== История ==
Строка 10:
Для применения данного критерия необходимо, чтобы исходные данные имели [[нормальное распределение]]. В случае применения двухвыборочного критерия для [[выборка|независимых выборок]] также необходимо соблюдение условия равенства [[дисперсия случайной величины|дисперсий]]. Существуют, однако, альтернативы критерию Стьюдента для ситуации с неравными дисперсиями.
 
Требование нормальности распределения данных является необходимым для точного <math>t</math>-теста. Однако, даже при других распределениях данных возможно использование <math>t</math>-статистики. Во многих случаях эта статистика асимптотически имеет стандартное нормальное распределение — <math>N(0,1)</math>, поэтому можно использовать квантили этого распределения. Однако, часто даже в этом случае используют квантили не стандартного нормального распределения, а соответствующего распределения Стьюдента, как в точном <math>t</math>-тесте. Асимптотически они эквивалентны, однако на малых выборках доверительные интервалы распределения Стьюдента шире и надежнеенадёжнее.
 
При несоблюдении этих условий при сравнении выборочных средних должны использоваться аналогичные методы ''непараметрической статистики'', среди которых наиболее известными являются [[U-критерий Манна — Уитни]] (в качестве двухвыборочного критерия для независимых выборок), а также [[критерий знаков]] и [[критерий Уилкоксона]] (используются в случаях зависимых выборок).
Строка 17:
Применяется для проверки нулевой гипотезы <math>H_0:E(X)=m</math> о равенстве математического ожидания <math>E(X)</math> некоторому известному значению <math>m</math>.
 
Очевидно, при выполнении нулевой гипотезы <math>E(\overline X)=m</math>. С учётом предполагаемой независимости наблюдений <math>V(\overline X)=\sigma^2/n</math>. Используя несмещеннуюнесмещённую оценку дисперсии <math>s^2_X=\sum^n_{t=1} (X_t-\overline X)^2/(n-1)</math> получаем следующую t-статистику:
 
<center>
<math>t = \frac{\overline X - m}{s_X / \sqrt{n}}.</math>
</center>
 
Строка 26:
 
== Двухвыборочный t-критерий для независимых выборок ==
Пусть имеются две независимые выборки объемамиобъёмами <math>n_1~,~n_2</math> нормально распределенныхраспределённых случайных величин <math>X_1,~X_2</math>. Необходимо проверить по выборочным данным нулевую гипотезу равенства математических ожиданий этих случайных величин <math>H_0:~M_1=M_2</math>.
 
Рассмотрим разность выборочных средних <math>\Delta =\overline X_1 - \overline X_2</math>. Очевидно, если нулевая гипотеза выполнена, <math>E(\Delta)=M_1-M_2=0</math>. ДисперсияИсходя этойиз разностинезависимости равнавыборок исходядисперсия изэтой независимостиразности выборокравна: <math>V(\Delta)=\frac {\sigma^2_1}{n_1}+ \frac {\sigma^2_2}{n_2}</math>. Тогда, используя несмещеннуюнесмещённую оценку дисперсии <math>s^2=\frac {\sum^n_{t=1}(X_t-\overline X)^2}{n-1}</math>, получаем несмещеннуюнесмещённую оценку дисперсии разности выборочных средних: <math>s^2_{\Delta}=\frac {s^2_1}{n_1}+ \frac {s^2_2}{n_2}</math>. Следовательно, t-статистика для проверки нулевой гипотезы равна
 
<center><math> t = \frac{\overline X_1 - \overline X_2}{\sqrt{\frac{s_1^2}{n_1}+\frac{s_2^2}{n_2}}}. </math>
</center>
 
Эта статистика при справедливости нулевой гипотезы имеет распределение <math>t(df)</math>, где <math> df = \frac{(s_1^2/n_1 + s_2^2/n_2)^2}{(s_1^2/n_1)^2/(n_1-1) + (s_2^2/n_2)^2/(n_2-1)}</math>.
 
=== Случай одинаковой дисперсии ===
В случае, если дисперсии выборок предполагаются одинаковыми, то
<center><math>V(\Delta)=\sigma^2\left(\frac {1}{n_1}+ \frac {1}{n_2}\right).</math></center>
Тогда t-статистика равна:
<center><math> t = \frac{\overline X_1 - \overline X_2}{s_X \sqrt{\frac{1}{n_1}+\frac{1}{n_2}}} ~,~~s_X=\sqrt {\frac{(n_1 - 1)s_1^2 + (n_2 - 1)s_2^2}{n_1 + n_2 - 2}}.</math></center>
 
Эта статистика имеет распределение <math>t(n_1 + n_2 - 2)</math>.
 
== Двухвыборочный t-критерий для зависимых выборок ==
Для вычисления эмпирического значения <math>t</math>-критерия в ситуации проверки гипотезы о различиях между двумя зависимыми выборками (например, двумя пробами одного и того же теста с временным интервалом) применяется следующая формула:
 
<center><math>t = \frac {M_d}{s_d / \sqrt {n}},</math></center>
 
где <math>M_d</math> — средняя разность значений, <math>s_d</math> — стандартное отклонение разностей, а n — количество наблюдений.
 
Эта статистика имеет распределение <math> t(n - 1)</math>.
 
== Проверка линейного ограничения на параметры линейной регрессии ==
С помощью t-теста можно также проверить произвольное (одно) линейное ограничение на параметры линейной регрессии, оцененнойоценённой обычным методом наименьших квадратов. Пусть необходимо проверить гипотезу <math>H_0:c^Tb=a</math>. Очевидно, при выполнении нулевой гипотезы <math>E(c^T \hat b-a)=c^TE(\hat b)-a=0</math>. Здесь использовано свойство несмещенностинесмещённости МНК-оценок параметров модели <math>E(\hat b)=b</math>. Кроме того, <math>V(c^T \hat b-a)=c^TV(\hat b)c=\sigma^2 c^T(X^TX)^{-1}c</math>. Используя вместо неизвестной дисперсии её несмещеннуюнесмещённую оценку <math>s^2=ESS/(n-k)</math>, получаем следующую t-статистику:
 
<center> <math>t=\frac {c^T\hat b-a}{s \sqrt {c^T(X^TX)^{-1}c}}.</math></center>
 
Эта статистика при выполнении нулевой гипотезы имеет распределение <math>t(n-k)</math>, поэтому если значение статистики выше критического, то нулевая гипотеза о линейном ограничении отклоняется.
Строка 62:
Частным случаем линейного ограничения является проверка гипотезы о равенстве коэффициента <math>b_j</math> регрессии некоторому значению <math>a</math>. В этом случае соответствующая t-статистика равна:
 
<center><math>t=\frac {\hat{b}_j-a}{s_{\hat{b}_j}},</math></center>
 
где <math>s_{\hat{b}_j}</math> — стандартная ошибка оценки коэффициента — квадратный корень из соответствующего диагонального элемента ковариационной матрицы оценок коэффициентов.
 
При справедливости нулевой гипотезы распределение этой статистики — <math>t(n-k)</math>. Если значение статистики по абсолютной величине выше критического значения, то отличие коэффициента от <math>a</math> является статистически значимым (неслучайным), в противном случае — незначимым (случайным, то есть истинный коэффициент вероятно равен или очень близок к предполагаемому значению <math>a</math>).
 
=== Замечание ===
Одновыборочный тест для математических ожиданий можно свести к проверке линейного ограничения на параметры линейной регрессии. В одновыборочном тесте это «регрессия» на константу. Поэтому <math>s^2</math> регрессии и есть выборочная оценка дисперсии изучаемой случайной величины, матрица <math>X^TX</math> равна <math>n</math>, а оценка «коэффициента» модели равна выборочному среднему. Отсюда и получаем выражение для t-статистики, приведенноеприведённое выше для общего случая.
 
Аналогично можно показать, что двухвыборочный тест при равенстве дисперсий выборок также сводится к проверке линейных ограничений. В двухвыборочном тесте это «регрессия» на константу и фиктивную переменную, идентифицирующую подвыборку в зависимости от значения (0 или 1): <math>y=a + b D</math>. Гипотеза о равенстве математических ожиданий выборок может быть сформулирована как гипотеза о равенстве коэффициента b этой модели нулю. Можно показать, что соответствующая t-статистика для проверки этой гипотезы равна t-статистике, приведеннойприведённой для двухвыборочного теста.
 
Также к проверке линейного ограничения можно свести и в случае разных дисперсий. В этом случае дисперсия ошибок модели принимает два значения. Исходя из этого можно также получить t-статистику, аналогичную приведеннойприведённой для двухвыборочного теста.
 
== Непараметрические аналоги ==
Аналогом двухвыборочного критерия для независимых выборок является [[U-критерий Манна — Уитни]]. Для ситуации с зависимыми выборками аналогами являются [[критерий знаков]] и [[Критерий Уилкоксона|T-критерий Вилкоксона]].
 
== Литература ==