Открыть главное меню

Распределение хи-квадрат

Распределе́ние (хи-квадра́т) с степеня́ми свобо́ды — это распределение суммы квадратов независимых стандартных нормальных случайных величин.

Распределение . Распределение Пирсона
Chi-square distributionPDF.png Плотность вероятности
Chi-square distributionCDF.png Функция распределения
Обозначение или
Параметры — число степеней свободы
Носитель
Плотность вероятности
Функция распределения
Математическое ожидание
Медиана примерно
Мода если
Дисперсия
Коэффициент асимметрии
Коэффициент эксцесса
Дифференциальная энтропия

Производящая функция моментов , если
Характеристическая функция

ОпределениеПравить

Пусть   — совместно независимые стандартные нормальные случайные величины, то есть:  . Тогда случайная величина

 

имеет распределение хи-квадрат с   степенями свободы, то есть  , или, если записать по-другому:

 .

Распределение хи-квадрат является частным случаем гамма-распределения, и его плотность имеет вид:

 ,

где   означает гамма-распределение, а   — гамма-функцию.

Функция распределения имеет следующий вид:

 ,

где   и   обозначают соответственно полную и неполную гамма-функции.

Свойства распределения хи-квадратПравить

 .
  • Из определения легко получить моменты распределения хи-квадрат. Если  , то
 ,
 .
  • В силу центральной предельной теоремы, при большом числе степеней свободы распределение случайной величины   может быть приближено нормальным  . Более точно
  по распределению при  .

Связь с другими распределениямиПравить

  • Если   независимые нормальные случайные величины, то есть:   известно, то случайная величина
 

имеет распределение  .

 .
  • Если  , тогда  распределение Эрланга.
  • Если   и  , то случайная величина
 

имеет распределение Фишера со степенями свободы  .

  •   (нецентральное хи-квадрат распределение с параметром нецентральности  )
  • Если   и  , тогда  . (гамма-распределение)
  • Если  , тогда   (хи распределение)
  • Если   (распределение Рэлея), тогда  
  • Если   (распределение Максвелла) , тогда  
  • Если   и   независимы, тогда   - (бета-распределение)
  • Если   - (равномерное распределение), тогда  
  •   - преобразование распределения Лапласа
  • Если  , тогда  
  • хи-квадрат распределение - преобразование распределения Парето
  • t-распределение - преобразование распределения хи-квадрат
  • t-распределение может быть пролучено из распределения хи-квадрат и нормального распределения
  • Если   и   — независимы, тогда  . Если   и   не являются независимыми, тогда   не распределено по закону хи-квадрат.

Вариации и обобщениеПравить

Дальнейшим обобщением распределения хи-квадрат является так называемое нецентральное распределение хи-квадрат[en], возникающее в некоторых задачах статистики.

КвантилиПравить

Квантиль — это число (аргумент), на котором функция распределения равна заданной, требуемой вероятности. Грубо говоря, квантиль — это результат обращения функции распределения, но есть тонкости с разрывными функциями распределения.

ИсторияПравить

Критерий   был предложен Карлом Пирсоном в 1900 году.[1] Его работа рассматривается как фундамент современной математической статистики. Предшественники Пирсона просто строили графики экспериментальных результатов и утверждали, что они правильны. В своей статье Пирсон привёл несколько интересных примеров злоупотреблений статистикой. Он также доказал, что некоторые результаты наблюдений за рулеткой (на которой он проводил эксперименты в течение двух недель в Монте-Карло в 1892 году) были так далеки от ожидаемых частот, что шансы получить их снова при предположении, что рулетка устроена добросовестно, равны одному из 1029.

Общее обсуждение критерия   и обширную библиографию можно найти в обзорной работе Вильяма Дж. Кокрена.[2]

ПриложенияПравить

Распределение хи-квадрат имеет многочисленные приложения при статистических выводах, например при использовании критерия хи-квадрат и при оценках дисперсий. Он входит в проблему оценки среднего нормально распределённой т и проблему оценки наклона линии регрессии через роль в распределении Стьюдента. Он входит в проблемы дисперсионного анализа.

Далее приведены примеры ситуаций, в которых хи-квадрат распределение возникает из нормальных выборок:

Название Статистика
хи-квадрат распределение  
нецентральное хи-квадрат распределение  
хи распределение  
нецентральное хи распределение  

Распределение хи-квадрат также часто встречается в магнитно-резонансной томографии.[3]

Таблица значений χ2 и p-значенийПравить

P-значение — вероятность получить для данной вероятностной модели распределения значений случайной величины такое же или более экстремальное значение статистики, по сравнению с наблюдаемым, при условии верности нулевой гипотезы. В данном случае это распределение χ2. Так как значение функции распределения в точке для соответствующих степеней свободы дает вероятность получить значение статистики менее экстремальное чем эта точка, p-значение можно получить, если отнять от единицы значение функции распределения. Малое p-значение, ниже выбранного уровня значимости, означает статистическую значимость - этого будет достаточно, чтобы отвергнуть нулевую гипотезу. Чтобы различать значимые и незначимые результаты, обычно используют уровень 0.05.

В таблице даны p-значения для соответствующих значений   у первых десяти степеней свободы.

Степени свободы (df) значение   [4]
1 0.004 0.02 0.06 0.15 0.46 1.07 1.64 2.71 3.84 6.63 10.83
2 0.10 0.21 0.45 0.71 1.39 2.41 3.22 4.61 5.99 9.21 13.82
3 0.35 0.58 1.01 1.42 2.37 3.66 4.64 6.25 7.81 11.34 16.27
4 0.71 1.06 1.65 2.20 3.36 4.88 5.99 7.78 9.49 13.28 18.47
5 1.14 1.61 2.34 3.00 4.35 6.06 7.29 9.24 11.07 15.09 20.52
6 1.63 2.20 3.07 3.83 5.35 7.23 8.56 10.64 12.59 16.81 22.46
7 2.17 2.83 3.82 4.67 6.35 8.38 9.80 12.02 14.07 18.48 24.32
8 2.73 3.49 4.59 5.53 7.34 9.52 11.03 13.36 15.51 20.09 26.12
9 3.32 4.17 5.38 6.39 8.34 10.66 12.24 14.68 16.92 21.67 27.88
10 3.94 4.87 6.18 7.27 9.34 11.78 13.44 15.99 18.31 23.21 29.59
p-значение 0.95 0.90 0.80 0.70 0.50 0.30 0.20 0.10 0.05 0.01 0.001

Эти значения могут быть вычислены через квантиль (обратную функцию распределения) хи-квадрат распределения;[5] Например, квантиль   для p = 0.05 и df = 7 дает  =14.06714 ≈ 14.07, как в таблице сверху.

См. такжеПравить

ПримечанияПравить

  1. Karl Pearson. On the criterion that a given system of deviations from the probable in the case of a correlated system of variables is such that it can be reasonably supposed to have arisen from random sampling (англ.) // Philosophical Magazine, Series 5 : journal. — Vol. 50, no. 302. — P. 157—175. — DOI:10.1080/14786440009463897.
  2. William G. Cochran. The   Test of Goodness of Fit (неопр.) // Annals Math. Stat.. — 1952. — Т. 23, № 3. — С. 315—345.
  3. den Dekker A. J., Sijbers J., (2014) "Data distributions in magnetic resonance images: a review", Physica Medica, [1]
  4. Chi-Squared Test Table B.2. Dr. Jacqueline S. McLaughlin at The Pennsylvania State University. In turn citing: R. A. Fisher and F. Yates, Statistical Tables for Biological Agricultural and Medical Research, 6th ed., Table IV. Two values have been corrected, 7.82 with 7.81 and 4.60 with 4.61
  5. R Tutorial: Chi-squared Distribution