Распределение хи-квадрат: различия между версиями

[отпатрулированная версия][отпатрулированная версия]
Содержимое удалено Содержимое добавлено
викификация
оформление, уточнение
Строка 11:
mean =<math>k</math>|
median =примерно <math>k-2/3</math>|
mode =0 для <math>k<2,</math><br><math>k-2,</math> если <math>k\geq 2</math>|
variance =<math>2\,k</math>|
skewness =<math>\sqrt{8/k}</math>|
Строка 21:
}}
 
'''Распределе́ние <math>\chi^2</math> (хи-квадра́т) с <math>k</math> степеня́ми свобо́ды''' — это [[распределение вероятностей|распределение]] суммы квадратов <math>k</math> [[Независимость (теория вероятностей)|независимых]] [[нормальное распределение|стандартных нормальных]] [[случайная величина|случайных величин]].
 
== Определение ==
Строка 31:
 
Распределение хи-квадрат является частным случаем [[Гамма-распределение|гамма-распределения]], и его плотность имеет вид:
: <math>f_{\chi^2(k)}(x) \equiv \Gamma\!\left({k \over 2}, { 2}\right) = \frac{(1/2)^{k \over 2}}{\Gamma\!\left({k \over 2}\right)}\, x^{{k \over 2} - 1}\, e^{-\frac{x}{2}}</math>,
 
где <math>\Gamma\!\left({k/2}, 2\right)</math> означает гамма-распределение, а <math>\Gamma\!\left({k/2}\right)</math> — [[Гамма-функция|гамма-функцию]].
Строка 54:
* Если <math>k=2</math>, то распределение хи-квадрат совпадает с [[Экспоненциальное распределение|экспоненциальным распределением]]:
: <math> \chi^2(2) \equiv \mathrm{Exp}(1/2)</math>.
* Если <math>X \sim \chi^2(2k)</math>, тогда <math>X \sim \operatorname{Erlang}(k, 1/2)</math>  — [[распределение Эрланга]].
* Если <math>Y_1 \sim \chi^2(k_1)</math> и <math>Y_2 \sim \chi^2(k_2)</math>, то случайная величина
: <math>F = \frac{Y_1/k_1}{Y_2 / k_2}</math>
имеет [[распределение Фишера]] со степенями свободы <math>(k_1,k_2)</math>.
* <math> \chi_k^2 \sim {\chi'}^2_k(0)</math> ([[нецентральное хи-квадрат распределение]] с параметром нецентральности <math> \lambda = 0 </math>)
* Если <math>X \sim \chi^2(\nu)\,</math> и <math>c>0 \,</math>, тогда <math>cX \sim \Gamma(k=\nu/2, \theta=2c)\,</math>. ([[гамма-распределение]])
* Если <math>X \sim \chi^2_k</math>, тогда <math>\sqrt{X} \sim \chi_k</math> ([[хи распределение]])
* Если <math>X \sim \operatorname{Rayleigh}(1)\,</math> ([[распределение Рэлея]]), тогда <math>X^2 \sim \chi^2(2)\,</math>
* Если <math>X \sim \operatorname{Maxwell}(1)\,</math> ([[распределение Максвелла]]) , тогда <math>X^2 \sim \chi^2(3)\,</math>
* Если <math>X \sim \chi^2(\nu_1)\,</math> и <math>Y \sim \chi^2(\nu_2)\,</math> независимы, тогда <math>\tfrac{X}{X+Y} \sim \operatorname{Beta}(\tfrac{\nu_1}{2}, \tfrac{\nu_2}{2})\,</math> - — ([[бета-распределение]])
* Если <math> X \sim \operatorname{U}(0,1)\, </math> - — ([[равномерное распределение|равномерное распределение]]), тогда <math> -2\log(X) \sim \chi^2(2)\,</math>
* <math>\chi^2(6)\,</math> - — преобразование [[распределение Лапласа|распределения Лапласа]]
* Если <math>X_i \sim \operatorname{Laplace}(\mu,\beta)\,</math>, тогда <math>\sum_{i=1}^n \frac{2 |X_i-\mu|}{\beta} \sim \chi^2(2n)\,</math>
* хи-квадрат распределение - — преобразование [[распределение Парето|распределения Парето]]
* [[t-распределение]] - — преобразование распределения хи-квадрат
* [[t-распределение]] может быть пролучено из распределения хи-квадрат и [[нормальное распределение|нормального распределения]]
* Если <math>X_1 \sim \chi^2(k_1)</math> и <math>X_2 \sim \chi^2(k_2)</math>  — независимы, тогда <math>X_1 + X_2\sim \chi^2(k_1+k_2)</math>. Если <math>X_1</math> и <math>X_2</math> не являются независимыми, тогда <math>X_1+X_2</math> не распределено по закону хи-квадрат.
 
== Вариации и обобщение ==
Строка 80:
 
== История ==
[[Критерий согласия Пирсона|Критерий <math> \chi^2 </math> ]] был предложен [[Пирсон, Карл|Карлом Пирсоном]] в 1900 году.<ref>{{статья |автор=Pearson K. |заглавие=On the criterion that a given system of deviations from the probable in the case of a correlated system of variables is such that it can be reasonably supposed to have arisen from random sampling |издание=Philosophical Magazine, Series 5 |том=50 |номер=302 |страницы=157—175 |doi=10.1080/14786440009463897 |язык=en |тип=journal |автор=Karl Pearson}}</ref>. Его работа рассматривается как фундамент современной математической статистики. Предшественники Пирсона просто строили графики экспериментальных результатов и утверждали, что они правильны. В своей статье Пирсон привёл несколько интересных примеров злоупотреблений статистикой. Он также доказал, что некоторые результаты наблюдений за рулеткой (на которой он проводил эксперименты в течение двух недель в [[Монте-Карло]] в 1892 году) были так далеки от ожидаемых частот, что шансы получить их снова при предположении, что рулетка устроена добросовестно, равны одному из 10<sup>29</sup>.
 
Общее обсуждение критерия <math> \chi^2 </math> и обширную библиографию можно найти в обзорной работе Вильяма Дж. Кокрена.<ref>{{статья |автор=Cochran W. G. |заглавие=The <math> \chi^2</math> Test of Goodness of Fit |издание=Annals Math. Stat. |том=23 |номер=3 |страницы=315—345 |ссылка=https://www.jstor.org/stable/2236678 |язык=und |автор=William G. Cochranen |год=1952}}</ref>.
 
== Приложения ==
Распределение хи-квадрат имеет многочисленные приложения при статистических выводах, например при использовании [[критерий хи-квадрат|критерия хи-квадрат]] и при оценке дисперсий. Оно используется в проблеме оценивания среднего нормально распределённой популяции и проблеме оценивания наклона линии [[линейная регрессия|регрессии]] благодаря его роли в [[распределение Стьюдента|распределении Стьюдента]]. Оно используется в [[дисперсионный анализ|дисперсионном анализе]].
 
Далее приведены примеры ситуаций, в которых распределение хи-квадрат распределение возникает из нормальной выборки:
 
* если <math>X_1, ..., X_n</math>  — [[независимые одинаково распределённые случайные величины|независимые и одинаково распределенные]] по закону <math>N(\mu, \sigma^2)</math> [[случайные величины]], тогда <math>\sum_{i=1}^n(X_i - \overline X)^2 \sim \sigma^2 \chi^2_{n-1}</math>, где <math>\overline X = \frac{1}{n} \sum_{i=1}^n X_i.</math>.
* В таблице показаны некоторые [[статистика|статистики]], основанные на <math>X_i \sim N(\mu_i, \sigma^2_i), i = 1, ..., k</math> [[независимые случайные величины|независимых случайных величин]], распределения которых связаны с распределением хи-квадрат:
<center>
{| class="wikitable" align="center"
Строка 96:
! Название !! Статистика
|-
| распределение хи-квадрат распределение || <math>\sum_{i=1}^k \left(\frac{X_i-\mu_i}{\sigma_i}\right)^2</math>
|-
| [[нецентральное распределение хи-квадрат распределение]] || <math>\sum_{i=1}^k \left(\frac{X_i}{\sigma_i}\right)^2</math>
|-
| [[распределение хи распределение]] || <math>\sqrt{\sum_{i=1}^k \left(\frac{X_i-\mu_i}{\sigma_i}\right)^2}</math>
|-
| [[нецентральное хи распределение хи]] || <math>\sqrt{\sum_{i=1}^k \left(\frac{X_i}{\sigma_i}\right)^2}</math>
|}
</center>
Распределение хи-квадрат также часто встречается в [[Магнитно-резонансная томография|магнитно-резонансной томографии]].<ref>den Dekker A. J., Sijbers J., (2014) "Data distributions in magnetic resonance images: a review", ''Physica Medica'', [https://dx.doi.org/10.1016/j.ejmp.2014.05.002]</ref>
 
==Таблица значений ''χ''<sup>2</sup> и ''p''-значений==
P-значение — вероятность получить для данной вероятностной модели распределения значений случайной величины такое же или более экстремальное значение статистики, по сравнению с наблюдаемым, при условии верности нулевой гипотезы. В данном случае это распределение <math>\chi^2</math>. Так как значение [[функция распределения|функции распределения]] в точке для соответствующих степеней свободы дает вероятность получить значение статистики ''менее экстремальное'' чем эта точка, ''p''-значение можно получить, если отнять от единицы значение функции распределения. Малое ''p''-значение — ниже выбранного уровня значимости — означает [[статистическая значимость|статистическую значимость]]. Этого будет достаточно, чтобы отвергнуть нулевую гипотезу. Чтобы различать значимые и незначимые результаты, обычно используют уровень 0.05.
 
== Таблица значений {{math|''χ''<sup>2</sup>}} и {{math|''p''}}-значений ==
В таблице даны ''p''-значения для соответствующих значений <math> \chi^2 </math> у первых десяти степеней свободы.
Для любого числа {{math|''p''}} между 0 и 1 определено [[P-значение |{{math|''p''}}-значение]] — вероятность получить для данной вероятностной модели распределения значений случайной величины такое же или более экстремальное значение статистики (среднего арифметического, медианы и др.), по сравнению с наблюдаемым, при условии верности нулевой гипотезы. В данном случае это распределение <math>\chi^2</math>. Так как значение [[функция распределения|функции распределения]] в точке для соответствующих степеней свободы дает вероятность получить значение статистики ''менее экстремальное'', чем эта точка, {{math|''p''}}-значение можно получить, если отнять от единицы значение функции распределения. Малое {{math|''p''}}-значение  — ниже выбранного уровня значимости  — означает [[статистическая значимость|статистическую значимость]]. Этого будет достаточно, чтобы отвергнуть нулевую гипотезу. Чтобы различать значимые и незначимые результаты, обычно используют уровень 0.,05.
 
В таблице даны {{math|''p''}}-значения для соответствующих значений <math> \chi^2 </math> у первых десяти степеней свободы.
{| class="wikitable"
|-
! Степени свободы ({{math|df}})
!colspan=11| Значение <math> \chi^2 </math> <ref>[http://www2.lv.psu.edu/jxm57/irp/chisquar.html Chi-Squared Test] Table B.2. Dr. Jacqueline S. McLaughlin at The Pennsylvania State University. InЭтот turnисточник, в свою очередь, ссылается citingна: ''R. A. Fisher and F. Yates'', Statistical Tables for Biological Agricultural and Medical Research, 6th ed., Table IV. TwoДва valuesзначения haveбыли been correctedисправлены, 7.,82 withна 7.,81 andи 4.,60 withна 4.,61.</ref>
|-
| style="text-align:center;" | 1
| 0.,004
| 0.,02
| 0.,06
| 0.,15
| 0.,46
| 1.,07
| 1.,64
| 2.,71
| '''3.,84'''
| 6.,63
| 10.,83
|-
| style="text-align:center;" | 2
| 0.,10
| 0.,21
| 0.,45
| 0.,71
| 1.,39
| 2.,41
| 3.,22
| 4.,61
| '''5.,99'''
| 9.,21
| 13.,82
|-
| style="text-align:center;" | 3
| 0.,35
| 0.,58
| 1.,01
| 1.,42
| 2.,37
| 3.,66
| 4.,64
| 6.,25
| '''7.,81'''
| 11.,34
| 16.,27
|-
| style="text-align:center;" | 4
| 0.,71
| 1.,06
| 1.,65
| 2.,20
| 3.,36
| 4.,88
| 5.,99
| 7.,78
| '''9.,49'''
| 13.,28
| 18.,47
|-
| style="text-align:center;" | 5
| 1.,14
| 1.,61
| 2.,34
| 3.,00
| 4.,35
| 6.,06
| 7.,29
| 9.,24
| '''11.,07'''
| 15.,09
| 20.,52
|-
| style="text-align:center;" | 6
| 1.,63
| 2.,20
| 3.,07
| 3.,83
| 5.,35
| 7.,23
| 8.,56
| 10.,64
| '''12.,59'''
| 16.,81
| 22.,46
|-
| style="text-align:center;" | 7
| 2.,17
| 2.,83
| 3.,82
| 4.,67
| 6.,35
| 8.,38
| 9.,80
| 12.,02
| '''14.,07'''
| 18.,48
| 24.,32
|-
| style="text-align:center;" | 8
| 2.,73
| 3.,49
| 4.,59
| 5.,53
| 7.,34
| 9.,52
| 11.,03
| 13.,36
| '''15.,51'''
| 20.,09
| 26.,12
|-
| style="text-align:center;" | 9
| 3.,32
| 4.,17
| 5.,38
| 6.,39
| 8.,34
| 10.,66
| 12.,24
| 14.,68
| '''16.,92'''
| 21.,67
| 27.,88
|-
| style="text-align:center;" | 10
| 3.,94
| 4.,87
| 6.,18
| 7.,27
| 9.,34
| 11.,78
| 13.,44
| 15.,99
| '''18.,31'''
| 23.,21
| 29.,59
|-
! scope="row" style="text-align:right;" | {{math|''p''}}-значение
| style="background: #ffa2aa" | 0.,95
| style="background: #efaaaa" | 0.,90
| style="background: #e8b2aa" | 0.,80
| style="background: #dfbaaa" | 0.,70
| style="background: #d8c2aa" | 0.,50
| style="background: #cfcaaa" | 0.,30
| style="background: #c8d2aa" | 0.,20
| style="background: #bfdaaa" | 0.,10
| style="background: #b8e2aa" | '''0.,05'''
| style="background: #afeaaa" | 0.,01
| style="background: #a8faaa" | 0.,001
|-
|}
 
Эти значения могут быть вычислены через [[квантиль]] (обратную функцию распределения) распределения хи-квадрат распределения<ref>[http://www.r-tutor.com/elementary-statistics/probability-distributions/chi-squared-distribution R Tutorial: Chi-squared Distribution]</ref>. Например, квантиль <math>\chi^2</math> для {{math|1=''p'' {{=}} 0.,05}} и {{math|1=df {{=}} 7}} дает <math> \chi^2 </math>={{math|14.,06714 ≈ 14.,07}}, как в таблице сверху. Это означает, что для экспериментального наблюдения семи независимых случайных величин <math> x_1,...,x_7 </math> при справедливости нулевой гипотезы «каждая величина описывается нормальным стандартным распределением с медианой 0 и стандартным отклонением 1» значение <math>x_1^2+...+x_7^2 > 14{,}07</math> можно получить лишь в 5 % реализаций. Получение большего значения обычно можно считать достаточным основанием для отбрасывания этой нулевой гипотезы.
 
В таблице дано округление до сотых; более точные таблицы для большего количества степеней свободы см., например, здесь<ref name="Statsoft">[http://statsoft.ru/home/textbook/modules/sttable.html#chi StatSoft: Таблицы распределений  — Хи-квадрат распределение]</ref>.
 
== См. также ==