Критерий согласия Пирсона

Критерий согласия Пирсона или критерий согласия (Хи-квадрат) — это непараметрический метод, который позволяет оценить значимость различий между фактическим (выявленным в результате исследования) количеством исходов или качественных характеристик выборки, попадающих в каждую категорию, и теоретическим количеством, которое можно ожидать в изучаемых группах при справедливости нулевой гипотезы. Выражаясь проще, метод позволяет оценить статистическую значимость различий двух или нескольких относительных показателей (частот, долей). Наиболее часто употребляемый критерий для проверки гипотезы о принадлежности наблюдаемой выборки объёмом некоторому теоретическому закону распределения . Критерий хи-квадрат для анализа таблиц сопряженности был разработан и предложен в 1900 году английским математиком, статистиком, биологом и философом, основателем математической статистики и одним из основоположников биометрики Карлом Пирсоном (1857-1936).

Критерий может использоваться при проверке простых гипотез вида

,

где  — известный вектор параметров теоретического закона, и при проверке сложных гипотез вида

,

когда оценка скалярного или векторного параметра распределения вычисляется по той же самой выборке.

Статистика критерияПравить

Процедура проверки гипотез с использованием критериев типа   предусматривает группирование наблюдений. Область определения случайной величины разбивают на   непересекающихся интервалов граничными точками

  ,

где   — нижняя грань области определения случайной величины;   — верхняя грань.

В соответствии с заданным разбиением подсчитывают число   выборочных значений, попавших в   -й интервал, и вероятности попадания в интервал

  ,

соответствующие теоретическому закону с функцией распределения  .

При этом

  и   .

При проверке простой гипотезы известны как вид закона  , так и все его параметры (известен скалярный или векторный параметр  ).

В основе статистик, используемых в критериях согласия типа  , лежит измерение отклонений   от  .

Статистика критерия согласия   Пирсона определяется соотношением

 .

В случае проверки простой гипотезы, в пределе при   эта статистика подчиняется   -распределению с   степенями свободы, если верна проверяемая гипотеза   . Плотность   -распределения, которое является частным случаем гамма-распределения, описывается формулой

 .

Проверяемая гипотеза   отклоняется при больших значениях статистики, когда вычисленное по выборке значение статистики   больше критического значения  ,

 

или достигнутый уровень значимости (p-value) меньше заданного уровня значимости (заданной вероятности ошибки 1-го рода)  .

Проверка сложных гипотезПравить

При проверке сложных гипотез, если параметры закона   по этой же выборке оцениваются в результате минимизации статистики   или по сгруппированной выборке методом максимального правдоподобия, то статистика   при справедливости проверяемой гипотезы подчиняется  -распределению с   степенями свободы, где   — количество оцененных по выборке параметров.

Если параметры оцениваются по исходной негруппированной выборке, то распределение статистики не будет являться   -распределением[1]. Более того, распределения статистики при справедливости гипотезы   будут зависеть от способа группирования, то есть от того, как область определения разбивается на интервалы[2]

При оценивании методом максимального правдоподобия параметров по негруппированной выборке можно воспользоваться модифицированными критериями типа   [3][4][5][6].

О мощности критерияПравить

При использовании критериев согласия, как правило, не задают конкурирующих гипотез: рассматривается принадлежность выборки конкретному закону. А в качестве конкурирующей гипотезы — принадлежность любому другому. Естественно, что способность критерия отличать закон, соответствующий  , от других, близких к закону, соответствующему  , и далёких от него, отличаются. Если задать конкурирующую гипотезу   и соответствующий ей некоторый конкурирующий закон  , то можно рассуждать уже об ошибках двух видов: не только об ошибке 1-го рода (отклонении проверяемой гипотезы   при её справедливости) и вероятности этой ошибки  , но и об ошибке 2-го рода (неотклонении   при справедливости  ) и вероятности этой ошибки  ). Мощность критерия по отношению к конкурирующей гипотезе   характеризуется величиной  . Критерий тем лучше распознаёт пару конкурирующих гипотез   и  , чем выше его мощность.

Мощность критерия согласия   Пирсона существенно зависит от способа группирования [7][8] и от выбранного числа интервалов[8][9].

При асимптотически оптимальном группировании, при котором максимизируются различные функционалы от информационной матрицы Фишера по группированным данным (минимизируются потери, связанные с группированием) критерий согласия   Пирсона обладает максимальной мощностью относительно «(очень) близких» конкурирующих гипотез[10][8][9].

При проверке простых гипотез и использовании асимптотически оптимального группирования критерий согласия   Пирсона имеет преимущество в мощности по сравнению с непараметрическими критериями согласия. При проверке сложных гипотез мощность непараметрических критериев возрастает и такого преимущества нет[11][12]. Однако для любой пары конкурирующих гипотез (конкурирующих законов) за счет выбора числа интервалов и способа разбиения области определения случайной величины на интервалы можно максимизировать мощность критерия[13].

ПримечанияПравить

  1. Chernoff H., Lehmann E. L. The use of maximum likelihood estimates in   test for goodness of fit. // The Annals of Mathematical Statistics. — 1954. — Vol. 25. — P. 579—586.
  2. Лемешко Б. Ю., Постовалов С. Н. О зависимости предельных распределений статистик   Пирсона и отношения правдоподобия от способа группирования данных // Заводская лаборатория. 1998. Т. 64. — № 5. — С. 56-63.
  3. Никулин М. С. Критерий хи-квадрат для непрерывных распределений с параметрами сдвига и масштаба // Теория вероятностей и её применение. — 1973. — Т. XVIII, № 3. — С. 583—591.
  4. Никулин М. С. О критерии хи-квадрат для непрерывных распределе¬ний // Теория вероятностей и её применение. — 1973. — Т. XVIII. — № 3. — С. 675—676.
  5. Rao K. C., Robson D. S. A chi-squared statistic for goodness-of-fit tests within the exponential family // Commun. Statist. — 1974. — Vol. 3. — P. 1139—1153.
  6. Greenwood P. E., Nikulin M. S. A guide to chi-squared testing. — New York : John Wiley & Sons, 1996. — 280 p.
  7. Лемешко Б. Ю. Асимптотически оптимальное группирование наблюдений в критериях согласия // Заводская лаборатория, 1998. Т. 64. № 1. — С.56-64
  8. 1 2 3 Р 50.1.033-2001. Рекомендации по стандартизации. Прикладная статистика. Правила проверки согласия опытного распределения с теоретическим. Часть I. Критерии типа хи-квадрат. — М.: Изд-во стандартов. 2002. — 87 с.
  9. 1 2 Лемешко Б. Ю., Чимитова Е. В. О выборе числа интервалов в критериях согласия типа   // Заводская лаборатория. Диагностика материалов. 2003. Т. 69. — № 1. — С. 61-67.
  10. Денисов В. И., Лемешко Б. Ю. Оптимальное группирование при обработке экспериментальных данных // Измерительные информационные системы. — Новосибирск, 1979. — С. 5-14.
  11. Лемешко Б. Ю., Лемешко С. Б., Постовалов С. Н. Сравнительный анализ мощности критериев согласия при близких конкурирующих гипотезах. I. Проверка простых гипотез // Сибирский журнал индустриальной математики. 2008. — Т.11. — № 2(34). — С.96-111.
  12. Лемешко Б. Ю., Лемешко С. Б., Постовалов С. Н. Сравнительный анализ мощности критериев согласия при близких альтернативах. II. Проверка сложных гипотез // Сибирский журнал индустриальной математики. 2008. — Т.11. — № 4(36). — С.78-93.
  13. Статистический анализ данных, моделирование и исследование вероятностных закономерностей. Компьютерный подход : монография / Б. Ю. Лемешко, С. Б. Лемешко, С. Н. Постовалов, Е. В. Чимитова. — Новосибирск : Изд-во НГТУ, 2011. — 888 с. (раздел 4.9)

ЛитератураПравить

  • Кендалл М., Стьюарт А. Статистические выводы и связи. — М.: Наука, 1973.

См. такжеПравить

СсылкиПравить