Байесовское иерархическое моделирование

Байесовское иерархическое моделирование — это статистическая модель, записанная в виде нескольких уровней (в иерархическом виде), которая оценивает параметры[англ.] апостериорного распределения используя байесовский метод[1]. Подмодели комбинируются в иерархическую модель и используется теорема Байеса для объединения их с наблюдаемыми данными и учёта всех присутствующих неопределённостей. Результатом этого объединения является апостериорное распределение, известное также как уточнённая оценка вероятности после того, как получены дополнительные сведения об априорной вероятности.

Введение править

Частотная статистика[англ.], наиболее популярное основание статистики[англ.], может дать заключение по внешнему виду несовместимое с заключением, которое даёт байесовская статистика, поскольку байесовский подход трактует параметры как случайные величины и использует субъективную информацию для установления допущений на эти параметры[2]. Так как подходы отвечают на разные вопросы, формальные результаты технически не являются противоречивыми, но два подхода расходятся во мнении, какой ответ относится к конкретным приложениям. Приверженцы байесовского подхода утверждают, что относящаяся к принятию решения информация и обновление уверенностей нельзя игнорировать и что иерархическое моделирование имеет потенциал взять верх над классическими методами в приложениях, где респондент даёт несколько вариантов данных наблюдений. Более того доказано, что модель робастна с меньшей чувствительностью апостериорного распределения к изменчивым иерархическим априорным данным.

Иерархическое моделирование используется, когда информация доступна в нескольких различных уровнях наблюдаемых величин. Иерархический вид анализа и представления помогают в понимании многопараметрических задач и играют важную роль в разработке вычислительных стратегий[3].

Философия править

Многочисленные статистические приложения используют несколько параметров, которые можно считать как зависимые или связанные таким образом, что задача предполагает зависимость модели совместной вероятности этих параметров[4].

Индивидуальные степени уверенности, выраженные в форме вероятностей, имеют свою неопределённость[5]. Кроме того, возможны изменения степени уверенности со времени. Как утверждали профессор Жозе М. Бернардо и профессор Адриан Ф. Смит, «Актуальность процесса обучения состоит в эволюции индивидуальной и субъективной уверенности о реальности». Эти субъективные вероятности привлекаются в разум более непосредственно, чем физические вероятности[6]. Следовательно, это требует обновления уверенности, и сторонники байесовского подхода сформулировали альтернативную статистическую модель, которая принимает во внимание априорные случаи конкретного события[7].

Теорема Байеса править

Предполагаемое получение реального события обычно изменяет предпочтения между определёнными вариантами. Это делается путём изменения степени доверия к событиям, определяющим варианты[8].

Предположим, что при изучении эффективности сердечной терапии пациентов в госпитале j, имеющих вероятность выживания  , вероятность выживания обновляется при событии y, заключающемся в создании гипотетической сомнительной сыворотки, которая, как думают некоторые, увеличивает выживание больных с сердечными проблемами.

Чтобы сделать обновлённые утверждения о вероятности  , задающее возникновение события y, мы должны начать с модели, обеспечивающей совместное распределение вероятностей для   и y. Это может быть записано как произведение двух распределений, которые часто упоминаются как априорная вероятность   и выборочное распределение   соответственно:

 

Если использовать основное свойство условной вероятности, апостериорное распределение даст:

 

Равенство, показывающее связь между условной вероятностью и индивидуальными событиями, известно как теорема Байеса. Это простое выражение воплощает техническое ядро байесовского вывода, которое нацелено на включение обновлённого доверия   в уместном и разрешимом виде[8].

Перестановочность править

Обычной стартовой точкой статистического анализа является предположение, что n значений   перестановочны. Если никакой информации, отличной от данных y, недоступно для различения любого   от любого другого и никакого упорядочения или группировки параметров нельзя сделать, следует предполагать симметрию параметров относительно их априорной вероятности[9]. Эта симметрия представлена вероятностной перестановочностью. Обычно полезно и приемлемо моделировать данные из перестановочного распределения как независимые и одинаково распределённые, если дан некоторый неизвестный вектор параметров   с распределением  .

Конечная перестановочность править

Для фиксированного числа n набор   перестановочен, если совместное распределение   инвариантно относительно перестановок индексов. То есть, для любой перестановки   or   индексов (1, 2, …, n),  [10]

Ниже приведён пример перестановочной, но не независимой и одинаково распределённой последовательности: Рассмотрим урну с красными и синими шарами с вероятностями вытаскивания   шаров. Шары вытаскиваются без возврата в урну, то есть, после вытаскивания одного из n шаров в урне остаётся n − 1 шаров для следующего вытаскивания.

Пусть   если  -й шар красный
иначе.

Поскольку вероятность вытаскивания красного шара при первом вытаскивании и синего шара при втором вытаскивании равна вероятности вытаскивания синего шара при первом вытаскивании и красного при втором, которые обе равны 1/2 (то есть  ), то   и   перестановочны.

Однако вероятность выбора красного шара при втором вытаскивании уже не будет равна 1/2. Таким образом,   и   не независимы.

Если   независимы и одинаково распределены, то они перестановочны, но обратное не обязательно верно[11].

Бесконечная перестановочность править

Бесконечная перестановочность — это такое свойство, что любое конечное подмножество бесконечной последовательности  ,   перестановочно. То есть, для любого n последовательность   перестановочна[11].

Иерархические модели править

Составляющие править

Байесовское иерархическое моделирование использует две важные концепции для получения апостериорного распределениея[1], а именно:

  1. Гиперпараметр[англ.]: параметры априорного распределения
  2. Гиперприорные распределения[англ.]: распределения гиперпараметров

Предположим, что случайная величина Y имеет нормальное распределение с параметром θ как среднее и параметром 1 в качестве дисперсии, то есть  . Предположим, что параметр   имеет распределение, задаваемое нормальным распределением со средним   и дисперсией 1, то есть  . Кроме того,   является другим распределением, заданным, например, стандартным нормальным распределением  . Параметр   называется гиперпараметром, в то время как его распределение, заданное как  , является примером гиперприорного распределения. Обозначение для Y изменяется с добавлением другого параметра, то есть  . Если имеется другой уровень, скажем,   является другим нормальным распределением со средним   и дисперсией  , что означает  , то    и   могут также быть названы гиперпараметрами, а их распределения являются гиперприорными распределениями[4].

Система править

Пусть   будут наблюдениями и   будет параметром, который управляет процессом генерации  . Предположим далее, что параметры   порождаются перестановочными из основной популяции с распределением, управляемым гиперпараметром  .

Байесовская иерархическая модель содержит следующие уровни:

Уровень I:  
Уровень II:  
Уровень III:  

Правдоподобие, как видно из уровня I, равно  , c   в качестве его априорного распределения. Заметим, что правдоподобие зависит только от   через  .

Априорное распределение из уровня I может быть разбито на:

  [из определения условной вероятности]

где   является гиперпараметром с гиперприорным распределением  .

Тогда апостериорное распределение пропорционально этой величине:

  [используя теорему Байеса]
 [12]

Пример править

Для иллюстрации рассмотрим пример: Учитель хочет оценить, насколько хорошо студент выполнил свой SAT тест (англ. Scholastic Assessment Test[13]). Он использует информацию о студенте в старших классах и его текущем среднем балле оценок (англ. grade point average, GPA), чтобы получить оценку. Текущая GPA, обозначим её  , имеет правдоподобие, задаваемое некоторой функцией вероятности с параметром  , то есть  . Этот параметр   является баллом SAT студента. Балл SAT рассматривается как элемент выборки, полученный из общей выборки, полученной из распределения общей популяции, индексированной другим параметром  , которая является баллом студента в старших классах школы[14]. То есть,  . Более того, гиперпараметр   имеет своё собственное распределение с функцией  , которое называется гиперприорным распределением.

Чтобы получить балл SAT по информации о GPA,

 
 

Вся информация в задаче будет использована для получения апостериорного распределения. Вместо решения с использованием только априорной вероятности и функции правдоподобия, использование гиперприорных распределений даёт больше информации, что приводит к большей уверенности в поведении параметра[15].

Двухуровневая иерархическая модель править

В общем случае интересующее нас совместное апостериорное распределение 2-уровневых иерархических моделей равно:

 
 [15]

Трёхуровневая иерархическая модель править

Для 3-уровневых иерархических моделей апостериорное распределение задаётся так:

 
 [15]

Примечания править

  1. 1 2 Allenby, Rossi, McCulloch, 2005, с. 3.
  2. Gelman, Carlin, Stern, Rubin, 2004, с. 4–5.
  3. Gelman, Carlin, Stern, Rubin, 2004, с. 6.
  4. 1 2 Gelman, Carlin, Stern, Rubin, 2004, с. 117.
  5. Good, 1980, с. 480.
  6. Good, 1980, с. 489—490.
  7. Bernardo, Smith, 1994, с. 23.
  8. 1 2 Gelman, Carlin, Stern, Rubin, 2004, с. 6—8.
  9. Dickey, Chen, 1983, с. 167–168.
  10. Gelman, Carlin, Stern, Rubin, 2004, с. 121—125.
  11. 1 2 Diaconis, Freedman, 1980, с. 745–747.
  12. Kadane, Wasilkowski, 1983, с. 371–372.
  13. «Академический оценочный тест» — стандартизованный тест для приёма в высшие учебные заведения США
  14. Gelman, Carlin, Stern, Rubin, 2004, с. 120—121.
  15. 1 2 3 Box, Tiao, 1965.

Литература править

  • Greg M. Allenby, Peter E. Rossi, Robert E. McCulloch. Hierarchical Bayes Model: A Practitioner’s Guide. — 2005. — Январь.
  • Andrew Gelman, John B. Carlin, Hal S. Stern, Donald B. Rubin. Bayesian Data Analysis. — 2nd. — Boca Raton, Florida: CRC Press, 2004. — ISBN 1-58488-388-X.
  • Good I.J. Some history of the hierarchical Bayesian methodology // Trabajos de Estadistica Y de Investigacion Operativa. — Springer – Verlag, 1980. — Февраль (т. 31, вып. 1).
  • Jose M. Bernardo, Adrian F.M. Smith. Bayesian Theory. — Chichester, England: John Wiley & Sons, 1994. — (Willey series in probability and statistics). — ISBN 0-471-92416-4.
  • Diaconis P., Freedman D. Finite exchangeable sequences // Annals of Probability. — 1980.
  • Greg M. Allenby, Peter E. Rossi. Bayesian Applications in Marketing // SSRN Electronic Journal. — 2009.
  • Box G. E. P., Tiao G. C. Multiparameter problem from a bayesian point of view. Multiparameter Problems From A Bayesian Point of View. — New York City: John Wiley & Sons, 1965. — Т. 36. — ISBN 0-471-57428-7. Другие тома Архивная копия от 15 января 2019 на Wayback Machine
  • Kadane J.B., Wasilkowski G.W. Average case  -complexity in computer science, a Bayesian view // Bayesian Statistics 2 / Bernardo J.M., Degroot V.H., Lindley D.V., Smith A.F.M.. Proceedings of the Second Valencia International Meeting. — Amsterdam, New York, Oxford: Elsevier Science Publishers B.V, 1983. — ISBN 0-444-87746-0. Похожая книга Архивная копия от 26 июля 2020 на Wayback Machine
  • James M. Dickey, Chong-Hong Chen. Direct Subjective-Probability Modelling Using Ellipsoidal Distributions // Proceedings of the Second Valencia International Meeting / Bernardo J.M., Degroot V.H., Lindley D.V., Smith A.F.M.. — Amsterdam, New York, Oxford: Elsevier Science Publishers B.V, 1983. — ISBN 0-444-87746-0.