Байесовская линейная регрессия

Байесовская линейная регрессия — это подход в линейной регрессии, в котором статистический анализ проводится в контексте байесовского вывода: когда регрессионная модель имеет ошибки[en], имеющие нормальное распределение, и, если принимается определённая форма априорного распределения, доступны явные результаты для апостериорных распределений вероятностей параметров модели.

Конфигурация модели править

Рассмотрим стандартную задачу линейной регрессии, в которой для   мы указываем среднее условное распределение величины   для заданного вектора   предсказаний  :

 

где   является   вектором, а   являются независимыми и одинаково распределёнными нормально случайными величинами:

 

Это соответствует следующей функции правдоподобия:

 

Решение обычного метода наименьших квадратов является оценкой вектора коэффициентов с помощью псевдоинверсной матрицы Мура — Пенроуза:

 

где   является   матрицей плана[en], каждая строка которой является вектором предсказаний  , а   является вектор-столбцом r  .

Это является частотным[en] подходом, и предполагается, что существует достаточно измерений для того, чтобы сказать что-то осмысленное о  . В байесовском подходе данные сопровождаются дополнительной информацией в виде априорного распределения вероятности. Априорные убеждения о параметрах комбинируются с функцией правдоподобия данных согласно теореме Байеса для получения апостериорной уверенности о параметрах   и  . Априорные данные могут принимать различные формы в зависимости от области применения и информации, которая доступна a priori.

Регрессия с сопряжёнными распределениями править

Сопряжённое априорное распределение править

Для любого априорного распределения, может не существовать аналитического решения для апостериорного распределения. В этом разделе мы рассмотрим так называемое сопряжённое априорное распределение, для которого апостериорное распределение можно вывести аналитически.

Априорное распределение   является сопряжённым функции правдоподобия, если оно имеет ту же функциональную форму с учётом   и  . Поскольку логарифмическое правдоподобие квадратично от  , его перепишем так, что правдоподобие становится нормальным от  . Запишем

 

Правдоподобие теперь переписывается как

 

где

  и  ,

где   является числом коэффициентов регрессии.

Это указывает на вид априорного распределения:

 

где   является обратным гамма-распределением[en]

 

В обозначениях, введённых в статье Обратное гамма-распределение[en], это плотность распределения   с   и  , где   и   являются априорными значениями   и   соответственно. Эквивалентно, эту плотность можно описать как масштабированное обратное распределение хи-квадрат[en]  

Далее, условная априорная плотность   является нормальным распределением,

 

В обозначениях нормального распределения условное априорное распределение равно  

Апостериорное распределение править

При указанном априорным распределении апостериорное распределение можно выразить как

 
 
 
 

После некоторых преобразований[1] апостериорная вероятность может быть переписана так, что апостериорное среднее   вектора параметров   может быть выражено в терминах оценки по методу наименьших квадратов   и априорного среднего  , где поддержка априорной вероятности выражается матрицей априорной точности  

 

Для подтверждения, что   в действительности является апостериорным средним, квадратичные члены в экспоненте можно преобразовать к квадратичной форме[en] от  [2].

 
 

Теперь апостериорное распределение можно выразить как нормальное распределение, умноженное на обратное гамма-распределение[en]:

 
 

Поэтому апостериорное распределение можно параметризовать следующим образом.

 

где два множителя соответствуют плотностям распределений   и   с параметрами, задаваемыми выражениями

 
 

Это можно интерпретировать как байесовское обучение, в котором параметры обновляются согласно следующим равенствам

 
 
 
 

Обоснованность модели править

Обоснованность модели   — это вероятность данных для данной модели  . Она известна также как предельное правдоподобие и как априорная предсказательная плотность. Здесь модель определяется функцией правдоподобия   и априорным распределением параметров, то есть,  . Обоснованность модели фиксируется одним числом, показывающим, насколько хорошо такая модель объясняет наблюдения. Обоснованность модели байесовской линейной регрессии, представленная в этом разделе, может быть использована для сравнения конкурирующих линейных моделей путём байесовского сравнения моделей. Эти модели могут отличаться числом и значениями предсказывающих переменных, как и их априорными значениями в параметрах модели. Сложность модели принимается во внимание обоснованностью модели, поскольку она исключает параметры путём интегрирования   по всем возможным значениям   и  .

 

Этот интеграл можно вычислить аналитически и решение задаётся следующим равенством[3]

 

Здесь   означает гамма-функцию. Поскольку мы выбрали сопряжённое априорное распределение, предельное правдоподобие может быть легко вычислено путём решения следующего равенства для произвольных значений   и  .

 

Заметим, что это равенство является ни чем иным, как переформулировкой теоремы Байеса. Подстановка формулы для априорной вероятности, правдоподобия и апостериорной вероятности и упрощения получающегося выражения приводит к аналитическому выражению, приведённому выше.

Другие случаи править

В общем случае может оказаться невозможным или нецелесообразным получать апостериорное распределение аналитически. Однако можно аппроксимировать апостериорную вероятность методом приближенного байесовского вывода[en], таким как выборка по методу Монте-Карло[4] или вариационные байесовские методы[en].

Частный случай   называется гребневой регрессией.

Аналогичный анализ можно провести для общего случая множественной регрессии и частично для байесовской оценки ковариационной матрицы[en] — см. Байесовская мультивариантная линейная регрессия[en].

См. также править

Примечания править

  1. Промежуточные выкладки можно найти в книге O’Hagan (1994) в начале главы по линейным моделям.
  2. Промежуточные выкладки можно найти в книге Fahrmeir и др. (2009 на стр. 188.
  3. Промежуточные выкладки можно найти в книге O’Hagan (1994) на странице 257.
  4. Карлин и Луи (Carlin, Louis, 2008) и Гельман с соавторами (Gelman, et al., 2003) объяснили как использовать методы выборочных наблюдений для байесовской линейной регрессии.

Литература править

  • George E. P. Box, Tiao G. C. Bayesian Inference in Statistical Analysis. — Wiley, 1973. — ISBN 0-471-57428-7.
  • Bradley P. Carlin, Thomas A. Louis. Bayesian Methods for Data Analysis, Third Edition. — Boca Raton, FL: Chapman and Hall/CRC, 2008. — ISBN 1-58488-697-8.
  • Fahrmeir L., Kneib T., Lang S. Regression. Modelle, Methoden und Anwendungen. — 2nd. — Heidelberg: Springer, 2009. — ISBN 978-3-642-01836-7. — doi:10.1007/978-3-642-01837-4.
  • Fornalski K.W., Parzych G., Pylak M., Satuła D., Dobrzyński L. Application of Bayesian reasoning and the Maximum Entropy Method to some reconstruction problems // Acta Physica Polonica A. — 2010. — Т. 117, вып. 6. — С. 892—899. — doi:10.12693/APhysPolA.117.892.
  • Krzysztof W. Fornalski. Applications of the robust Bayesian regression analysis // International Journal of Society Systems Science. — 2015. — Т. 7, вып. 4. — С. 314–333. — doi:10.1504/IJSSS.2015.073223.
  • Andrew Gelman, John B. Carlin, Hal S. Stern, Donald B. Rubin. Bayesian Data Analysis, Second Edition. — Boca Raton, FL: Chapman and Hall/CRC, 2003. — ISBN 1-58488-388-X.
  • Michael Goldstein, David Wooff. Bayes Linear Statistics, Theory & Methods. — Wiley, 2007. — ISBN 978-0-470-01562-9.
  • Minka, Thomas P. (2001) Bayesian Linear Regression Архивная копия от 26 октября 2008 на Wayback Machine, Microsoft research web page
  • Peter E. Rossi, Greg M. Allenby, Robert McCulloch. Bayesian Statistics and Marketing. — John Wiley & Sons, 2006. — ISBN 0470863676.
  • Anthony O'Hagan. Bayesian Inference. — First. — Halsted, 1994. — Т. 2B. — (Kendall's Advanced Theory of Statistics). — ISBN 0-340-52922-9.
  • Sivia, D.S., Skilling, J. Data Analysis - A Bayesian Tutorial. — Second. — Oxford University Press, 2006.
  • Gero Walter, Thomas Augustin. Bayesian Linear Regression—Different Conjugate Models and Their (In)Sensitivity to Prior-Data Conflict // Technical Report Number 069, Department of Statistics, University of Munich. — 2009.

Программное обеспечение править