Модель бинарного выбора

Модель бинарного выбора — применяемая в эконометрике модель зависимости бинарной переменной (принимающей всего два значения — 0 и 1) от совокупности факторов. Построение обычной линейной модели для таких зависимых переменных теоретически некорректно, так как условное математическое ожидание таких переменных равно вероятности того, что зависимая переменная примет значение 1, а линейная модель допускает в том числе отрицательные значения и значения выше 1 (притом что вероятность должна быть от 0 до 1). Поэтому обычно используются некоторые интегральные функции распределения. Чаще всего используются нормальное распределение (пробит), логистическое распределение (логит) , распределение Гомперца (гомпит).

Сущность модели править

Пусть переменная   является бинарной, то есть может принимать только два значения, которые для упрощения предполагаются равными   и  . Например,   может означать наличие/отсутствие каких-либо условий, успех или провал чего-либо, ответ да/нет в опросе и т. д. Пусть также имеется вектор регрессоров (факторов)  , которые оказывают влияние на  .

Регрессионная модель имеет дело с условным по факторам математическим ожиданием зависимой переменной, которое в данном случае равно вероятности того, что зависимая переменная равна 1. В самом деле, по определению математического ожидания и с учетом всего двух возможных значений имеем:

 

В связи с этим применение, например, стандартной модели линейной регрессии   теоретически некорректно хотя бы потому, что вероятность по определению принимает ограниченные значения от 0 до 1. В связи с этим разумно моделировать   через интегральные функции тех или иных распределений.

Обычно предполагается, что имеется некая скрытая (не наблюдаемая) "обычная" переменная  , в зависимости от значений которой наблюдаемая переменная   принимает значение 0 или единица:

 

Предполагается, что скрытая переменная зависит от факторов   в смысле обычной линейной регрессии  , где случайная ошибка имеет распределение  . Тогда

 

Если распределение симметричное, то можно записать

 

Экономическая интерпретация править

Ещё одно обоснование заключается в использовании понятия полезности альтернатив — не наблюдаемой функции  , то есть фактически двух функций   и   соответственно для двух альтернатив. Логично предположить, что если при заданных значениях факторов полезность одной альтернативы больше полезности другой, то выбирается первая и наоборот. В связи с этим разумно рассмотреть функцию разности полезностей альтернатив  . Если она больше нуля, то выбирается первая альтернатива, если меньше или равна нулю — то вторая. Таким образом, функция разности полезностей альтернатив здесь выполняет роль той самой скрытой переменной. Наличие случайной ошибки в моделях полезностей позволяет учесть не абсолютную детерминированность выбора (по крайней мере не детерминированность данным набором факторов, хотя элемент случайности выбора есть при любом наборе факторов).

Модели по видам распределений править

Пробит. В пробит-модели в качестве   используется интегральная функция стандартного нормального распределения  :

 

Логит. В логит-модели используется CDF логистического распределения:

 

Гомпит. Используется распределение экстремальных значений - распределение Гомперца:

 

Оценка параметров править

Оценка обычно производится методом максимального правдоподобия. Пусть имеется выборка объёма   факторов   и зависимой переменной  . Для данного номера наблюдения используем индекс  . Вероятность получения в наблюдении   значения   можно смоделировать следующим образом:

 

В самом деле, если  , то второй множитель очевидно равен 1, а первый как раз  , если же  , то первый множитель равен единице, а второй —  . Предполагается, что данные независимы. Поэтому функцию правдоподобия можно получить как произведение вышеуказанных вероятностей:

 

Соответственно логарифмическая функция правдоподобия имеет вид:

 

Максимизация данной функции по неизвестным параметрам позволяет получить состоятельные, асимптотически эффективные и асимптотически нормальные оценки параметров. Последнее означает, что:

 

где   — асимптотическая ковариационная матрица оценок параметров, которая определяется стандартным для метода максимального правдоподобия способом (через гессиан или градиент логарифмической функции правдоподобия в оптимальной точке).

Показатели качества и тестирование модели править

 ,

где   — значения логарифмической функции правдоподобия оцененной модели и ограниченной модели, в которой   является константой (не зависит от факторов x, исключая константу из множества факторов).

Данная статистика, как и в общем случае использования метода максимального правдоподобия, позволяет тестировать статистическую значимость модели в целом. Если её значение достаточно большое (больше критического значения распределения  , где  -количество факторов (без константы) модели), то модель можно признать статистически значимой.

Также используются аналоги классического коэффициента детерминации, например:

  • Псевдо-коэффициент детерминации:
 
  • Коэффициент детерминации МакФаддена (индекс отношения правдоподобия):
 

Оба показателя меняются в пределах от 0 до 1.

  • Информационные критерии: информационный критерий Акаике (AIC), байесовский информационный критерий Шварца (BIC, SC), критерий Хеннана-Куина (HQ).

Важное значение имеет анализ доли правильных прогнозов в зависимости от выбранного порога классификации (с какого уровня вероятности принимается значение 1). Обычно применяется ROC-кривая для оценки качества модели и показатель AUC - площадь под ROC-кривой.

  • Статистика Хосмера-Лемешоу (H-L, HL, Hosmer-Lemeshow). Для расчета данной статистики выборка разбивается на несколько подвыборок, по каждой из которых определяются — фактическая доля данных со значением зависимой переменной 1, то есть фактически среднее значение зависимой переменной по подвыборке
 
и предсказанная средняя вероятность по подруппе
 .
Тогда значение статистики HL определяется по формуле
 

Точное распределение данной статистики неизвестно, однако авторы методом симуляций установили, что оно аппроксимируется распределением  .

  • Статистика Эндрюса (Andrews)

См. также править

Литература править

  • Магнус Я. Р., Катышев П. К., Пересецкий А. А. Эконометрика. Начальный курс. — М.: Дело, 2007. — 504 с. — ISBN 978-5-7749-0473-0..
  • Greene, William H. (1997) Econometric Analysis, 3rd edition, Prentice-Hall.
  • Andrews, Donald W.K. (1988) “Chi-Square Diagnostic Tests for Econometric Models: Theory,” Econometrica, 56, 1419–1453.
  • Andrews, Donald W.K. (1988) “Chi-Square Diagnostic Tests for Econometric Models: Introduction and Applications,” Journal of Econometrics, 37, 135–156.
  • Hosmer, David W. Jr. and Stanley Lemeshow (1989) Applied Logistic Regression, John Wiley & Sons.