Дилемма смещения-дисперсии

Компромисс отклонение-дисперсия в статистике и в машинном обучении — это свойство набора моделей предсказания, когда модели с меньшим отклонением от имеющихся данных имеют более высокую дисперсию на новых данных (то есть подвержены переобучению), и наоборот. Компромисс отклонение-дисперсия — конфликт при попытке одновременно минимизировать эти два источника ошибки^[англ.], которые мешают алгоритмам обучения с учителем делать обобщение за пределами тренировочного набора.

Смещение — это погрешность оценки, возникающая в результате ошибочного предположения в алгоритме обучения. В результате большого смещения алгоритм может пропустить связь между признаками и выводом (недообучение).
Дисперсия — это ошибка чувствительности к малым отклонениям в тренировочном наборе. При высокой дисперсии алгоритм может как-то трактовать случайный шум^[англ.] в тренировочном наборе, а не желаемый результат (переобучение).

Функция и данные с шумом.

разброс = 5

разброс = 1

разброс = 0.1

Функция (красный цвет) аппроксимирована с помощью радиально-базисных функций (РБФ) (синий цвет). На каждом графике показано несколько испытаний. Для каждого испытания в качестве тренировочного набора использовались некоторые точки из выборки с шумом (верхний график). При широком разбросе (график 2) смещение высоко, РБФ не могут полностью аппроксимировать функцию (особенно центральную яму), но дисперсия между испытаниями мала. По мере уменьшения разброса (графики 3 и 4) смещение уменьшается, синяя кривая ближе аппроксимирует красную кривую. Однако дисперсия между испытаниями растёт. На нижнем графике приближённое значение в точке x=0 сильно зависят от расположения точек выборки.

Разложение смещения-дисперсии — это способ анализа ожидаемой ошибки обобщения^[англ.] алгоритма обучения для частной задачи сведением к сумме трёх членов — смещения, дисперсии и величины, называемой неустранимой погрешностью, которая является результатом шума в самой задаче.

Дилемма возникает во всех формах обучения с учителем — в классификации, регрессии (аппроксимация функции)^[1]^[2] и в структурном прогнозировании. Дилемма также используется для объяснения эффективности эвристики при обучении людей^[3].

Побудительные причины править

Дилемма смещения-дисперсии является центральной проблемой в обучении с учителем. Выбираемая модель должна, с одной стороны, точно уловить все закономерности в обучающих данных, а с другой стороны — обобщить закономерности на неизвестные данные. К сожалению, обычно это невозможно сделать одновременно. Методы обучения с высокой дисперсией могут хорошо представлять тренировочный набор, но имеют риск быть переобученными для данных с шумом или непрезентативных данных. В отличие от них, алгоритмы с низкой дисперсией обычно дают более простые модели, не склонно к переобучению, но может оказаться недообученным, что приводит к пропуску важных свойств.

Модели с малым смещением обычно более сложны (например, в них регрессионные многочлены имеют более высокий порядок), что позволяет им представлять тренировочное множество более точно. Однако они могут иметь большую компоненту шума^[англ.] тренировочного набора, что делает предсказание менее точным вопреки добавленной сложности. Для контраста, модели с высоким смещением относительно более просты (имеют многочлены меньшего порядка или даже линейные), но могут давать низкую дисперсию предсказаний, если применяются вне тренировочного набора.

Разложение смещения-дисперсии квадратичной ошибки править

Предположим, что у нас есть тренировочное множество, состоящее из набора точек $x_{1},\dots ,x_{n}$ и вещественных значений $y_{i}$ , связанных с каждой из этих точек $x_{i}$ . Мы предполагаем, что есть функция с шумом $y=f(x)+\varepsilon$ , где шум $\varepsilon$ имеет нулевое среднее и дисперсию $\sigma ^{2}$ .

Мы хотим найти функцию ${\hat {f}}(x)$ , которая аппроксимирует истинную функцию $f(x)$ настолько хорошо, насколько возможно, в смысле некоторого алгоритма обучения. Мы делаем понятие «настолько хорошо, насколько возможно» точным путём измерения среднеквадратичной ошибки^[англ.] между $y$ и ${\hat {f}}(x)$ — мы хотим, чтобы значение $(y-{\hat {f}}(x))^{2}$ было минимальным как для точек $x_{1},\dots ,x_{n}$ , так и за пределами нашей выборки. Естественно, мы не можем сделать это идеально, поскольку $y_{i}$ содержит шум $\varepsilon$ . Это означает, что мы должны быть готовы принять неустранимую ошибку в любой функции, с которой будем работать.

Поиск функции ${\hat {f}}$ , которая обобщается для точек вне тренировочного набора, может быть осуществлён любым из несчётного числа алгоритмов, используемых для обучения с учителем. Оказывается, что какую бы функцию ${\hat {f}}$ мы ни выбрали, мы можем разложить её ожидаемую ошибку на непросмотренном экземпляре данных $x$ следующим образом:^[4]^[5].

{\begin{aligned}\operatorname {E} {\Big [}{\big (}y-{\hat {f}}(x){\big )}^{2}{\Big ]}&={\Big (}\operatorname {Bias} {\big [}{\hat {f}}(x){\big ]}{\Big )}^{2}+\operatorname {Var} {\big [}{\hat {f}}(x){\big ]}+\sigma ^{2}\\\end{aligned}}

,

где

{\begin{aligned}\operatorname {Bias} {\big [}{\hat {f}}(x){\big ]}=\operatorname {E} {\big [}{\hat {f}}(x)-f(x){\big ]}\end{aligned}}

и

{\begin{aligned}\operatorname {Var} {\big [}{\hat {f}}(x){\big ]}=\operatorname {E} [{\hat {f}}(x)^{2}]-{\Big (}\operatorname {E} [{\hat {f}}(x)]{\Big )}^{2}\end{aligned}}

Математические ожидания пробегают разные варианты выбора тренировочного набора $x_{1},\dots ,x_{n},y_{1},\dots ,y_{n}$ из одного и того же совместного распределения $P(x,y)$ . Три члена представляют

квадрат смещения метода обучения, который можно рассматривать как ошибку, вызванную упрощением предположений, принятых в методе. Например, когда применяется аппроксимация нелинейной функции $f(x)$ при использовании метода обучения для линейных моделей^[англ.], будет появляться ошибка в оценке ${\hat {f}}(x)$ как результат такого допущения;
дисперсия метода обучения, или, интуитивно, как далеко метод обучения ${\hat {f}}(x)$ уведёт от среднего значения;
неустранимая ошибка $\sigma ^{2}$ . Поскольку все три величины неотрицательны, они формируют нижнюю границу ожидаемой ошибки на непросмотренных данных^[4].

Чем более сложна модель ${\hat {f}}(x)$ , тем больше точек данных она захватывает и тем меньше будет смещение. Однако сложность приводит модель к захвату большего числа точек, а потому её дисперсия будет больше.

Вывод править

Вывод разложения смещения-дисперсии для среднеквадратичной ошибки приведён ниже^[6]^[7]. Для удобства введём обозначения $f=f(x)$ и ${\hat {f}}={\hat {f}}(x)$ . Во-первых, вспомним, что по определению для любой случайной переменной $X$ мы имеем

{\begin{aligned}\operatorname {Var} [X]=\operatorname {E} [X^{2}]-{\Big (}\operatorname {E} [X]{\Big )}^{2}\end{aligned}}

Переставив члены получим:

{\begin{aligned}\operatorname {E} [X^{2}]=\operatorname {Var} [X]+{\Big (}\operatorname {E} [X]{\Big )}^{2}\end{aligned}}

Поскольку $f$ детерминирована,

{\begin{aligned}\operatorname {E} [f]=f\end{aligned}}

.

Тогда из $y=f+\varepsilon$ и $\operatorname {E} [\varepsilon ]=0$ вытекает, что $\operatorname {E} [y]=\operatorname {E} [f+\varepsilon ]=\operatorname {E} [f]=f$ .

Но поскольку $\operatorname {Var} [\varepsilon ]=\sigma ^{2},$ , получаем

{\begin{aligned}\operatorname {Var} [y]=\operatorname {E} [(y-\operatorname {E} [y])^{2}]=\operatorname {E} [(y-f)^{2}]=\operatorname {E} [(f+\varepsilon -f)^{2}]=\operatorname {E} [\varepsilon ^{2}]=\operatorname {Var} [\varepsilon ]+{\Big (}\operatorname {E} [\varepsilon ]{\Big )}^{2}=\sigma ^{2}\end{aligned}}

Так как $\varepsilon$ и ${\hat {f}}$ независимы, мы можем записать

{\begin{aligned}\operatorname {E} {\big [}(y-{\hat {f}})^{2}{\big ]}&=\operatorname {E} [y^{2}+{\hat {f}}^{2}-2y{\hat {f}}]\\&=\operatorname {E} [y^{2}]+\operatorname {E} [{\hat {f}}^{2}]-\operatorname {E} [2y{\hat {f}}]\\&=\operatorname {Var} [y]+\operatorname {E} [y]^{2}+\operatorname {Var} [{\hat {f}}]+\operatorname {E} [{\hat {f}}]^{2}-2f\operatorname {E} [{\hat {f}}]\\&=\operatorname {Var} [y]+\operatorname {Var} [{\hat {f}}]+{\Big (}f^{2}-2f\operatorname {E} [{\hat {f}}]+\operatorname {E} [{\hat {f}}]^{2}{\Big )}\\&=\operatorname {Var} [y]+\operatorname {Var} [{\hat {f}}]+(f-\operatorname {E} [{\hat {f}}])^{2}\\&=\sigma ^{2}+\operatorname {Var} [{\hat {f}}]+\operatorname {Bias} [{\hat {f}}]^{2}\end{aligned}}

Применение для регрессии править

Разложение смещения-дисперсии образует концептуальный базис для методов регуляризации регрессии, таких как Lasso^[англ.] и гребневая регрессия. Методы регуляризации вносят смещение в решение регрессии, которое может значительно уменьшить дисперсию по сравнению с обычным методом наименьших квадратов^[англ.] (ОМНК, англ. Ordinary Least Squares, OLS). Хотя решение ОМНК даёт несмещённую оценку регрессии, решения с меньшей дисперсией, полученные путём регуляризации, обеспечивают превосходную среднеквадратичную ошибку.

Применение для классификации править

Разложение смещение-дисперсия первоначально было сформулировано для линейной регрессии методом наименьших квадратов. Для случая классификации с 0-1 функцией потерь (доля неправильно классифицированных), можно найти похожее разложение^[8]^[9]. Альтернативно, если задача классификации может быть сформулирована как вероятностная классификация, ожидание квадрата ошибки предсказанных вероятностей по отношению к истинным вероятностям может быть разложено как и ранее^[10].

Подходы править

Снижение размерности и отбор признаков могут уменьшить дисперсию путём упрощения моделей. Аналогично, больше тренировочное множество приводит к уменьшению дисперсии. Добавление признаков (предсказателей) ведёт к уменьшению смещения за счёт увеличения дисперсии. Алгоритмы обучения обычно имеют некоторые настраиваемые параметры, которые контролируют смещение и дисперсию. Например,

(Обобщённые) линейные модели могут быть регуляризованы для уменьшения дисперсии за счёт увеличения смещения ^[11].
в искусственных нейронных сетях дисперсия увеличивается и смещение уменьшается с увеличением числа скрытых единиц^[1]. Подобно обобщённым линейным моделям для них тоже обычно применяется регуляризация.
В моделях k ближайших соседей большое значение k ведёт к большому смещению и низкой дисперсии (см. ниже).
В обучении на примерах, регуляризация может быть получена путём смешения прототипов и примеров^[12].
В деревьях решений глубина дерев определяет дисперсию. Деревья решений обычно обрезаются для контроля дисперсии^[13].

Один из способов разрешения дилеммы — использование смешанных моделей^[англ.] и ансамблевого обучения^[14]^[15]. Например, бустинг комбинирует несколько «слабых» (с высоким смещением) моделей в сборку, которая имеет более низкое смещение, чем каждая из индивидуальных моделей, в то время как бэггинг комбинирует «строгое» обучение так, что уменьшается дисперсия.

k-ближайших соседей править

В случае регрессии k-ближайших соседей существует выражение в замкнутой форме, связывающее разложение смещение-дисперсия с параметром k^[5]:

\operatorname {E} [(y-{\hat {f}}(x))^{2}\mid X=x]=\left(f(x)-{\frac {1}{k}}\sum _{i=1}^{k}f(N_{i}(x))\right)^{2}+{\frac {\sigma ^{2}}{k}}+\sigma ^{2}

где $N_{1}(x),\dots ,N_{k}(x)$ являются k ближайшими соседями x в тренировочном наборе. Смещение (первый член) является монотонно возрастающей функцией от k, в то время как дисперсия (второй член) убывает по мере роста k. Фактически, при «разумных предположениях» оценщика смещения ближайшего соседа (1-NN) полностью обращается в нуль, когда размер тренировочного множества стремится к бесконечности^[1].

Применение для обучения людей править

В то время как дилемма смещения-дисперсии широко обсуждается в контексте машинного обучения, она была проверена в контексте когнитивных способностей человека, прежде всего Гердом Гигеренцером с соавторами. Они утверждают, что (см. ссылки ниже) человеческий мозг решает дилемму в случае разреженных плохо описанных тренировочных наборов, полученных в результате личного опыта, путём использования эвристики высокого смещения/низкой дисперсия. Это отражает факт, что подход с нулевым смещением имеет плохую обобщаемость к новым ситуациям, а также беспричинно предполагает точное знание состояния мира. Получающаяся эвристика относительно проста, но даёт лучшее соответствие широкому разнообразию ситуаций^[3].

Гиман и др.^[1] возражают, что из дилеммы смещения-дисперсии следует, что такие возможности, как распознавание общих объектов, не может быть получено с нуля, а требует определённого «жёсткого монтажа», который затем превращается в опыт. Именно поэтому подходы к заключениям без модели требуют неоправданно больших наборов тренировочных наборов, если нужно избежать высокой дисперсии.

См. также править

Метод максимального правдоподобия

Примечания править

↑ ¹ ² ³ ⁴ Geman, Bienenstock, Doursat, 1992, с. 1–58.
↑ Encyclopedia of Machine Learning, 2011, с. 100—101.
↑ ¹ ² Gigerenzer, Brighton, 2009, с. 107–143.
↑ ¹ ² James, Witten, Hastie, Tibshirani, 2013, с. 34.
↑ ¹ ² Hastie, Tibshirani, Friedman, 2009, с. 223.
↑ Vijayakumar, 2007.
↑ Shakhnarovich, 2011.
↑ Domingos, 2000.
↑ Valentini, Dietterich, 2004, с. 725–775.
↑ Manning, Raghavan, Schütze, 2008, с. 308–314.
↑ Belsley, 1991.
↑ Gagliardi, 2011, с. 123–139.
↑ James, Witten, Hastie, Tibshirani, 2013, с. 307.
↑ Ting, Vijaykumar, Schaal, 2011, с. 615.
↑ Fortmann-Roe, 2012.

Литература править

Stuart Geman, Bienenstock E., Doursat R. Neural networks and the bias/variance dilemma // Neural Computation. — 1992. — Т. 4. — doi:10.1162/neco.1992.4.1.1.
Bias–variance decomposition // Encyclopedia of Machine Learning. — 2011.
Gerd Gigerenzer, Henry Brighton. Homo Heuristicus: Why Biased Minds Make Better Inferences. — 2009. — Т. 1. — doi:10.1111/j.1756-8765.2008.01006.x. — PMID 25164802.
Gareth James, Daniela Witten, Trevor Hastie, Robert Tibshirani. An Introduction to Statistical Learning. — Springer, 2013.
Trevor Hastie, Robert Tibshirani, Jerome Friedman. The Elements of Statistical Learning. — 2009. Архивная копия от 26 января 2015 на Wayback Machine
Sethu Vijayakumar. The Bias–Variance Tradeoff. — University Edinburgh, 2007.
Greg Shakhnarovich. Notes on derivation of bias-variance decomposition in linear regression. — 2011. Архивировано 21 августа 2014 года.
David Belsley. 7Conditioning diagnostics : collinearity and weak data in regression. — New York: Wiley, 1991. — ISBN 978-0471528890.
Pedro Domingos. A unified bias-variance decomposition // ICML. — 2000.
Giorgio Valentini, Thomas G. Dietterich. Bias–variance analysis of support vector machines for the development of SVM-based ensemble methods // JMLR. — 2004. — Т. 5.
Christopher D. Manning, Prabhakar Raghavan, Hinrich Schütze. Introduction to Information Retrieval. — Cambridge University Press, 2008.
Gagliardi F. Instance-based classifiers applied to medical databases: diagnosis and knowledge extraction // Artificial Intelligence in Medicine. — 2011. — Т. 52, вып. 3. — doi:10.1016/j.artmed.2011.04.002.
Jo-Anne Ting, Sethu Vijaykumar, Stefan Schaal. Locally Weighted Regression for Control. In Encyclopedia of Machine Learning / Claude Sammut, Geoffrey I. Webb.. — Springer, 2011. — С. 615.
Scott Fortmann-Roe. Understanding the Bias–Variance Tradeoff. — 2012.

[_7e17cba62f52ce08-1] ¹ ² ³ ⁴ Geman, Bienenstock, Doursat, 1992, с. 1–58.

[_0bdc58b6b5e67232-2] Encyclopedia of Machine Learning, 2011, с. 100—101.

[_50e600603fcd9820-3] ¹ ² Gigerenzer, Brighton, 2009, с. 107–143.

[_e0d13b4e999a5676-4] ¹ ² James, Witten, Hastie, Tibshirani, 2013, с. 34.

[_0cdfbfb7c8cc36a0-5] ¹ ² Hastie, Tibshirani, Friedman, 2009, с. 223.

[_18fcb6f9bbc04d70-6] Vijayakumar, 2007.

[_1f1aab5be31c17ae-7] Shakhnarovich, 2011.

[_0a3ceec4a8e591f1-8] Domingos, 2000.

[_0e0ff8e05bb04540-9] Valentini, Dietterich, 2004, с. 725–775.

[_c81fb40f55d96539-10] Manning, Raghavan, Schütze, 2008, с. 308–314.

[_e8e7e6fcce23b285-11] Belsley, 1991.

[_547df2e045cb0179-12] Gagliardi, 2011, с. 123–139.

[_9dde388f0140e381-13] James, Witten, Hastie, Tibshirani, 2013, с. 307.

[_0b3ff1b69a612f80-14] Ting, Vijaykumar, Schaal, 2011, с. 615.

[_7fc60aa33a9522e6-15] Fortmann-Roe, 2012.

[1]

[2]

[3]

[4]

[5]

[6]

[7]

[8]

[9]

[10]

[11]

[12]

[13]

[14]

[15]