Статистическая теория обучения

Статистическая теория обучения — это модель для машинного обучения на основе статистики и функционального анализа^[1]^[2]. Статистическая теория обучения имеет дело с задачами нахождения функции предсказывания, основанной на данных. Статистическая теория обучения привела к успешным приложениям в таких областях, как компьютерное зрение, распознавание речи и биоинформатика.

Введение

Целью обучения является понимание и предвидение. Обучение распадается на несколько категорий, включая обучение с учителем, обучение без учителя, онлайновое обучение и обучение с подкреплением. С точки зрения статистической теории обучения обучение с учителем является наиболее понятным^[3]. Обучение с учителем вовлекает обучение с помощью тренировочного набора^[англ.] данных. Любой момент тренировки является парой вход/выход, где входное значение отображается в выходное. Задача обучения состоит в реконструкции функции, которая отображает входные значения в выходные так, что функция может быть использована для предсказания вывода при будущих вводах.

В зависимости от типа вывода, задачи обучения с учителем либо являются задачами регрессии, либо задачами классификации. Если вывод может принимать непрерывную область значений, это задача регрессии. Используя закон Ома в качестве примера, регрессия могла бы брать напряжение в качестве входа и выдавать ток как выход. Регрессия могла бы найти связь напряжения и тока как ${\frac {1}{R}}$ , так что

I={\frac {1}{R}}V

Задачи классификации — это те, для которых выводом будет элемент из набора меток. Классификация очень обычна для приложений машинного обучения. В системе распознавания лиц, например, изображение лица будет входом, а выходом может быть фамилия человека. Вход может быть представлен как большой многомерный вектор, элементы которого представляют пиксели в изображении.

После обучения функция, основанная на тренировочном наборе данных, это функция проверяется на тестовом наборе данных, которые не появляются в тренировочном наборе.

Формальное описание

Пусть $X$ будет векторным пространством всех возможных входных данных, а $Y$ — векторным пространством всех возможных выходов. Статистическая теория обучения предполагает, что имеется некоторое неизвестное распределение вероятности над произведением пространств $Z=X\times Y$ , то есть существует некоторая неизвестная $p(z)=p({\vec {x}},y)$ . Тренировочное множество состоит из $n$ экземпляров этого распределения вероятности и обозначается

S=\{({\vec {x}}_{1},y_{1}),\dots ,({\vec {x}}_{n},y_{n})\}=\{{\vec {z}}_{1},\dots ,{\vec {z}}_{n}\}

Каждый ${\vec {x}}_{i}$ является входным вектором из тренировочных данных, а $y_{i}$ является выходом, соответствующим этому входному вектору.

В такой формализации задача вывода состоит в нахождении функции $f:X\to Y$ , такой что $f({\vec {x}})\sim y$ . Пусть ${\mathcal {H}}$ — пространство функций $f:X\to Y$ , которое называется пространством гипотез. Пространство гипотез — это пространство, которое алгоритм будет просматривать. Пусть $V(f({\vec {x}}),y)$ будет функцией потерь, метрикой разницы между предсказанным значением $f({\vec {x}})$ и истинным значением $y$ . Ожидаемый риск определяется как

I[f]=\displaystyle \int _{X\times Y}V(f({\vec {x}}),y)\,p({\vec {x}},y)\,d{\vec {x}}\,dy

Целевая функция, лучшая функция $f$ , которая может быть выбрана, это функция, удовлетворяющая условию

I[f]=\inf _{h\in {\mathcal {H}}}I[h]

Поскольку распределение вероятности $p({\vec {x}},y)$ неизвестно, должны быть использованы косвенные показатели ожидаемого риска. Эти показатели основываются на тренировочном множестве, выборке из этого неизвестного распределения вероятности. Такой показатель называется эмпирическим риском: $I[f]={\frac {1}{n}}\displaystyle \sum _{i=1}^{n}V(f({\vec {x}}_{i}),y_{i})$ . Алгоритм обучения, который выбирает функцию $f$ , минимизирующую эмпирический риск, называется минимизацией эмпирического риска^[англ.].

Функции потерь

Выбор функции потерь — это определение определяющего фактора для функции $f_{S}$ , которая будет выбрана обучающим алгоритмом. Функция потерь влияет также на скорость сходимости алгоритма. Важно, чтобы функции потерь была выпуклой ^[4].

Используются разные функции потерь в зависимости от того, является задача регрессией или классификацией.

Регрессия

Наиболее употребительной функцией потерь для регрессии является квадратичная функция потерь (известная также как L2-норма). Эта знакомая функция потерь используется в обычном методе наименьших квадратов^[англ.]. Формула:

V(f({\vec {x}}),y)=(y-f({\vec {x}}))^{2}

Абсолютная величина потери (известная также как L1-норма) также иногда используется:

V(f({\vec {x}}),y)=|y-f({\vec {x}})|

Классификация

В некотором смысле 0-1 индикаторная функция является наиболее естественной функцией потерь для задач классификации. Функция принимает значение 0, если предсказанный результат совпадает с верным значением и значение 1, если предсказанный результат не совпадает с верным значением. Для двоичной классификации $Y=\{-1,1\}$ это будет:

V(f({\vec {x}}),y)=\theta (-yf({\vec {x}}))

где $\theta$ — функция Хевисайда.

Рисунок показывает пример переобучения при машинном обучении. Красные точки представляют тренировочные данные. Зелёная линия представляет истинную функциональную зависимость, в то время как синяя линия показывает функцию — результат обучения, ставшую жертвой переобучения.

Регуляризация

В задачах машинного обучения главной проблемой становится переобучение. Поскольку обучение является задачей предсказания, целью является не поиск функции, которая наиболее близко подходит для (предварительно просмотренных) данных, а поиск функции, которая будет наиболее точно предсказывать выход из будущих входных данных. Минимизация эмпирического риска попадает в этот риск переобучения — нахождение функции, которая соответствует в точности данным, но не в состоянии предсказать будущее.

Переобучение является симптомом нестабильных решений — малые изменения в тренировочном наборе могут вызвать большие вариации в функции обучения. Можно показать, что стабильность решения может быть гарантирована^[5]^[6]. Регуляризация может решить проблему переобучения и обеспечить стабильность.

Регуляризация может быть осуществлена путём ограничения пространства гипотез ${\mathcal {H}}$ . Можно ограничить, например, ${\mathcal {H}}$ линейными функциями — это можно рассматривать как ограничение до стандартной задачи линейной регрессии. ${\mathcal {H}}$ можно ограничить до многочленов степени $p$ , экспонент или ограниченных функций на L1. Ограничение на пространстве гипотез исключает переобучение ограничением вида потенциальных функций, что не даёт выбирать функции, дающие эмпирический риск произвольно близким нулю.

Одним из примеров регуляризации является регуляризация Тихонова. Она состоит в минимизации

{\frac {1}{n}}\displaystyle \sum _{i=1}^{n}V(f({\vec {x}}_{i},y_{i}))+\gamma \|f\|_{\mathcal {H}}^{2}

,

где $\gamma$ фиксированный положительный параметр. Метод регуляризации Тихонова обеспечивает существование, единственность и стабильность решения^[7].

Примечания

↑ Hastie, Tibshirani, Friedman, 2009.
↑ Mohri, Rostamizadeh, Talwalkar, 2012.
↑ Tomaso Poggio, Lorenzo Rosasco, et al. Statistical Learning Theory and Applications, 2012, Class 1 Архивная копия от 16 сентября 2012 на Wayback Machine
↑ Rosasco, Vito, Caponnetto, Fiana, Verri, 2004, с. 1063—1076.
↑ Vapnik, Chervonenkis, 1971, с. 264—280.
↑ Mukherjee, Niyogi, Poggio, Rifkin, 2006, с. 161—193.
↑ Tomaso Poggio, Lorenzo Rosasco, et al. Statistical Learning Theory and Applications, 2012, Class 2 Архивная копия от 16 августа 2016 на Wayback Machine

Литература

Trevor Hastie, Robert Tibshirani, Jerome Friedman. The Elements of Statistical Learning. — Springer-Verlag, 2009. — ISBN 978-0-387-84857-0.
Mehryar Mohri, Afshin Rostamizadeh, Ameet Talwalkar. Foundations of Machine Learning.. — USA, Massachusetts: MIT Press., 2012. — ISBN 9780262018258.
Gagan Sidhu, Brian Caffo. Exploiting pitcher decision-making using Reinforcement Learning // Annals of Applied Statistics. — 2014. — Т. 8, вып. 2. — doi:10.1214/13-AOAS712.
Rosasco L., Vito E.D., Caponnetto A., Fiana M., Verri A. Are loss functions all the same? // Neural computation. — 2004. — Т. 16.
Vapnik V. N., Chervonenkis A. Y. On the uniform convergence of relative frequencies of events to their probabilities // Theory of Probability and its Applications. — 1971. — Т. 16.
Mukherjee S., Niyogi P., Poggio T., Rifkin R. Learning theory: stability is sufficient for generalization and necessary and sufficient for consistency of empirical risk minimization // Advances in Computational Mathematics. — 2006. — Т. 25.

[_2f5f8a5736a19ba1-1] Hastie, Tibshirani, Friedman, 2009.

[_c96aae220ded1ab1-2] Mohri, Rostamizadeh, Talwalkar, 2012.

[3] Tomaso Poggio, Lorenzo Rosasco, et al. Statistical Learning Theory and Applications, 2012, Class 1 Архивная копия от 16 сентября 2012 на Wayback Machine

[_201343e2349b349b-4] Rosasco, Vito, Caponnetto, Fiana, Verri, 2004, с. 1063—1076.

[_5d298b6a3fb48abb-5] Vapnik, Chervonenkis, 1971, с. 264—280.

[_f5a1869f271c48c7-6] Mukherjee, Niyogi, Poggio, Rifkin, 2006, с. 161—193.

[7] Tomaso Poggio, Lorenzo Rosasco, et al. Statistical Learning Theory and Applications, 2012, Class 2 Архивная копия от 16 августа 2016 на Wayback Machine

[1]

[2]

[3]

[4]

[5]

[6]

[7]