Обучение с частичным привлечением учителя

Обучение с частичным привлечением учителя (англ. Semi-supervised learning) (также полуавтоматическое обучение или частичное обучение) — способ машинного обучения, разновидность обучения с учителем, которое также использует неразмеченные данные для тренировки — обычно небольшое количество размеченных данных и большое количество неразмеченных данных.

Обучение с частичным привлечением учителя занимает промежуточную позицию между обучением без учителя (без привлечения каких-либо размеченных данных для тренировки) и обучением с учителем (с привлечением лишь размеченных данных).

Многие исследователи машинного обучения обнаружили, что неразмеченные данные, при использовании в сочетании с небольшим количеством размеченных данных, могут значительно улучшить точность обучения.

Задание размеченных данных для задачи обучения часто требует квалифицированного человека (например, для перевода звуковой дорожки в текст) или физического эксперимента (например, для определения 3D структуры белка или выявления наличия нефти в определенном регионе). Поэтому затраты на разметку данных могут сделать процесс обучения с использованием лишь размеченных данных невыполнимым, в то время как процесс задания неразмеченных данных не является очень затратным. В таких ситуациях, полуавтоматическое обучения может иметь большое практическое значение. Такое обучение также представляет интерес в сфере машинного обучения и как модель для человеческого обучения.

Задача обучения править

Как и в рамках обучения с учителем, нам дается множество $l$ независимых одинаково распределенных примеров $x_{1},\dots ,x_{l}\in X$ с соответствующими пометками $y_{1},\dots ,y_{l}\in Y$ . Кроме того, нам дано $u$ неразмеченных примеров $x_{l+1},\dots ,x_{l+u}\in X$ . Цель полуавтоматической обучения заключается в том, чтобы использовать эту комбинированную информацию для достижения лучших результатов производительности классификации, которую можно получить или путем отбрасывания неразмеченных данных и использование обучения с учителем, или путем отбрасывания меток и использование обучения без учителя.

Полуавтоматическое обучение может принадлежать к трансдуктивному обучению^[en] или индуктивного обучения. Целью трансдуктивного обучения является выведение правильных меток только для неразмеченных данных $x_{l+1},\dots ,x_{l+u}$ . Целью индукции является выведение правильного отображения из $X$ в $Y$ .

Мы можем представлять задачу обучения как экзамен, а размеченные данные — как несколько примеров, которые учитель решил в классе. Учитель также предоставляет набор нерешенных задач. В постановке трансдуктивного обучения, эти нерешенные задачи является экзаменом, который забирают домой, и вы хотите хорошо его составить в целом. В постановке индуктивного обучения, эти практические задачи являются подобными тем, с которыми вы столкнетесь на экзамене в классе. Необязательно (и, согласно принципу Вапника^[en], неблагоразумно) проводить трансдуктивне обучения путем логического вывода правила классификации для всех входных данных. Однако, на практике, алгоритмы, формально предназначенные для трансдукции или индукции, часто используются как взаимозаменяемые.

Предположения, которые используются в полуавтоматическом обучении править

Для того, чтобы использовать неразмеченные данные, нужно присвоить некоторую структуру для основного распределения данных. Алгоритмы полуавтоматического обучения используют по крайней мере одно из таких предположений.^[1]

Предположение плавности править

Точки, которые лежат близко друг от друга, размечены одинаково с большей вероятностью. Такое же предположение в основном используется и в обучении с учителем и дает преимущество в использовании геометрически простых решений. В случае полуавтоматического обучения, предположение плавности дополнительно дает преимущество для разграничения в регионах с низкой плотностью, где меньше точек, которые расположены близко друг от друга, но разных классов.

Предположение кластеризованности править

Данные, как правило, образуют дискретные кластеры, и точки из одного кластера размечены одинаково с большей вероятностью (хотя данные, которые используют одинаковые метки, могут быть расположены в нескольких различных кластерах). Это особый случай предположения плавности, который приводит к обучение признаков используя алгоритмы кластеризации.

Предположение избыточности данных править

Это предположение применимо, когда измерения данных избыточны, то есть генерируются определенным процессом, имеющим только несколько степеней свободы. В этом случае неразмеченные данные позволяют изучить генерирующий процесс и за счёт этого снизить размерность.

Например, человеческий голос контролируется несколькими голосовыми связками,^[2] а изображение различных выражений лица контролируются несколькими мышцами. В этих случаях удобнее использовать генерирующее пространство, чем пространство всех возможных акустических волн или изображений, соответственно.

История править

Эвристический подход к самообучению является наиболее ранним.^[1] Он начал применяться с 1960-х годов (см., например, Scudder 1965)^[3]).

Основы трансдуктивного обучения были изложены Владимиром Вапником в 1970-х годах.^[4] В 1970-е годы также появился интерес к индуктивному обучению с использованием генеративных моделей. Применение приближенного правильного обучения ^[en] для полуавтоматического обучения на основе модели гауссовой смеси было продемонстрировано Ратсаби и Венкатешем в 1995 году.^[5]

Полуавтоматическое обучения в последнее время становится все более популярным и растет его актуальность в связи с целым рядом задач, для которых доступно огромное количество неразмеченных данных (например, текст веб страниц, последовательности белков или изображения. Обзор последних работ в этой области см. Чжу (2008).^[6]

Подходы к полуавтоматическому обучению править

Генеративные модели править

Генеративные подходы к статистическому изучению в первую очередь стремятся оценить $p(x|y)$ , распределение точек данных для каждого класса. Вероятность $p(y|x)$ такая, что данная точка $x$ имеет метку $y$ , будет пропорциональной $p(x|y)p(y)$ по теореме Байеса. Полуавтоматическое обучения с использованием генеративных подходов можно рассматривать либо как расширение обучения с учителем (классификация и информация о $p(x)$ ), или как расширение обучения без учителя (кластеризация и некоторые метки).

Генеративные модели предполагают, что распределения принимают определенную форму $p(x|y,\theta )$ , параметризованную вектором $\theta$ . Если эти предположения являются неправильными, то неразмеченные данные могут фактически снизить точность решения по сравнению с тем, которое было бы получено только с размеченных данных.^[7] Однако, если эти предположения верны, то неразмеченные данные обязательно повысят результативность.^[5]

Неразмеченные данные распределены согласно смеси индивидуально-классовых разделений. Для того, чтобы распределение смеси из неразмеченных данных подлежал изучению, эти данные должны быть узнаваемыми, то есть различные параметры должны приводить к различным итоговых распределений. Распредели гауссовой смеси являются узнаваемыми и обычно используются в генеративных моделях.

Параметризованный совместное распределение можно записать в виде $p(x,y|\theta )=p(y|\theta )p(x|y,\theta )$ с помощью цепного правила. Каждый вектор $\theta$ связан с функцией $f_{\theta }(x)={\underset {y}{\operatorname {argmax} }}\ p(y|x,\theta )$ . Затем параметр выбирается на основе подгонки как к размеченных там и до неразмеченных данных, уравновешенных с помощью $\lambda$ :

{\underset {\Theta }{\operatorname {argmax} }}\left(\log p(\{x_{i},y_{i}\}_{i=1}^{l}|\theta )+\lambda \log p(\{x_{i}\}_{i=l+1}^{l+u}|\theta )\right)

^[6]

Разделение низкой плотности править

Это ещё один важный класс методов, который пытается разграничить регионы, в которых есть несколько точек с данными (размеченными или неразмеченными). Одним из наиболее часто используемых алгоритмов является трансдуктивный метод опорных векторов, или ТМОВ (который, несмотря на название, может также быть использованным для индуктивного обучения). В то время как метод опорных векторов для обучения с учителем ищет решение разделяющей поверхности с максимальным зазором в размеченных данных, целью ТМОВ является обозначение неразмеченных данных таким образом, что решение разделяющей поверхности имеет максимальный зазор в сравнении со всеми данными. В дополнение к стандартной петле потери $(1-yf(x))_{+}$ для размеченных данных, функция потерь $(1-|f(x)|)_{+}$ вводится и для неразмеченных данных, обозначив $y=\operatorname {sign} {f(x)}$ . ТМОВ потом выбирает $f^{*}(x)=h^{*}(x)+b$ с гильбертова пространства воспроизводимого ядра ${\mathcal {H}}$ путем минимизации регуляризованого эмпирического риска^[en]:

f^{*}={\underset {f}{\operatorname {argmin} }}\left(\displaystyle \sum _{i=1}^{l}(1-y_{i}f(x_{i}))_{+}+\lambda _{1}||h||_{\mathcal {H}}^{2}+\lambda _{2}\sum _{i=l+1}^{l+u}(1-|f(x_{i})|)_{+}\right)

Точное решение является неразрешимым из-за невыпуклого члена $(1-|f(x)|)_{+}$ , поэтому исследования сосредоточены на поиске полезных приближений.^[6]

Другие подходы, которые осуществляют распределение низкой плотности, включают в себя модели гауссова процесса, упорядочение информации, и минимизацию энтропии (из которых ТМОВ является частным случаем).

Методы на основе графов править

Методы на основе графов для полуавтоматической обучения используют данные, представленные при помощи графа, с узлом для каждого размеченного или неразмеченного примера. Граф может быть построен с использованием знаний в предметной области или на основе сходства примеров. Два общих подхода включают соединение каждой точки данных с её $k$ ближайшими соседями или с примерами на расстоянии в пределах $\epsilon$ . Вес $W_{ij}$ ребра между $x_{i}$ и $x_{j}$ устанавливается равным $e^{\frac {-||x_{i}-x_{j}||^{2}}{\epsilon }}$ .

В рамках регуляризации многообразия^[8]^[9] граф служит как представитель многообразия. Выражение добавляется к стандартной задаче регуляризации Тихонова для обеспечения гладкости решения относительно многовидності (в собственном пространстве задачи), а также окружающей входного пространства. Задачей минимизации становится:

{\underset {f\in {\mathcal {H}}}{\operatorname {argmin} }}\left({\frac {1}{l}}\displaystyle \sum _{i=1}^{l}V(f(x_{i}),y_{i})+\lambda _{A}||f||_{\mathcal {H}}^{2}+\lambda _{I}\int _{\mathcal {M}}||\nabla _{\mathcal {M}}f(x)||^{2}dp(x)\right)

^[6]

где ${\mathcal {H}}$ — это гильбертово пространство воспроизводимого ядра, а ${\mathcal {M}}$ — многовид данным. Параметры регуляризации $\lambda _{A}$ и $\lambda _{I}$ контролируют гладкость в близлежащих и внутренних пространствах соответственно. Граф используется для аппроксимации внутреннего регуляризующего члена. Определив матрицу Кирхгофа^[en] , где и вектор, получаем:

\mathbf {f} ^{T}L\mathbf {f} =\displaystyle \sum _{i,j=1}^{l+u}W_{ij}(f_{i}-f_{j})^{2}\approx \int _{\mathcal {M}}||\nabla _{\mathcal {M}}f(x)||^{2}dp(x)

Эвристические подходы править

Некоторые из методов полуавтоматического обучения не приспособлены для использования одновременно как размеченных так и неразмеченных данных, но зато могут привлекать неразмеченные данные для обучения с учителем. Например, размеченные и неразмеченные примеры могут информировать о способе представления, метрику, или ядра данных на первом шаге без учителя. Тогда обучение с учителем обрабатывает только размеченные примеры.

Самообучение — метод-обертка полуавтоматического обучения.^[10] Первоначально обучение с учителем обрабатывает только размеченные данные. Этот классификатор затем применяется к неразмеченным данным, чтобы сгенерировать больше размеченных примеров для обучения с учителем. В общем, можно быть уверенным, что только метки классификатора добавляются на каждом шагу.^[11]

Совместное обучение является расширением самообучения, при котором несколько классификаторов прорабатывают разные (в идеале, непересекающиеся) множества признаков и генерируют размеченные примеры друг для друга.^[12]

Полуавтоматическое обучение в человеческом восприятии править

Человеческие ответы на формальные задачи полуавтоматического обучения принесли различные выводы относительно степени влияния неразмеченных данных (краткое изложение см.^[13]). Много задач естественного обучения также можно рассматривать как примеры полуавтоматического обучения. Большинство принципов человеческого обучения предусматривает небольшое количество прямых инструкций (например, разметка объектов родителями в детстве) в совокупности с огромным количеством неразмеченных примеров (например, наблюдения за объектами не называя или не считая их, или по крайней мере не описывая их).

Младенцы чувствительны к структуре неразмеченных данных, таких как изображения собак и кошек, или мужских и женских лиц.^[14] Недавние исследования обнаружили, что младенцы и дети учитывают не только доступные неразмеченные примеры, но и процесс отбора из них, в результате которого возникают размеченные примеры.^[15]^[16]

См. также править

Обучение с учителем

Источники править

↑ ¹ ² Semi-supervised learning (неопр.). — Cambridge, Mass.: MIT Press, 2006. — ISBN 978-0-262-03358-9.
↑ Stevens, K.N.(2000), Acoustic Phonetics, MIT Press, ISBN 0-262-69250-3, 978-0-262-69250-2
↑ Scudder, H.J. Probability of Error of Some Adaptive Pattern-Recognition Machines.
↑ Вапник, В. Н., Червоненкис, А. Я. Теория распознавания образов. — М.: Наука, 1974. — 416 с.
↑ ¹ ² Ratsaby, J. and Venkatesh, S. Learning from a mixture of labeled and unlabeled examples with parametric side information.
↑ ¹ ² ³ ⁴ Zhu, Xiaojin.
↑ Cozman, F. and Cohen, I. Risks of semi-supervised learning: how unlabeled data can degrade performance of generative classifiers.
↑ M. Belkin, P. Niyogi. Semi-supervised Learning on Riemannian Manifolds (неопр.) // Machine Learning. — 2004. — Т. 56, № Special Issue on Clustering. — С. 209—239. — doi:10.1023/b:mach.0000033120.25363.1e. Архивировано 17 июня 2017 года.
↑ M. Belkin, P. Niyogi, V. Sindhwani.
↑ Triguero, Isaac. Self-labeled techniques for semi-supervised learning: taxonomy, software and empirical study (англ.) // Knowledge and Information Systems : journal. — 2013. — 26 November (vol. 42, no. 2). — P. 245—284. — ISSN 0219-1377. — doi:10.1007/s10115-013-0706-y. Архивировано 17 августа 2017 года.
↑ Fazakis, Nikos. Self-Trained LMT for Semisupervised Learning (англ.) // Computational Intelligence and Neuroscience : journal. — 2015. — 29 December (vol. 2016). — P. 1—13. — doi:10.1155/2016/3057481.
↑ Didaci, Luca. Analysis of Co-training Algorithm with Very Small Training Sets (англ.). — Springer Berlin Heidelberg. — P. 719—726. — ISBN 9783642341656. Архивировано 2 июня 2018 года.
↑ Introduction to semi-supervised learning (англ.). — Morgan & Claypool, 2009. — ISBN 9781598295481.
↑ Younger B. A., Fearing D. D. Parsing Items into Separate Categories: Developmental Change in Infant Categorization (англ.) // Child Development : journal. — 1999. — Vol. 70. — P. 291—303. — doi:10.1111/1467-8624.00022.
↑ Xu, F. and Tenenbaum, J. B. Sensitivity to sampling in Bayesian word learning. Developmental Science (англ.) // Developmental Science (англ.) (рус. : journal. — 2007. — Vol. 10. — P. 288—297. — doi:10.1111/j.1467-7687.2007.00590.x.
↑ Gweon, H., Tenenbaum J.B., and Schulz L.E. Infants consider both the sample and the sampling process in inductive generalization (англ.) // Proceedings of the National Academy of Sciences of the United States of America : journal. — 2010. — Vol. 107, no. 20. — P. 9066—9071. — doi:10.1073/pnas.1003095107. Архивировано 12 июня 2016 года.

Ссылки править

[Chapelle-1] ¹ ² Semi-supervised learning (неопр.). — Cambridge, Mass.: MIT Press, 2006. — ISBN 978-0-262-03358-9.

[StevensKN-2] Stevens, K.N.(2000), Acoustic Phonetics, MIT Press, ISBN 0-262-69250-3, 978-0-262-69250-2

[3] Scudder, H.J. Probability of Error of Some Adaptive Pattern-Recognition Machines.

[4] Вапник, В. Н., Червоненкис, А. Я. Теория распознавания образов. — М.: Наука, 1974. — 416 с.

[Ratsaby-5] ¹ ² Ratsaby, J. and Venkatesh, S. Learning from a mixture of labeled and unlabeled examples with parametric side information.

[survey-6] ¹ ² ³ ⁴ Zhu, Xiaojin.

[7] Cozman, F. and Cohen, I. Risks of semi-supervised learning: how unlabeled data can degrade performance of generative classifiers.

[8] M. Belkin, P. Niyogi. Semi-supervised Learning on Riemannian Manifolds (неопр.) // Machine Learning. — 2004. — Т. 56, № Special Issue on Clustering. — С. 209—239. — doi:10.1023/b:mach.0000033120.25363.1e. Архивировано 17 июня 2017 года.

[9] M. Belkin, P. Niyogi, V. Sindhwani.

[10] Triguero, Isaac. Self-labeled techniques for semi-supervised learning: taxonomy, software and empirical study (англ.) // Knowledge and Information Systems : journal. — 2013. — 26 November (vol. 42, no. 2). — P. 245—284. — ISSN 0219-1377. — doi:10.1007/s10115-013-0706-y. Архивировано 17 августа 2017 года.

[11] Fazakis, Nikos. Self-Trained LMT for Semisupervised Learning (англ.) // Computational Intelligence and Neuroscience : journal. — 2015. — 29 December (vol. 2016). — P. 1—13. — doi:10.1155/2016/3057481.

[12] Didaci, Luca. Analysis of Co-training Algorithm with Very Small Training Sets (англ.). — Springer Berlin Heidelberg. — P. 719—726. — ISBN 9783642341656. Архивировано 2 июня 2018 года.

[ZhuGoldberg-13] Introduction to semi-supervised learning (англ.). — Morgan & Claypool, 2009. — ISBN 9781598295481.

[14] Younger B. A., Fearing D. D. Parsing Items into Separate Categories: Developmental Change in Infant Categorization (англ.) // Child Development : journal. — 1999. — Vol. 70. — P. 291—303. — doi:10.1111/1467-8624.00022.

[15] Xu, F. and Tenenbaum, J. B. Sensitivity to sampling in Bayesian word learning. Developmental Science (англ.) // Developmental Science (англ.) (рус. : journal. — 2007. — Vol. 10. — P. 288—297. — doi:10.1111/j.1467-7687.2007.00590.x.

[16] Gweon, H., Tenenbaum J.B., and Schulz L.E. Infants consider both the sample and the sampling process in inductive generalization (англ.) // Proceedings of the National Academy of Sciences of the United States of America : journal. — 2010. — Vol. 107, no. 20. — P. 9066—9071. — doi:10.1073/pnas.1003095107. Архивировано 12 июня 2016 года.

[1]

[2]

[3]

[4]

[5]

[6]

[7]

[8]

[9]

[10]

[11]

[12]

[13]

[14]

[15]

[16]