Метод случайного леса: различия между версиями

[отпатрулированная версия][отпатрулированная версия]
Содержимое удалено Содержимое добавлено
→‎Достоинства: викификация
Строка 16:
 
Наиболее распространённый способ построения деревьев ансамбля называется [[бэггинг]] ({{lang-en|bagging}}, сокращение от {{lang-en|bootstrap aggregation)}}, "расфасовка"):
# Сгенерируем случайную подвыборку '''с повторениями''' размером <math>N</math> из обучающей выборки. Некоторые образцы попадут в неё два или более раза, тогда как в среднем <math>N(1-1/N)^N</math> (при больших <math>N</math> примерно <math>N/e</math>, где [[e (число)|<math>e</math>]] — [[E (число)|основание натурального логарифма]]) образцов называются '''''не вошедними в набор''''' или '''''неотобранными''''' ({{lang-en|out-of-bag}}).
# Построим [[Дерево принятия решений|решающее дерево]], классифицирующее образцы данной подвыборки, причём в ходе создания очередного узла дерева будем выбирать набор признаков, на основе которых производится разбиение (не из всех ''M'' признаков, а лишь из ''m'' случайно выбранных). Выбор наилучшего из этих ''m'' признаков может осуществляться различными способами. В оригинальном методе Бреймана используется [[:en:Decision tree learning#Gini impurity|критерий Джини]], применяющийся также в алгоритме построения решающих деревьев [[CART (алгоритм)|CART]]. В некоторых реализациях алгоритма вместо него используется [[:en:Information gain in decision trees|критерий прироста информации]].<ref>[http://cwiki.apache.org/MAHOUT/random-forests.html Описание процедуры построения деревьев, применяющейся в Apache Mahout]{{ref-en}}{{проверено|07|06|2009}}</ref>
# Дерево строится до полного исчерпания подвыборки и не подвергается процедуре прунинга ({{lang-en|{{iw|Pruning (decision trees)|pruning}}}} — отсечение ветвей), в отличие от решающих деревьев алгоритмов вроде [[CART (алгоритм)|CART]] или [[C4.5]].