首先先附上一篇写得比较好的博主的文章,受益非浅,当初一开始学习这个的时候看过,顺便收藏了,就保存至今
https://www.cnblogs.com/Sugar-Chl/p/10146054.html
集成学习,是在各种有监督学习算法上进行一种或者多种算法进行预测,然后通过最高投票选出分类、或者通过平均、或者通过预测结果作为新的样本进行训练的方法。这样可以避免单一弱分类器上遇到的各种问题,当然训练的时间和性能要求也会高些。
集成学习算法可以分为Boosting、Bagging、Stacking三个类型的算法
1)Bagging的代表算法有 Bagging + 决策树 = 随机森林 每次都随机有放回的训练
2)Boosting的代表算法有 AdaBoost + 决策树 = 提升树 每次训练错误的分类加权重
3)Stacking的代表算法有 Gradient Boosting + 决策树 = GBDT 每次训练结果做为新的分类器的输入
其中,各种弱分类器选择上,一般都选择Decision Tree 是因为它有很多的优点,又可以进行分类,又可以进行回归