集成学习

zoukankan html css js c++ java

集成学习

这篇博客主要讲几种常见的集成学习方法：bagging, boosting, stacking。

简介

这一小节先简单讲讲这几种集成学习方法的思路，这几种方法的思路其实是很简单的。

bagging，是 Bootstrap aggregating 的简称，它使用了自主采样法(Boostrap)。从训练集采样出 (n) 个子集，分别对这 (n) 个子集进行训练，得到 (n) 个基学习器。对于分类问题，可以由这 (n) 个基学习器投票得出结果；对于回归问题，可以由这 (n) 个基学习器平均输出得到结果。采样、训练的过程是可以并行进行的，这个方法很容易就并行化了。

boosting，这里引用 Wikipedia[4] 的说法，boosting 是一族将弱学习器转化为强学习器的算法，boosting 来源于一个问题: "Can a set of weak learners create a single strong learner?"。因此，那些将弱学习器转化为强学习器的一类算法都可以算是 boosting。

stacking，和它的名字一样，将多个基学习器像栈一样堆叠起来。stacking 一般分成两层，第一层的输入是训练集。第二层的输入是第一层多个学习器的预测结果。

bagging

集成学习集成的就是一些“好而不同”的基学习器，在 bagging 中，如何产生这些“好而不同”的基学习器呢？方法是，对训练集进行采样，产生了不同的子集，这些不同的子集学习产生的基学习器在一定程度上会存在差异。“好而不同”，这就是为什么 bagging 要采样产生数据集的子集来训练的原因。

自助采样法

采样方法：有放回的采样 (|D|) 次，(|D|) 表示数据集大小。

这个自助采样法在 [2] 中提出的地方，讲的是训练集和测试集划分的问题，它旨在寻找一种可以较好评估模型的方法。

随机森林

随机森林，是用了决策树作为基学习器的 bagging。此外，在决策树生成的过程中，每次选择最优划分属性之前，都要随机选择 (k) 个的属性子集，从这 (k) 个属性中选出最优划分属性。

boosting

这个小节主要介绍 adaboost，提升树和前向分步算法将会在写在另一篇博客中。对于 adaboost，使用整个训练集来训练一个基学习器，再使用基学习器对整个数据集做预测，根据预测结果的正误，我们可以加大错误样本的权重，减小正确样本的权重。之后再重新学习一个基学习器，如此进行学习 (n) 个基学习器。最后预测的结果由这 (n) 个基学习器加权计算得到结果，权重的计算可以使用基学习器在训练集上的正确率来计算。由于每个学习器的样本权重依赖于上一个样本的权重，所以这个过程必须是一个一个地进行的。

[2] 中描述的算法如下图所示，书里主要介绍了 adaboost 算法。初始情况下，所有样本的权重一样大，所有样本都受到相同的关注。第 3 行，是学习出来的预测函数，第 4 行是这个预测函数预测的错误率。如果这个错误率大于 0.5，也就是比瞎猜还要差，那么就退出，不能让他参与到最终的决策。第 6 行，计算这个基学习器的比重，在最后预测的时候，使用加权求和来进行预测。第 7 行，更新样本的权值，让那些分类错误的样本受到更多的关注。

stacking

这里从 [3] 那里盗一张图，未经原作者允许，侵删。我觉得这张图讲的最清楚不过了。

stacking 一般和交叉验证一起来用，目的是为了防止过拟合。将训练集分为 (K) 折，其中的一折拿来做验证集，剩下的拿来训练第一层的基学习器。假如我们有 (n) 个基学习器，基学习器学习好了之后，对那一折的一个样本做预测，我们可以得到一个 (n) 维向量，将这些 (n) 维向量作为第二层学习器的输入。一般来说，第二层的学习器使用 LR 就可以了。

Question

Q: adaboost 的(alpha) 和权值如何推导出来的？

A: 这个得看前向分步算法。

Q: 提升树和 boosting 什么关系呢？它似乎没有改变样本的权重。

A: 有这个问题，说明混淆了 boosting 和 boosting 的具体实现。改变样本权重来再次训练基学习器，是 boosting 的一个思路。boosting 来自于 [4] 提到的 "Can a set of weak learners create a single strong learner?"，boosting 旨在将弱学习器转为强学习器。提升树做的也是这个事情，将弱的决策树提升，组合成为一个更强的预测函数。

Q: 为什么说 stacking 容易过拟合，交叉验证如何避免过拟合？

A: 还有待思考。。。

[1] 李航统计学习方法
[2] 周志华机器学习
[3] https://zhuanlan.zhihu.com/p/31961233
[4] https://en.wikipedia.org/wiki/Boosting_(machine_learning)

查看全文

相关阅读:
克服 iOS HTML5 音频的局限
 oracle__删除重复记录__三种方法及总结(转载百度文库)
Oracle 字符集
 无法通过网页进入em
Ubuntu 12.04(32位)安装Oracle 11g(32位)全过程以及几乎所有问题的解决办法
 正则表达式30分钟入门教程
 linux下安装jdk
QTP相关书籍
 假的数论gcd，真的记忆化搜索（Codeforce 1070- A. Find a Number）
搜索基础_HDU1312_dfs_递归+stack实现+bfs_queue实现

原文地址：https://www.cnblogs.com/zzk0/p/13790050.html

简介

bagging

boosting

stacking

Question