模型融合---为什么说bagging是减少variance，而boosting是减少bias?

zoukankan html css js c++ java

模型融合---为什么说bagging是减少variance，而boosting是减少bias?

1.bagging减少variance

Bagging对样本重采样，对每一重采样得到的子样本集训练一个模型，最后取平均。由于子样本集的相似性以及使用的是同种模型，因此各模型有近似相等的bias和variance（事实上，各模型的分布也近似相同，但不独立），所以bagging后的bias和单个子模型的接近，一般来说不能显著降低bias。

若各模型独立，则 $var(sum_{i=1}^{n}{X_i}/n)=var({X_i})/n$

若各模型完全相等，则 $var(sum_{i=1}^{n}{X_i}/n)=var({X_i})$

此时不会降低variance。bagging方法得到的各子模型是有一定相关性的，属于上面两个极端状况的中间态，因此可以一定程度降低variance。为了进一步降低variance，Random forest通过随机选取变量子集做拟合的方式de-correlated了各子模型（树），使得variance进一步降低。

2.boosting减少bias

boosting从优化角度来看，是用forward-stagewise这种贪心法去最小化损失函数。 $L(y,sum_{i=1}^{n}{a_if_{i}(x)})$

例如，常见的AdaBoost即等价于用这种方法最小化exponential loss： $L(y,f(x))=exp(-yf(x))$ 。

所谓forward-stagewise，就是在迭代的第n步，求解新的子模型f(x)及步长a（或者叫组合系数），来最小化 $L(y,f_{n-1}(x)+af(x))$ ，这里 $f_{n-1}(x)$ 是前n-1步得到的子模型的和。因此boosting是在sequential地最小化损失函数，其bias自然逐步下降。但由于是采取这种sequential、adaptive的策略，各子模型之间是强相关的，于是子模型之和并不能显著降低variance。所以说boosting主要还是靠降低bias来提升预测精度。

参考文献：

【1】知乎大佬回答
【2】Bagging与方差

查看全文

相关阅读:
个人-GIT使用方法
 结对贪吃蛇游戏-结对编项目设计文档
 结对编程项目作业2-开发环境搭建过程
 团队编程项目作业2-团队编程项目设计文档
 结对编程项目作业5
课后作业-阅读任务-阅读提问-3
团队编程项目作业3-模块测试过程
 团队编程项目作业3-模块开发过程
 结对编程项目作业4
课后作业-团队编程项目进度

原文地址：https://www.cnblogs.com/nxf-rabbit75/p/11165014.html

模型融合---为什么说bagging是减少variance，而boosting是减少bias?

1.bagging减少variance

2.boosting减少bias