合成分类器

zoukankan html css js c++ java

合成分类器

若训练集的微小变动会引起预测或决策边界的大变化，则称一个分类器是不稳定的。高方差的分类器本质上就是不稳定的，因为它们通常会过拟合数据。另一方面，高偏置方法通常弱拟合数据，因此通常有着较低的方差。无论何种情况下，学习的目标都是要通过降低方差或偏置来减少分类错误(最好是能够同时降低方差和偏置。组合方法使用在不同数据子集上训练的多个基底分类器的输出来创建一个合成分类器。根据训练数据选择的方法和基底分类器稳定性的不同，合成分类器可以降低方差和偏置，从而得到更好的总体性能。

装袋法

又称为自助聚合，是一种利用输入训练集D的多个自助样本（带放回）来创建略有不同的训练集 D_i 的合成分类方法。

主要是利用多数投票的方式来预测

可以减小方差，特备是基底分类器不稳定时，这是多数投票的平均作用所致。但是它对偏置没什么影响。

boosting

boosting是另一种合成技巧，也是在不同的样本上训练基底分类器。不过其核心思想是精心选择样本以提升较难分类的实例的性能。从一个初始的训练样本D1开始，先训练季度分类器M₁，得到它的训练误差率。然后，以更高的概率选择被误分类的实例来构建下一个样本D₂，并训练M₂，得到其错误率。接着以更高的概率选择难以被M₁和M₂分类的实例，构建D₃。重复这一过程K次。因此，不像装袋法使用从输入数据集得到的独立的随机样本，boosting使用带权的或偏置的样本来构造不同的训练集合，每一个当前样本都依赖于之前的样本。最后，合成的分类器通过对K个基底分类器M₁, M,...，M_k的输出的带权投票来得到。

boosting在基底分类器较弱的时候有特别好的提升效果。弱基底分类器的性能仅稍高于随机分类器。基本的思想是，尽管M₁并不对所有的测试实例有好的效果，但M2可能帮助应对分类M₁不起作用的情况; M₃可以更好地分类M₁和M₂失败的情况，以此类推。因此，boosting 可以降低偏置。每一个弱分类器都有较高的偏置( 仅稍好于随机猜测)，但最后合成的分类器的偏置要小得多，因为不同的弱分类器在输入空间的不同区域学习分类实例。boosting的变种包括基于不同的实例权值计算方式、不同的基底分类器集成方式，等等。现在讨论的自适应Boosting ( AdaBoost)，是非常流行的一一种方法。

查看全文

相关阅读:
洛谷1525关押罪犯——二分
 洛谷P1525关押罪犯——二分做法
 poj2411铺砖——状压DP
1 理解Linux系统的“平均负载”
3.2-3 tac、more
3.20 tr：替换或删除字符
 3.14-19 wc、iconv、dos2unix、diff、vimdiff、rev
3.21-22 od、tee
指针和引用的区别
 new与malloc区别

原文地址：https://www.cnblogs.com/QianYue111/p/13873428.html

装袋法

boosting