zoukankan      html  css  js  c++  java
  • 合成分类器

    若训练集的微小变动会引起预测或决策边界的大变化,则称一个分类器是不稳定的。高方差的分类器本质上就是不稳定的,因为它们通常会过拟合数据。另一方面, 高偏置方法通常弱拟合数据,因此通常有着较低的方差。无论何种情况下,学习的目标都是要通过降低方差或偏置来减少分类错误(最好是能够同时降低方差和偏置。组合方法使用在不同数据子集上训练的多个基底分类器的输出来创建一个 合成分类器。根据训练数据选择的方法和基底分类器稳定性的不同,合成分类器可以降低方差和偏置,从而得到更好的总体性能。

    装袋法

    又称为自助聚合,是一种利用输入训练集D的多个自助样本(带放回)来创建略有不同的训练集 Di 的合成分类方法。

    主要是利用多数投票的方式来预测

    可以减小方差,特备是基底分类器不稳定时,这是多数投票的平均作用所致。但是它对偏置没什么影响。

    boosting

    boosting是另一种合成技巧,也是在不同的样本上训练基底分类器。不过其核心思想是精心选择样本以提升较难分类的实例的性能。从一个初始的训练样本D1开始,先训练季度分类器M1,得到它的训练误差率。然后,以更高的概率选择被误分类的实例来构建下一个样本D2,并训练M2,得到其错误率。接着以更高的概率选择难以被M1和M2分类的实例,构建D3。重复这一过程K次。因此,不像装袋法使用从输入数据集得到的独立的随机样本,boosting使用带权的或偏置的样本来构造不同的训练集合,每一个当前样本都依赖于之前的样本。最后,合成的分类器通过对K个基底分类器M1, M,...,Mk的输出的带权投票来得到。

    boosting在基底分类器较弱的时候有特别好的提升效果。弱基底分类器的性能仅稍高于随机分类器。基本的思想是,尽管M1并不对所有的测试实例有好的效果,但M2可能帮助应对分类M1不起作用的情况; M3可以更好地分类M1和M2失败的情况,以此类推。因此,boosting 可以降低偏置。每一个弱分类器都有较高的偏置( 仅稍好于随机猜测),但最后合成的分类器的偏置要小得多,因为不同的弱分类器在输入空间的不同区域学习分类实例。boosting的变种包括基于不同的实例权值计算方式、不同的基底分类器集成方式,等等。现在讨论的自适应Boosting ( AdaBoost),是非常流行的一一种方法。

  • 相关阅读:
    我的本科毕业论文——Messar即时通讯系统
    你为什么不用Flash做程序的表示层呢?
    用于Blog的天气预报服务-改进20050806
    写了个小程序,方便大家编程(QuickDog,快捷键帮手)
    庆祝"上海.NET俱乐部"今天成立,请申请加入的朋友在这里Sign you name
    HTML+CSS+Javascript教学视频【0409更新】
    关于推迟7月9日上海.NET俱乐部第一次技术交流会的通知
    关于“上海.NET俱乐部”第一次技术交流会进展报告
    2005年8月13日 上海.NET俱乐部第一次活动纪实 已经发布,资料提供下载
    喜欢互联网行业,是因为它拥有着无穷的变数
  • 原文地址:https://www.cnblogs.com/QianYue111/p/13873428.html
Copyright © 2011-2022 走看看