zoukankan      html  css  js  c++  java
  • 机器为什么可以学习(4)---错误和噪声

    1、课程主要内容

      上节课中学习了VC维的相关只是,在hypothesis set的VC维有限,且输入数据N够大,并可以找到一个足够小的Ein,那么学习就是可能的。

      

      但是在实际的情况中,数据来源不都是理想的,必然存在着错误和噪声,本次课程讨论在错误和噪声存在的情况下,机器为什么还可以学习?

      

      在噪声和错误存在的请款下,vc bound如何进行放缩使得学习在理论上是可行。

     2、噪声存在下的学习

      

      在之前的学习流程图中,在分布的部分加上了噪声,这个时候会对之前的推导有什么影响?

      噪声来源:

      数据部分和标签部分都有可能产生噪声,比如标签的误标等,数据采集的误差等;

      之前介绍vc bound的关键使用了弹珠和罐子的例子,以弹珠表示每个具体的数据实例,罐子表示整个数据空间,通过在罐子中进行抽样来预测整个罐子的情况;

      

      对应到学习上:此处弹marble弹珠前加上了确定的修饰,表示弹珠的真实颜色和采样数据颜色相同没有噪声

      

      存在噪声时,弹珠的颜色就因为噪声的原因可能为不确定的:

      

      存在“变色龙”弹珠时,我们怎么办?还是可以采取抽样的办法,不过遇到特殊的弹珠时,需要记下抽样时刻的颜色,也就是针对在某一采样时间下,采出的样本来反应整体;

      此时,对于VC bound 来说,不光是数据x来源与同一个分布,此时y还要来源一个关于x的条件概率,整体来说就是(x,y)符合联合概率分布f(x,y):

      

      目标分布函数p(y|x)????

      

    3、error measure

      在学习完成后使用测试集对训练的模型进行性能测试;之前的推导过程中,我们使用在样本以外的数据集上的错误:

      

      更一般的来说,针对某个模型自然的就要考虑到:

      抽样样本之外,对某个具体的点来衡量:

      

      对于二元分类问题:

      

      以上的错误衡量常被称为0/1错误;

      单点衡量经常使用整个数据集上出错的点的平均:

      

      对于样本内可以使用:

      

      几种常用的错误衡量方式:

      0/1错误:

      

      平方误差:

      

      不同错误衡量下的最优的mini target 的选择办法:

      

  • 相关阅读:
    【BZOJ3261】— 最大异或和(可持久化0/1Trie)
    【ZJOI2007】—捉迷藏(动态点分治)
    【HNOI2010】-城市建设(动态最小生成树)
    【BOI2007】Mokia 摩基亚
    【BZOJ 3262】-陌上花开(CDQ分治+树状数组)
    Win64 驱动内核编程-24.64位驱动里内嵌汇编
    Win64 驱动内核编程-23.Ring0 InLineHook 和UnHook
    Win64 驱动内核编程-23.Ring0 InLineHook 和UnHook
    Win64 驱动内核编程-22.SHADOW SSDT HOOK(宋孖健)
    Win64 驱动内核编程-22.SHADOW SSDT HOOK(宋孖健)
  • 原文地址:https://www.cnblogs.com/daguankele/p/6395640.html
Copyright © 2011-2022 走看看