zoukankan      html  css  js  c++  java
  • 机器学习基石笔记:08 Noise and Error

    原文地址:https://www.jianshu.com/p/68040802c3b6

    一、噪声

    噪声:误标、对同一数据点的标注不一致、数据点信息不准确等。噪声是针对整个输入空间的。

    图1.1 各种各样的噪声

    存在噪声的情况下,VC bound依旧有用。因为:

    • 存在噪声,就是(f ightarrow p(y|x))(f)(p)的特殊情况:如(p(0|x)=1,p(1|x)=0)
    • VC bound本身就不管(f)的。

    其实,推VC bound的时候第3步使用的是不放回的霍夫丁不等式,不要求独立同分布。参照口袋算法,可以表明存在噪声情况下,VC bound依旧有用。

    图1.2 基于概率的玻璃弹子
    图1.3 基于概率的学习流程

    二、错误统计

    错误/代价:分类常用0/1错误,回归常用均方误差。

    图2.1 常用的误差计算方式

    false positive/false accept:标签为-1,输出为+1;false negative/false reject:标签为+1,输出为-1。其中,false是指输出与实际标签不一致,positive为+,negative为-。根据实际应用,对上面2种错误的惩罚一般是不一样的。但是,对于真正的错误(err),用户难以量化惩罚比例,可由我们选择合理的或者有益于算法的,记为(hat{err}),作为(err)的近似。

    图2.2 近似误差计算方式
    图2.3 结合误差机制的学习流程

    加权分类:分类时进行错误衡量时,对false positive和false negative的惩罚不都是1。如加权口袋算法。0/1错误衡量保证了PA能够停止,那加权错误衡量如何保证加权PA能够停止呢?
    可通过virtual examples copying转化为0/1错误衡量方式。
    原始问题里(D)中每个样本点被访问的概率相等,virtual copy后(D)中标签值为-1的点被访问的概率变高,
    但是PLA、PA都是要遍历一轮数据的,概率变化对算法影响不大。

    图2.4 virtual examples copying
    图2.5 weighted pocket algorithm

  • 相关阅读:
    L2-011 玩转二叉树 二叉树
    L2-010 排座位 并查集
    L2-009 抢红包
    VS 编译报错:意外的字符
    关于js的类型转换
    github相关操作总结
    关于时间的相关处理
    uniapp实现简单的动画效果(不使用dom操作)
    uniapp选择日期
    vue使用音频组件
  • 原文地址:https://www.cnblogs.com/cherrychenlee/p/10796662.html
Copyright © 2011-2022 走看看