机器学习基石笔记：08 Noise and Error

zoukankan html css js c++ java

机器学习基石笔记：08 Noise and Error
原文地址：https://www.jianshu.com/p/68040802c3b6
一、噪声

噪声：误标、对同一数据点的标注不一致、数据点信息不准确等。噪声是针对整个输入空间的。

存在噪声的情况下，VC bound依旧有用。因为：

存在噪声，就是(f ightarrow p(y|x))，(f)是(p)的特殊情况：如(p(0|x)=1,p(1|x)=0)。

VC bound本身就不管(f)的。

其实，推VC bound的时候第3步使用的是不放回的霍夫丁不等式，不要求独立同分布。参照口袋算法，可以表明存在噪声情况下，VC bound依旧有用。

二、错误统计

错误/代价：分类常用0/1错误，回归常用均方误差。

false positive/false accept：标签为-1，输出为+1；false negative/false reject：标签为+1，输出为-1。其中，false是指输出与实际标签不一致，positive为+，negative为-。根据实际应用，对上面2种错误的惩罚一般是不一样的。但是，对于真正的错误(err)，用户难以量化惩罚比例，可由我们选择合理的或者有益于算法的，记为(hat{err})，作为(err)的近似。

加权分类：分类时进行错误衡量时，对false positive和false negative的惩罚不都是1。如加权口袋算法。0/1错误衡量保证了PA能够停止，那加权错误衡量如何保证加权PA能够停止呢？
可通过virtual examples copying转化为0/1错误衡量方式。
原始问题里(D)中每个样本点被访问的概率相等，virtual copy后(D)中标签值为-1的点被访问的概率变高，
但是PLA、PA都是要遍历一轮数据的，概率变化对算法影响不大。
查看全文

相关阅读:
Moo.fx 超级轻量级的 javascript 特效库
 Oracle 异常错误处理
 变被动为主动
 数据结构定义
 Redis 一个keyvalue存储系统简介
 使用Container.ItemIndex获取Repeater、Gridview行的序号的简单方法
 ORACLE SQL：经典查询练手第一篇
 MongoDB 一个基于分布式文件存储的数据库
 dojo Quick Start/dojo入门手册面向对象,定义Class
面向过程分析与面向对象分析之间的区别

原文地址：https://www.cnblogs.com/cherrychenlee/p/10796662.html

机器学习基石笔记：08 Noise and Error

一、噪声

二、错误统计