机器学习基石笔记-Lecture 4 Learning is possible

zoukankan html css js c++ java

机器学习基石笔记-Lecture 4 Learning is possible

hoeffding 不等式说明了在样本量足够大时，抽样估计能够接近真实值。

类比到ml中，对给定的一个假设空间中的h, 它在整个样本空间中的表现可以由在部分样本点上的表现来近似。也就是说样本足够多的时候，Ein与Eout近似相等。

现在已经知道对任意给定的h，在N足够大时，Ein近似于Eout，如果 Ein 非常小，那么Eout也就小，就说明这个 h 和真实的 f 在很大概率上是很接近的。

现在的一个问题是，如果在多个假设中，其中一个假设h针对训练数据的输出都是正确的，也就是Ein为0，是不是就应该选择这个h作为算法A的输出？

这里提出一个 bad data的概念，对一个数据集D，h的Ein和Eout差别很大，那么这个数据集D就是不好的。

hoeffding不等式其实是对样本空间的一个“抽样”穷举，然后在很多次的抽样中，只有很少次的抽样是bad data，也就是让Ein和Eout差别比较大。所有说很大概率上Ein和Eout近似。

对多个假设函数而言的bad data定义：

对每一行h，根据hoeffding不等式，bad data的概率是很小的

对每一列Di，如果在某些h上是bad data，那么A就不能自由的选择。

像D1126就是对整个假设空间H或者说算法A是一个好的数据集（个人理解）

对有M个h的假设空间，bad data出现的概率被限制住

至此，对有限基数的假设空间，只要N足够大，不管A如何选g，训练数据如何选取，g的训练错误率和真实的错误率都很接近。

只要算法A找到一个Ein很小的g，那么就能够用来接近真实f。这样算法就有可能学到有用的知识。

查看全文

相关阅读:
python实战之爬取喜玛拉雅专辑信息
 python工具之exccel模板生成报表
 python模拟登录博客园（附：问题求教）
maven 三个基本插件 clean dependency compiler
oracle 安装注意
 mybatis generate 自动生成 entity dao 和 xml 文件
 mybatis 打印sql 语句
 mybatis 关联查询 association
oracle 多级菜单查询。start with connect by prior
mybatis 控制台打印sql

原文地址：https://www.cnblogs.com/akanecode/p/7054607.html