hoeffding 不等式 说明了在样本量足够大时,抽样估计能够接近真实值。
类比到ml中,对给定的一个假设空间中的h, 它在整个样本空间中的表现可以由在部分样本点上的表现来近似。也就是说样本足够多的时候,Ein与Eout近似相等。
现在已经知道对任意给定的h,在N足够大时,Ein近似于Eout,如果 Ein 非常小,那么Eout也就小,就说明这个 h 和 真实的 f 在很大概率上是很接近的。
现在的一个问题是,如果在多个假设中,其中一个假设h针对训练数据的输出都是正确的,也就是Ein为0,是不是就应该选择这个h作为算法A的输出?
这里提出一个 bad data的概念,对一个数据集D,h的Ein和Eout差别很大,那么这个数据集D就是不好的。
hoeffding不等式其实是对样本空间的一个“抽样”穷举,然后在很多次的抽样中,只有很少次的抽样是bad data,也就是让Ein和Eout差别比较大。所有说很大概率上Ein和Eout近似。
对多个假设函数而言的bad data定义:
对每一行h,根据hoeffding不等式,bad data的概率是很小的
对每一列Di,如果在某些h上是bad data,那么A就不能自由的选择。
像D1126就是对整个假设空间H或者说算法A是一个好的数据集(个人理解)
对有M个h的假设空间,bad data出现的概率被限制住
至此,对有限基数的假设空间,只要N足够大,不管A如何选g,训练数据如何选取,g的训练错误率和真实的错误率都很接近。
只要算法A找到一个Ein很小的g,那么就能够用来接近真实f。这样算法就有可能学到有用的知识。