zoukankan      html  css  js  c++  java
  • 机器学习基石笔记-Lecture 4 Learning is possible

    hoeffding 不等式 说明了在样本量足够大时,抽样估计能够接近真实值。

    类比到ml中,对给定的一个假设空间中的h, 它在整个样本空间中的表现可以由在部分样本点上的表现来近似。也就是说样本足够多的时候,Ein与Eout近似相等。

    现在已经知道对任意给定的h,在N足够大时,Ein近似于Eout,如果 Ein 非常小,那么Eout也就小,就说明这个 h 和 真实的 f 在很大概率上是很接近的。

    现在的一个问题是,如果在多个假设中,其中一个假设h针对训练数据的输出都是正确的,也就是Ein为0,是不是就应该选择这个h作为算法A的输出?

    这里提出一个 bad data的概念,对一个数据集D,h的Ein和Eout差别很大,那么这个数据集D就是不好的。

    hoeffding不等式其实是对样本空间的一个“抽样”穷举,然后在很多次的抽样中,只有很少次的抽样是bad data,也就是让Ein和Eout差别比较大。所有说很大概率上Ein和Eout近似。

    对多个假设函数而言的bad data定义:

    对每一行h,根据hoeffding不等式,bad data的概率是很小的

    对每一列Di,如果在某些h上是bad data,那么A就不能自由的选择。

    像D1126就是对整个假设空间H或者说算法A是一个好的数据集(个人理解)

    对有M个h的假设空间,bad data出现的概率被限制住

    至此,对有限基数的假设空间,只要N足够大,不管A如何选g,训练数据如何选取,g的训练错误率和真实的错误率都很接近。

    只要算法A找到一个Ein很小的g,那么就能够用来接近真实f。这样算法就有可能学到有用的知识。

  • 相关阅读:
    repeater 设置分页
    table表格合并
    repeater分页
    http错误500.19 错误代码 0x80070021
    asp文件上传和下载
    asp:Repeater控件使用
    vs2013标签
    "Uncaught SyntaxError: Unexpected token <"错误完美解决
    监控系统说明文档
    限制input输入类型(多种方法实现)
  • 原文地址:https://www.cnblogs.com/akanecode/p/7054607.html
Copyright © 2011-2022 走看看