zoukankan      html  css  js  c++  java
  • Andrew Ng机器学习课程9-补充

    Andrew Ng机器学习课程9-补充


    首先要说的还是这个bias-variance trade off,一个hypothesis的generalization error是指的它在样本上的期望误差,这个样本不一定是在training set中的。所以出现了两部分的误差,bias是指的是偏差,未能捕获由数据展示出的结构,underfit,large bias。variance指的是把碰巧出现在训练集数据的pattern给捕获了,但是有限的训练样本并不能反映wider pattern of the relationship between x and y,overfitting,large variance。


    PAC(probably approximately correct)理论中几个非常重要的assumptions:assumption of training and testing on the same distribution、assumption of the independently drawn training examples。如果没有这些假设,就无法从理论上证明machine can learn。PAC的含义就是with high probability (the “probably” part), the selected function will have low generalization error (the “approximately correct” part)。


    如何选择参数呢?一种方法是最小化训练误差(training error or empirical risk),称之为empirical risk minimization(ERM)。
    剩下就是如何在training error和generalization error之间建立连接,能不能给一个upper-bound?
    后面通过了hoeffding inquality,得到了这个upper bound,包含三个感兴趣的变量:训练样本数量,训练误差与泛化误差之间设定的距离,以及error的概率,可以通过固定两个变量来bound另一个。可以得到训练样本数量的下限,可以叫做sample complexity。
    最后得到一个如下的公式:

    e(h^)(minhHe(h))+212mlog2kδ

    这是给出了在一个含有k个hypothesis的set H中,学习算法通过empirical risk minimization给出的h^的泛化误差的upper bound,这个upper bound似乎有两个部分,前面的部分说明的是模型的bias,偏差,即如果找到的hypothesis set中hypothesis个数k比较少,则该项也就比较大,而后一项代表的是variance,则比较大,对应为underfitting,总的来讲也会导致generalization error变大;另一方面,如何k越大,对应的前面的项bias就能做的比较好,而后面的项variance则比较大,对应overfitting。可以这样进行理解bias-variance trade-off.


    2015-9-11 艺少

  • 相关阅读:
    COGNOS10启动服务报错 问题解决
    Linux 下 新增Oracle10g 实例 (转自http://www.cnblogs.com/lan0725/archive/2011/07/18/2109474.html)
    WIN7安装COGNOS8后配置IIS网站后,访问COGNOS站点网页一直显示空白,解决方法(转载)
    Gridview光棒效果 鼠标滑过
    11款实用的一句话网站设计代码
    自定义js方法 (格式化时间)
    测试一下
    UTF7转换GB2312编码的方法(中文)
    HTML注册页面验证注册信息
    android欢迎页
  • 原文地址:https://www.cnblogs.com/huty/p/8519182.html
Copyright © 2011-2022 走看看