zoukankan      html  css  js  c++  java
  • 机器学习可行性分析

    机器学习可行性分析(1)

    1No free lunch

    机器学习不是万能的,机器学习是通过学习样本D,推测样本D之外的其它的情况。如果样本D中存在任何未知的f,使用机器学习是注定失败的。我的理解是样本D中存在一些不是f的关系,机器学习的方法无法保证学到类似f的关系g,所以不能使用机器学习。参考课件中的三个例子

    英文描述:

    learning from D (to infer something outside D) is doomed if any ‘unknown’ f can happen.

    2、如何计算大罐子中橙色弹珠的比例?

    这是一个概率统计的问题,通过计算样本的情况,估计总体的情况。

    “大”罐子的弹珠的比例不好计算,通过随机抓取样本,计算样本的橙色弹珠的比例。

    关于这种统计方法得出的样本结果v,总体的实际情况u,样本数量N,误差clip_image002

    搜狗截图20160316210951

    3、罐子理论和机器学习时间的关系

    机器学习与上述通过样本计算弹珠比例的十分相似。

    对于给定的h,样本D中(N条记录)的错误率clip_image006 ,样本之外的错误率 clip_image008,也存在霍夫不等式的关系:

    搜狗截图20160316211052

    也就是说搜狗截图20160316211126

    在实际机器学习中,面对多个h可以选择时,随着h的增加,出现错误的概率会增加。假设存在M个h:

    搜狗截图20160316211203
    所以,当假设空间有限时(M),如果给定样本空间N足够大,发生BAD sample的概率非常大。此时学习是有效的

    当假设空间无限大时,下一节讨论。

    机器学习可行性研究(2)

    1.回顾重要公式

    搜狗截图20160316211203

    当假设空间H有限,大小为M,样本空间N足够大时,总存在训练错误率clip_image020。合适的机器学习算法A使得样本空间的训练错误率接近为零时,clip_image022 ,使用样本空间的训练出的g估计样本空间的情况,此时的学习是有效的。

    2.假设空间大小HM

    根据上面的公式,当M无限大时,机器学习是无效的

    主要原因是计算M的时候使用UNION BOUND的方式,这样的上界太宽松了。实际上,由于不同的假设下发生坏是有很多重叠的,其实我们可以得到比M小得多的上界。

    3.增长函数(Growth Function:描述假设空间m与样本N的大小的关系

    positive rays: clip_image024

    positive intervals: clip_image026

    convex sets: clip_image028

    2D perceptron: clip_image030  N>3

    4.突破点(break point:对于某假设空间H,如果m(k)<2^k,则K是它的突破点,最小的k,称为最小突破点

    对于存在突破点的假设空间H,clip_image032

    5.vc bound

    根据突破点得到了clip_image034 的多项式上界,希望对之前的不等式中的M进行替换。然而直接替换是存在问题的,具体的替换方法,严格的证明比较复杂,结果就是著名的vc 界(vc bound)

    搜狗截图20160316211342

    课件中最后给了一个例子,

    clip_image024[1] ,ε=0.1,N=10000,计算BAD events 的VC bound,得到0.298

  • 相关阅读:
    30个实例详解TOP命令
    CentOS6 启动流程图文解剖
    Linux常用性能检测命令解释
    Linux 多核下绑定硬件中断到不同 CPU(IRQ Affinity) 转
    linux系统中如何查看日志 (常用命令2)
    Linux下常用的shell命令记录1
    python import as from
    内存的大小端模式
    opencv笔记1
    代码不仅仅考虑性能
  • 原文地址:https://www.cnblogs.com/wxquare/p/5285162.html
Copyright © 2011-2022 走看看