zoukankan      html  css  js  c++  java
  • 机器学习基石4-在何时才能使用机器学习(4)

                向杜少致敬

    Lecture 4: Feasibility of Learning

    4.1. Learning is Impossible?

      

                                                                        图 4-1

     Q1:在训练集 (in-sample) 能找到一个 g ≈ f, 但是你不能保证在应用数据 (out-sample)还有 g ≈ f 。

     Q2:就算在某种约束下,你能保证在应用数据 (out-sample) g ≈ f。 如果我有多个 g ≈ f, 即 g≈ f、g≈ f、g3≈ f、… gn ≈ f。 如何找到在 out-sample 上性能最好的 gopt 呢?

    4.2. Probalility to the Rescue

        learning 是做不到的!但是我们可以想一下,有没有学习用少量的已知的事实去推测整个样本的情况? 现在给你一个罐子,你能给出黄绿弹珠所占的比例是多少? 假设黄绿弹珠的分布较均匀,可以通过抽样的方法获取黄绿弹珠的比例。

                             图 4-2

           假设在抽出的样本中 orange marble 的比例是 v, green marble 的比例是 1 -v。 罐子中的 orange marble 的比例是 μ, green marble 的比例是 1-μ。

    v 和 μ 基本不相同,那要在什么样的条件下? v 和 μ 才能足够的接近?在数学中有个 Hoeffding's Inequality 能刻画出 v 和 μ 的接近程度。

                                    $$ mathbb{P} [| u -mu |] leqslant 2 exp(-2epsilon^2N)  $$

                                                                           公式 4-1

          Hoeffding 不等式的良好性质:

           1. 只和 N、ε有关,和 μ、ν 无关

                2. N 越大或 ε 越大, v 和 μ 大概近似正确(probably approximately correct PAC)

    Q3:HOeffding 不等式和切比雪夫不等式的关系?

    Q4:回忆一下以前学过的中心极限定理、大数定理

    4.3. Connection to Learning

           上一节,我们一直在玩弹珠游戏。这个和机器学习有什么关系呢?

    假设我们有一罐白色弹珠,  这些弹珠有某些性质。我们准备用机器学习去预测这些弹珠的性质。 假设我们有个 g, 如果 g(x) = f(x) 则将弹珠染绿并放到罐子 B 中, 如果 g(x) != f(x) 则将弹珠染黄并放到 B 中。最终我们会得到罐子 B 会如下图所示。

                图 4-3

           现在有一罐装满黄绿弹珠的罐子, orange marble 代表我们预测这个 marble 时出错了, green marble 代表我们成功地预测这个 marble。 这样就回到上一节。

    现在,我们可以保证在 in-sample 上 g 和 f 的 pac 近似。 但是我们不能保证 g 和 f 的差别不大。 如果说 orange marble 的出现概率在 in-sample 和 out-sample 是 pac 近似正确,但是 orange marble 的比例很大。这也不是我们想要的, orange 出现比例越大说明 g 越不准确。而且我们是用一个固定的 g ,没有学习的过程。不能算是学习,当然也不会是机器学习

    4.4. Connection to Real Learning

     

                                                                     图 4-4

          4.3 节时,我们不能保证选取那一个 h 和 f 足够的接近,我们将所有的 h 拿出来给白色罐子染色。假设我们对某个罐子 sample 出来的 marble 全是 green。是不是就可以说这个罐子对应的 h 就是我们想要的?

    因为有 Hoeffding 不等式,从直觉上来说这应该是对的。

                                                                      图 4-5

         假设有150个人同时丢五次硬币,统计其中有一个人丢出五次全部正面向上的概率是多少,不难得出一个人丢出五次正面向上的概率为 1/32。在 150 人有一个人投出全是正面的概率为 1 - (31/32)150 > 99%。

    这说明在图 4-5 中,某个罐子中 sample 出来的 marble 全是 green。也不能说明这个罐子对应的 h 是好的。我们将这种 Ein  和 EOUT  差别很大的 sample 起个新名字 —— BAD SAMPLE。现在我们引入一个新的 concept BAD DATA, 以及简单地看下它的性质(也就是看图不说话)

     

                                                                    图 4-6

          将每次抽样的数据集称做 DATA, 如果在这个 DATA 上Ein  和 EOUT  far away, 我们称之为 BAD DATA。 根据 Hoeffding 不等式,BAD DATA 出现概率非常的小。

                                                               图 4-7

              如果某个 DATA 在某个 h 表现不好, 就将 DATA 标记为 BAD。现在我们想知道在整个 hypothesis  空间上,踩到雷的概率上限是多少?

    在 hypothesis 有 M 个h,那么可以得出踩雷的上限如公式 4-2 所示

              $$ mathbb{P_mathcal{D}} [BAD  mathcal{D}] leqslant 2 exp(-2epsilon^2N) + 2 exp(-2epsilon^2N) + ... + 2 exp(-2epsilon^2N) = 2M exp(-2epsilon^2N) $$         

                                                                                                       公式 4-2

           如果 M 是有限的,  Ein  = EOUT 是 PAC, 和具体的 hypothesis 无关。在这种情况下,学习策略是选择 Ein 最小的 g。对于有无限 hypothesis 的讨论在未来的课程。

                                                    

    题外话:

          本文中提到了 PAC, 可以参考一下《西瓜书》上面的讨论。里面有恰 PAC 可学习、PAC 不可学习等几个概念和证明(具体忘了)。后续笔记还有 pac 理论的升级版 ---- VC 维

          4.3 节 Connection to Learning 是按照自己写的,没有严格跟着 ppt 走。

          Q1 : 本文部分地回答了 Q1 问题,即有限假设空间下我们能 PAC 保证 g ≈ f

          Q2: Q2 问题算是机器学习中终极问题,涉及到的概念有 bias、variance、欠拟合、过拟合等。不容易回答

          Q3: 从图 4-8 可以看出,切比雪夫不等式刻画的是 期望、ε 间的关系  

                       

                            图 4-8

           Q4: 我所接触过的大数定律有三个,分别是切比雪夫大数定律、伯努力大数定律(见图 4-9)、辛钦大数定理 (见图 4-10)。

                          图 4-9

                   图 4-10

          中心极限定理的啥,后续补上吧

  • 相关阅读:
    格式化数字,将字符串格式的数字,如:1000000 改为 1 000 000 这种展示方式
    jquery图片裁剪插件
    前端开发采坑之安卓和ios的兼容问题
    页面消息提示,上下滚动
    可以使用css的方式让input不能输入文字吗?
    智慧农村“三网合一”云平台测绘 大数据 农业 信息平台 应急
    三维虚拟城市平台测绘 大数据 规划 三维 信息平台 智慧城市
    农业大数据“一张图”平台测绘 大数据 房产 国土 农业 信息平台
    应急管理管理局安全生产预警平台应急管理系统不动产登记 测绘 大数据 规划 科教 三维 信息平台
    地下综合管廊管理平台测绘 大数据 地下管线 三维 信息平台
  • 原文地址:https://www.cnblogs.com/tmortred/p/8046440.html
Copyright © 2011-2022 走看看