zoukankan      html  css  js  c++  java
  • 机器学习基石4-在何时才能使用机器学习(4)

                向杜少致敬

    Lecture 4: Feasibility of Learning

    4.1. Learning is Impossible?

      

                                                                        图 4-1

     Q1:在训练集 (in-sample) 能找到一个 g ≈ f, 但是你不能保证在应用数据 (out-sample)还有 g ≈ f 。

     Q2:就算在某种约束下,你能保证在应用数据 (out-sample) g ≈ f。 如果我有多个 g ≈ f, 即 g≈ f、g≈ f、g3≈ f、… gn ≈ f。 如何找到在 out-sample 上性能最好的 gopt 呢?

    4.2. Probalility to the Rescue

        learning 是做不到的!但是我们可以想一下,有没有学习用少量的已知的事实去推测整个样本的情况? 现在给你一个罐子,你能给出黄绿弹珠所占的比例是多少? 假设黄绿弹珠的分布较均匀,可以通过抽样的方法获取黄绿弹珠的比例。

                             图 4-2

           假设在抽出的样本中 orange marble 的比例是 v, green marble 的比例是 1 -v。 罐子中的 orange marble 的比例是 μ, green marble 的比例是 1-μ。

    v 和 μ 基本不相同,那要在什么样的条件下? v 和 μ 才能足够的接近?在数学中有个 Hoeffding's Inequality 能刻画出 v 和 μ 的接近程度。

                                    $$ mathbb{P} [| u -mu |] leqslant 2 exp(-2epsilon^2N)  $$

                                                                           公式 4-1

          Hoeffding 不等式的良好性质:

           1. 只和 N、ε有关,和 μ、ν 无关

                2. N 越大或 ε 越大, v 和 μ 大概近似正确(probably approximately correct PAC)

    Q3:HOeffding 不等式和切比雪夫不等式的关系?

    Q4:回忆一下以前学过的中心极限定理、大数定理

    4.3. Connection to Learning

           上一节,我们一直在玩弹珠游戏。这个和机器学习有什么关系呢?

    假设我们有一罐白色弹珠,  这些弹珠有某些性质。我们准备用机器学习去预测这些弹珠的性质。 假设我们有个 g, 如果 g(x) = f(x) 则将弹珠染绿并放到罐子 B 中, 如果 g(x) != f(x) 则将弹珠染黄并放到 B 中。最终我们会得到罐子 B 会如下图所示。

                图 4-3

           现在有一罐装满黄绿弹珠的罐子, orange marble 代表我们预测这个 marble 时出错了, green marble 代表我们成功地预测这个 marble。 这样就回到上一节。

    现在,我们可以保证在 in-sample 上 g 和 f 的 pac 近似。 但是我们不能保证 g 和 f 的差别不大。 如果说 orange marble 的出现概率在 in-sample 和 out-sample 是 pac 近似正确,但是 orange marble 的比例很大。这也不是我们想要的, orange 出现比例越大说明 g 越不准确。而且我们是用一个固定的 g ,没有学习的过程。不能算是学习,当然也不会是机器学习

    4.4. Connection to Real Learning

     

                                                                     图 4-4

          4.3 节时,我们不能保证选取那一个 h 和 f 足够的接近,我们将所有的 h 拿出来给白色罐子染色。假设我们对某个罐子 sample 出来的 marble 全是 green。是不是就可以说这个罐子对应的 h 就是我们想要的?

    因为有 Hoeffding 不等式,从直觉上来说这应该是对的。

                                                                      图 4-5

         假设有150个人同时丢五次硬币,统计其中有一个人丢出五次全部正面向上的概率是多少,不难得出一个人丢出五次正面向上的概率为 1/32。在 150 人有一个人投出全是正面的概率为 1 - (31/32)150 > 99%。

    这说明在图 4-5 中,某个罐子中 sample 出来的 marble 全是 green。也不能说明这个罐子对应的 h 是好的。我们将这种 Ein  和 EOUT  差别很大的 sample 起个新名字 —— BAD SAMPLE。现在我们引入一个新的 concept BAD DATA, 以及简单地看下它的性质(也就是看图不说话)

     

                                                                    图 4-6

          将每次抽样的数据集称做 DATA, 如果在这个 DATA 上Ein  和 EOUT  far away, 我们称之为 BAD DATA。 根据 Hoeffding 不等式,BAD DATA 出现概率非常的小。

                                                               图 4-7

              如果某个 DATA 在某个 h 表现不好, 就将 DATA 标记为 BAD。现在我们想知道在整个 hypothesis  空间上,踩到雷的概率上限是多少?

    在 hypothesis 有 M 个h,那么可以得出踩雷的上限如公式 4-2 所示

              $$ mathbb{P_mathcal{D}} [BAD  mathcal{D}] leqslant 2 exp(-2epsilon^2N) + 2 exp(-2epsilon^2N) + ... + 2 exp(-2epsilon^2N) = 2M exp(-2epsilon^2N) $$         

                                                                                                       公式 4-2

           如果 M 是有限的,  Ein  = EOUT 是 PAC, 和具体的 hypothesis 无关。在这种情况下,学习策略是选择 Ein 最小的 g。对于有无限 hypothesis 的讨论在未来的课程。

                                                    

    题外话:

          本文中提到了 PAC, 可以参考一下《西瓜书》上面的讨论。里面有恰 PAC 可学习、PAC 不可学习等几个概念和证明(具体忘了)。后续笔记还有 pac 理论的升级版 ---- VC 维

          4.3 节 Connection to Learning 是按照自己写的,没有严格跟着 ppt 走。

          Q1 : 本文部分地回答了 Q1 问题,即有限假设空间下我们能 PAC 保证 g ≈ f

          Q2: Q2 问题算是机器学习中终极问题,涉及到的概念有 bias、variance、欠拟合、过拟合等。不容易回答

          Q3: 从图 4-8 可以看出,切比雪夫不等式刻画的是 期望、ε 间的关系  

                       

                            图 4-8

           Q4: 我所接触过的大数定律有三个,分别是切比雪夫大数定律、伯努力大数定律(见图 4-9)、辛钦大数定理 (见图 4-10)。

                          图 4-9

                   图 4-10

          中心极限定理的啥,后续补上吧

  • 相关阅读:
    oeong.xyz
    Layui将前端数据传到PHP后台
    软件工程 —— 个人总结
    Beta冲刺 —— 个人总结
    小黄衫的故事
    Alpha冲刺 —— 个人总结
    Python实现批量MD5加密
    修改电脑快捷键
    第三次个人作业 —— 用例图设计
    crontab定时任务
  • 原文地址:https://www.cnblogs.com/tmortred/p/8046440.html
Copyright © 2011-2022 走看看