zoukankan      html  css  js  c++  java
  • 机器学习基石笔记9——机器可以怎样学习(1)

    Lecture 9:Linear Regression

    9.1 Linear Regression Problem

                                             图 9-1

             现在用机器学习来决定给用户信用卡的额度。如图 9-1 所示,输入的是一系列用户相关的特征,输出的是信用卡额度。本例采用 Linear Regression

    图 9-2 2D Linear Regression

          如图 9-2 所示,一般用距离的平方来评估 Regression 的误差。对于 N Dimension 的 Linear Regression, Ein 如图 9-3 所示

                   图 9-3

         现在的问题就是如何 Minize Ein(W)?

                                                          图 9-4

          如图 9-4 所示, 推导出的 Ein 是凸函数。在导数为 0 的是可以取到 mini value

                                   图 9-5

       此时,要分二种情况。一种是 XTX invertible (often but not always), 则可以取到 unique W。否则 W 有很多解

                                             图 9-6      

    9.2 Linear Regression Algorithm

            y = Xw 和 wLIN = X+y 带入到公式 9-1, 可以得出如图9-7 所示的结论

    $$ E_{in}(W_{LIN}) = frac{1}{N}Vert y - hat{y} Vert^2  $$ 

                                                 图 9-7 

    9.3 Generalization Issue

         Ein 的均值有个特殊的表达式,如图 9-8 所示。我们不做证明,简单想象一下,假设数据集是线性可分的,我们将样本空间中的所有数据都用计算 Ein。 Ein 的表达式肯定是和 Noise level 有关的(参考第八节课关于 Nosie 的定义)。

    这样我们就可以接受图 9-8 的中表达式

                                            图 9-8   

       现在我们来从思考图 9-7 中  ÿ (不知道怎么打出 y hat 字符~)的几何意义。从下面的公式可以看出最终的 ÿ 由 y 的线性组合加上某个 ⊥ y 所在平面的向量 (如何没有这个 ⊥向量,Ein 就能等于0 如果你的计算资源足够多)。

    求解 ÿ 的过程也等于是求 ⊥ 平面向量的过程。

       

                                            图 9-9                                                                                                                               图 9-10

           课件中在讨论几何意义时,也顺便了证明了 图9-9所示的结论。在前面的笔记中就贴出了类似图 9-10 的图片,当时没有做过多的解释

    记得 VC Bound 是有关 in-sample 和 out-sample Error 的公式,图 9-10 是也是关于 in-sample 和 out-sample Error。后续的笔记还有 in-sample 和 Augment Error 关系

    9.4 Linear Regression for Binary Classification

           Linear Classification 的 Ein 很难 minized(不可导,不能用现有的方法), Linear Regression 的 Ein 很容易被优化。

    而且图 9-11 所示,Lineare Regression 的损失函数要大于 Linear Classification 所以可用 LIneare Regression 来做分类

                                                          图 9-11

    最好要贴上本章最有一页截图

                                              图 9-12

    题外话:

           T1:先看图 9-12, 图 9-12 是第十三节讨论 Noise 时展示的 in-sample 和 out-sample 的 Nosie Level。

    结合图 9-12 和图 9-10 这两张图,不知道大家有没有发现有个好玩的东西?下面我来讲一下我发现的好玩的东西:

    1. 图 9-10 和 图 9-12 很像

    2. 图 9-10 所示结论是针对 Linear Regression 得出的,且这个结论要借助 Linear Regession 解析解的几何意义(即 最佳的 ÿ 等于⊥ x span 的向量 Plus x span 内一个向量)来证明。

    3. 图 9-12 则是截取于第十三节,对所有算法都成立(基本上吧),不局限于 Linear Regression。那么图 9-12 中的结论是不是很有趣,是不是也有类似 Linear Regression 的几何意义? 是不是也有 矩阵 trace 迹?

                       图 9-12   十三节 Noise 

      

  • 相关阅读:
    摒弃FORM表单上传图片,异步批量上传照片
    小功能——简单代码实现邮箱发送邮件
    小工具 ——快速生成验证码
    [转]C++11 多线程
    [转]线性插值&双线性插值&三线性插值
    [转]第四章 使用OpenCV探测来至运动的结构——Chapter 4:Exploring Structure from Motion Using OpenCV
    windows的Timer和写文件方式串口注意!
    OPENCV3.1+VS 坑我笔记!
    最简单的PC机串口通信程序
    用MFC时,如果程序崩溃,检查内存,然后注意GDI数量,在任务管理器里选项-查看列-GDI数量
  • 原文地址:https://www.cnblogs.com/tmortred/p/8065360.html
Copyright © 2011-2022 走看看