zoukankan      html  css  js  c++  java
  • 【cs229-Lecture11】贝叶斯统计正则化

    本节知识点:

    贝叶斯统计及规范化

    在线学习

    如何使用机器学习算法解决具体问题:设定诊断方法,迅速发现问题


    贝叶斯统计及规范化(防止过拟合的方法)

    就是要找更好的估计方法来减少过度拟合情况的发生。
    回顾一下,线性回归中使用的估计方法是最小二乘法,logistic  回归是条件概率的最大
    似然估计,朴素贝叶斯是联合概率的最大似然估计,SVM 是二次规划。

    一下转自:http://52opencourse.com/133/coursera

    斯坦福大学机器学习第七课"正则化“学习笔记,本次课程主要包括4部分:

    1)  The Problem of Overfitting(过拟合问题)

    2)  Cost Function(成本函数)

    3)  Regularized Linear Regression(线性回归的正则化)

    4)  Regularized Logistic Regression(逻辑回归的正则化)

    以下是每一部分的详细解读。

    1)  The Problem of Overfitting(过拟合问题)

    拟合问题举例-线性回归之房价问题:

    a) 欠拟合(underfit, 也称High-bias)

    欠拟合-我爱公开课-52opencourse.com

    b) 合适的拟合:

    拟合问题-我爱公开课-52opencourse.com

    c) 过拟合(overfit,也称High variance)

    过拟合-我爱公开课-52opencourse.com

    什么是过拟合(Overfitting):

    如果我们有非常多的特征,那么所学的Hypothesis有可能对训练集拟合的非常好(),但是对于新数据预测的很差。

    过拟合例子2-逻辑回归:

    与上一个例子相似,依次是欠拟合,合适的拟合以及过拟合:

    a) 欠拟合

    逻辑回归欠拟合-我爱公开课-52opencourse.com

    b) 合适的拟合

    逻辑回归合适的拟合-我爱公开课-52opencourse.com

    c) 过拟合

    逻辑回归过拟合-我爱公开课-52opencourse.com

    如何解决过拟合问题:

    首先,过拟合问题往往源自过多的特征,例如房价问题,如果我们定义了如下的特征:

    特征选择-我爱公开课-52opencourse.com

    那么对于训练集,拟合的会非常完美:

    房价问题过拟合-我爱公开课-52opencourse.com

    所以针对过拟合问题,通常会考虑两种途径来解决:

    a) 减少特征的数量:

    -人工的选择保留哪些特征;

    -模型选择算法(之后的课程会介绍)

    b) 正则化

    -保留所有的特征,但是降低参数的量/值;

    -正则化的好处是当特征很多时,每一个特征都会对预测y贡献一份合适的力量;

    2)  Cost Function(成本函数)

    依然从房价预测问题开始,这次采用的是多项式回归:

    a) 合适的拟合:

    多项式回归正则化-我爱公开课-52opencourse.com

    b) 过拟合

    多项式回归过拟合-我爱公开课-52opencourse.com

    直观来看,如果我们想解决这个例子中的过拟合问题,最好能将的影响消除,也就是让.

    假设我们对进行惩罚,并且令其很小,一个简单的办法就是给原有的Cost function加上两个略大惩罚项,例如:

    成本函数-我爱公开课-52opencourse.com

    这样在最小化Cost function的时候,.

    正则化:

    参数取小一点的值,这样的优点:

    -“简化”的hypothesis;

    -不容易过拟合;

    对于房价问题:

    -特征包括:

    -参数包括:

    我们对除以为的参数进行惩罚,也就是正则化:

    对cost function进行正则化-我爱公开课-52opencourse.com

    正式的定义-经过正则化的Cost Function有如下的形式:

    正则化正式的定义-我爱公开课-52opencourse.com

    其中称为正则化参数,我们的目标依然是最小化:

    例如,对于正则化的线性回归模型来说,我们选择来最小化如下的正则化成本函数:
    正则化的线性回归模型—我爱公开课-52opencourse.com

    如果将 设置为一个极大的值(例如对于我们的问题,设 )? 那么

    -算法依然会正常的工作, 将 设置的很大不会影响算法本身;

    -算法在去除过拟合问题上会失败;

    -算法的结构将是欠拟合(underfitting),即使训练数据非常好也会失败;

    -梯度下降算法不一定会收敛;

    这样的话,除了,其他的参数都约等于0, , 将得到类似如下的欠拟合图形:

    欠拟合线性回归-我爱公开课——52opencourse.com

    关于正则化,以下引自李航博士《统计学习方法》1.5节关于正则化的一些描述:

    模型选择的典型方法是正则化。正则化是结构风险最小化策略的实现,是在经验风险上加一个正则化项(regularizer)或罚项(penalty term)。正则化项一般是模型复杂度的单调递增函数,模型越复杂,正则化值就越大。比如,正则化项可以是模型参数向量的范数。

    正则化符合奥卡姆剃刀(Occam's razor)原理。奥卡姆剃刀原理应用于模型选择时变为以下想法:在所有可能选择的模型中,能够很好地解释已知数据并且十分简单才是最好的模型,也就是应该选择的模型。从贝叶斯估计的角度来看,正则化项对应于模型的先验概率。可以假设复杂的模型有较大的先验概率,简单的模型有较小的先验概率。

    3)  Regularized Linear Regression(线性回归的正则化)

    线性回归包括成本函数,梯度下降算法及正规方程解法等几个部分,不清楚的读者可以回顾第二课第四课的笔记,这里将分别介绍正则化后的线性回归的成本函数,梯度下降算法及正规方程等。

    首先来看一下线性回归正则化后的Cost function:

    线性回归正则化Cost function-我爱公开课-52opencourse.com

    我们的目标依然是最小化,从而得到相应的参数. 梯度下降算法是其中的一种优化算法,由于正则化后的线性回归Cost function有了改变,因此梯度下降算法也需要相应的改变:

    正则化线性回归梯度下降算法-我爱公开课-52opencourse.com

    注意,对于参数,梯度下降算法需要区分

    同样的正规方程的表达式也需要改变,对于:

    X 是m * (n+1)矩阵

    正规方程-我爱公开课——52opencourse.com

    y是m维向量:

    正规方程表达式-我爱公开课-52opencourse.com

    正则化后的线性回归的Normal Equation的公式为:

    线性回归正则化Normal Equation-我爱公开课-52opencourse.com

    假设样本数m小于等于特征数x, 如果没有正则化,线性回归Normal eqation如下:

    如果不可逆怎么办?之前的办法是删掉一些冗余的特征,但是线性回归正则化后,如果,之前的公式依然有效:

    不可逆后的正规方程-我爱公开课-52opencourse.com

    其中括号中的矩阵可逆。

    4)  Regularized Logistic Regression(逻辑回归的正则化)

    和线性回归相似,逻辑回归的Cost Function也需要加上一个正则化项(惩罚项),梯度下降算法也需要区别对待参数( heta).

    再次回顾一些逻辑回归过拟合的情况,形容下面这个例子:

    逻辑回归过拟合-我爱公开课-52opencourse.com

    其中Hypothesis是这样的:

    逻辑回归假设空间-我爱公开课-52opencourse.com

    逻辑回归正则化后的Cost Function如下:

    正则化逻辑回归Cost Function-我爱公开课-52opencourse.com

    梯度下降算法如下:

    正则化逻辑回归梯度下降算法-我爱公开课-52opencourse.com

    其中.

     

    参考资料:

    第七课“正则化”的课件资料下载链接,视频可以在Coursera机器学习课程上观看或下载:https://class.coursera.org/ml

    PPT PDF

    李航博士《统计学习方法

    http://en.wikipedia.org/wiki/Regularization_%28mathematics%29

    http://en.wikipedia.org/wiki/Overfitting

     


    在线学习

    之前学的算法都是批处理算法,即在训练集上得到模型后,再去对测试集或者训练集本身进行评测,得到训练误差和泛化误差。而在线学习并不这样,而是首先有一个初始的分类器,当第一个样本到来时,对该样本进行预测,得到预测结果,然后利用该样本的信息对分类器进行更新(比如,考虑感知器算法的更新规则,见笔记  1-2);然后第二个样本到来时做同样的操作,以此类推。这样,我们就对 m 个样本都有一个预测值,只不过它们都是在训练的过程中得到的,对这些预测值进行统计,就得到了在线训练误差。这就是过程上在线学习与批处理的不同之处。
    对于感知器算法来说,若正负样本线性可分,那么在线学习算法也是收敛的。


    以下转自:http://blog.csdn.net/stdcoutzyx

    image

    image

    image

    image

    image

    image

  • 相关阅读:
    Android中实现ListView圆角效果[转]
    移动终端开发必备知识【转】
    android-supporting-multiple-devices
    Android @+id与@id的区别
    loading android
    Loading Image
    合理的薪酬策略——揭秘万达电商(3)
    Node.js的helloworld 程序
    codeforces Gravity Flip 题解
    HDU 3853 向下向右找出口问题-期望dp
  • 原文地址:https://www.cnblogs.com/XBWer/p/4336071.html
Copyright © 2011-2022 走看看