zoukankan      html  css  js  c++  java
  • (笔记)斯坦福机器学习第三讲--欠拟合与过拟合

    本讲内容:

    1.locally weighted regression (局部加权回归算法)

    2.Probabilistic interpretation of linear regression  (线性回归的概率解释)

    3.Logistic regression    (逻辑回归算法)

    4.Digression Perceptron (感知器算法)

    欠拟合与过拟合


    对于只包含这7个点的数据集来说,左2图(二次模型)最好的拟合了数据的特性。左1(线性模型)忽视了数据中的某些二次成分,而右1(6次模型)又过分地拟合了这七个点。

    过大(右1)的特征集合,会使得到的模型过于复杂,这种情况称之为overfitting(过拟合);

    过小(左1)的特征集合,会使得到的模型过于简单,这种情况称之为underfitting(欠拟合);

    因此,特征的选择,对于算法的性能,是至关重要的。

    那么问题是,怎样选取合适的特征,可以得到拟合特性最好的模型?

    (1)在之后某一讲中,会提到特征选择算法,这是一类自动化的算法,可以在这类回归问题中选择要用到的特征。

    (2)non-parametric learning algorithms 非参数化学习算法,可以在一定程度上缓解对于选取特征的需求。

    定义:parametric learning algorithms 参数化学习算法, 是一类有固定数目的参数,以用来进行数据拟合的算法。

    线性回归属于参数化学习算法。线性回归中,有一个固定的集合,一定可以拟合数据。

    non-parametric learning algorithms 非参数化学习算法

    定义:non-parametric learning algorithms 非参数化学习算法,是一类参数数量会随着m增长的算法,m代表训练集合的大小。

    局部加权回归属于非参数化学习算法。 

    1.局部加权回归 /Loess

    对于确定的查询点x,在x处对假设h进行求值:

    对于线性回归:

    (1) fit  to minimize  

    (2) return 

    对于局部加权回归,工作有点不同:

    对于查询点x,检查数据集合,然后只考虑位于x周围固定区域内的数据点,之后对这个数据子集使用线性回归来拟合出一条直线。

    (1) fit  to minimize 

    where   

    if   small, then 

    if   large, then 

     称为权值,对于和x离得近的点,赋予较大的权值;和x离得远的点,赋予较小的权值。

    (2) return 

    更一般地,

    称作波长函数,控制权值随距离下降的速率。

    2.线性模型的概率解释 

    提出问题:在回归问题中,为什么选择最小二乘估计作为我们的优化目标?

    首先假设输出和输入有如下的映射关系:

    在房屋问题中,除了面积或者卧室数量之外,可能还存在一些我们没有捕获的特征,他们也对房屋的价格存在影响,这种影响可以看做随机噪声。

     意味着误差项,即我们未捕获特征以及其他随机噪声对房屋价格的影响总和。

    假设 服从高斯分布,即 

    这表示,在给定参数的时候,房屋的价格也服从高斯分布:

    假设 独立同分布

    公式

     称为参数的似然性

         

             

    极大似然估计(Maximum likelihood):选择 使得数据出现的可能性尽可能大

    定义 对数似然函数

          

          

    因此等价于

    等价于最小化   注意到最终结果与无关

    该函数即为我们上一讲选择的成本函数

    3.逻辑回归

    分类:回归问题预测的变量y是连续变量,而分类问题中预测的变量y是离散变量。这里讨论二元分类,即限定

    对分类问题使用线性回归可能是一个糟糕的主意。线性回归的预测值可能大于1,也可能小于0,而我们希望我们的假设预测的输出值在0,1 之间。

    所以我们不选择线性函数作为假设,而选择

     称为sigmoid function 或者 logistic function.

    的图像如下

    概率意义上的解释:

    将上述二式写在一起:

    做参数的极大似然估计

       

            

           

    为了使对数似然函数最大化,采样梯度上升法更新的值,之所以是上升而不是下降,是因为这里需要的是的极大值

      

      

            

                   

        

             

    4.感知器算法    

    代替 logstic function: 

    该函数生成的值只有0,1,所以为该函数赋予概率意义十分困难。

    使用梯度上升法更新参数

    第三讲完。

  • 相关阅读:
    形象理解ERP(转)
    禁用windows server 2008 域密码复杂性要求策略
    How to adding find,filter,remove filter on display method Form
    Windows Server 2008 R2激活工具
    How to using bat command running VS development SSRS report
    Creating Your First Mac AppGetting Started
    Creating Your First Mac AppAdding a Track Object 添加一个 Track 对象
    Creating Your First Mac AppImplementing Action Methods 实现动作方法
    Creating Your First Mac AppReviewing the Code 审查代码
    Creating Your First Mac AppConfiguring the window 设置窗口
  • 原文地址:https://www.cnblogs.com/madrabbit/p/6900241.html
Copyright © 2011-2022 走看看