zoukankan      html  css  js  c++  java
  • (笔记)斯坦福机器学习第三讲--欠拟合与过拟合

    本讲内容:

    1.locally weighted regression (局部加权回归算法)

    2.Probabilistic interpretation of linear regression  (线性回归的概率解释)

    3.Logistic regression    (逻辑回归算法)

    4.Digression Perceptron (感知器算法)

    欠拟合与过拟合


    对于只包含这7个点的数据集来说,左2图(二次模型)最好的拟合了数据的特性。左1(线性模型)忽视了数据中的某些二次成分,而右1(6次模型)又过分地拟合了这七个点。

    过大(右1)的特征集合,会使得到的模型过于复杂,这种情况称之为overfitting(过拟合);

    过小(左1)的特征集合,会使得到的模型过于简单,这种情况称之为underfitting(欠拟合);

    因此,特征的选择,对于算法的性能,是至关重要的。

    那么问题是,怎样选取合适的特征,可以得到拟合特性最好的模型?

    (1)在之后某一讲中,会提到特征选择算法,这是一类自动化的算法,可以在这类回归问题中选择要用到的特征。

    (2)non-parametric learning algorithms 非参数化学习算法,可以在一定程度上缓解对于选取特征的需求。

    定义:parametric learning algorithms 参数化学习算法, 是一类有固定数目的参数,以用来进行数据拟合的算法。

    线性回归属于参数化学习算法。线性回归中,有一个固定的集合,一定可以拟合数据。

    non-parametric learning algorithms 非参数化学习算法

    定义:non-parametric learning algorithms 非参数化学习算法,是一类参数数量会随着m增长的算法,m代表训练集合的大小。

    局部加权回归属于非参数化学习算法。 

    1.局部加权回归 /Loess

    对于确定的查询点x,在x处对假设h进行求值:

    对于线性回归:

    (1) fit  to minimize  

    (2) return 

    对于局部加权回归,工作有点不同:

    对于查询点x,检查数据集合,然后只考虑位于x周围固定区域内的数据点,之后对这个数据子集使用线性回归来拟合出一条直线。

    (1) fit  to minimize 

    where   

    if   small, then 

    if   large, then 

     称为权值,对于和x离得近的点,赋予较大的权值;和x离得远的点,赋予较小的权值。

    (2) return 

    更一般地,

    称作波长函数,控制权值随距离下降的速率。

    2.线性模型的概率解释 

    提出问题:在回归问题中,为什么选择最小二乘估计作为我们的优化目标?

    首先假设输出和输入有如下的映射关系:

    在房屋问题中,除了面积或者卧室数量之外,可能还存在一些我们没有捕获的特征,他们也对房屋的价格存在影响,这种影响可以看做随机噪声。

     意味着误差项,即我们未捕获特征以及其他随机噪声对房屋价格的影响总和。

    假设 服从高斯分布,即 

    这表示,在给定参数的时候,房屋的价格也服从高斯分布:

    假设 独立同分布

    公式

     称为参数的似然性

         

             

    极大似然估计(Maximum likelihood):选择 使得数据出现的可能性尽可能大

    定义 对数似然函数

          

          

    因此等价于

    等价于最小化   注意到最终结果与无关

    该函数即为我们上一讲选择的成本函数

    3.逻辑回归

    分类:回归问题预测的变量y是连续变量,而分类问题中预测的变量y是离散变量。这里讨论二元分类,即限定

    对分类问题使用线性回归可能是一个糟糕的主意。线性回归的预测值可能大于1,也可能小于0,而我们希望我们的假设预测的输出值在0,1 之间。

    所以我们不选择线性函数作为假设,而选择

     称为sigmoid function 或者 logistic function.

    的图像如下

    概率意义上的解释:

    将上述二式写在一起:

    做参数的极大似然估计

       

            

           

    为了使对数似然函数最大化,采样梯度上升法更新的值,之所以是上升而不是下降,是因为这里需要的是的极大值

      

      

            

                   

        

             

    4.感知器算法    

    代替 logstic function: 

    该函数生成的值只有0,1,所以为该函数赋予概率意义十分困难。

    使用梯度上升法更新参数

    第三讲完。

  • 相关阅读:
    小米笔试题:无序数组中最小的k个数
    搜狐畅游笔试题:1. 美丽的项链(动态规划) 2.多线程并发交替输出
    RPC系列:基本概念
    度小满面试题20190923
    Java 基础系列:异常
    JAVA基础系列:ThreadLocal
    leetcode 410. 分割数组的最大值(二分法)
    JAVA基础系列:Object类
    Redis系列1——概述
    剑指offer:对称的二叉树(镜像,递归,非递归DFS栈+BFS队列)
  • 原文地址:https://www.cnblogs.com/madrabbit/p/6900241.html
Copyright © 2011-2022 走看看