zoukankan      html  css  js  c++  java
  • 线性回归 Linear regression(4) 局部加权回归

    这篇文章将介绍过拟合和欠拟合的概念,并且介绍局部加权回归算法。

    过拟合和欠拟合

    之前在线性回归中,我们总是将单独的x作为我们的特征,但其实我们可以考虑将,甚至x的更高次作为我们的特征,那么我们通过线性回归得到的就将是一个多次函数了。

    我们可以想象当我们只用x作为我们的特征的时候,我们的数据可能实际呈现的样子是一个二次函数的样子,也就是说我们的假设有一定的问题,那么我们求得的最小二乘值将相当的大了。但是如果我们有10组样本,我们选择一个10次方的特征,那么可以想象,最后我们得到的曲线将是一个能经过所有的10组样本的曲线,也就是说最小二乘的值直接等于0了。

     

     

    可以看出左边的图和右边的图都有一定问题,而其实中间建立的二次模型假设才是我们想要的。

    所以,对于一个监督学习模型来说,过小的特征集合使得模型过于简单,过大的特征集合使得模型过于复杂

    对于特征集过小的情况,称之为欠拟合(underfitting)

    对于特征集过大的情况,称之为过拟合(overfitting)

    解决此类学习问题的方法:

    1)       特征选择算法:一类自动化算法,在这类回归问题中选择用到的特征

    2)       非参数学习算法:缓解对于选取特征的需求,引出局部加权回归

    局部加权回归

    局部加权回归就是一种非参数学习算法,非参数学习算法的定义是:一个参数数量会随m(训练集大小)增长的算法。通常定义为参数数量随m线性增长。换句话说,就是算法所需要的东西会随着训练集合线性增长,算法的维持是基于整个训练集合的,即使是在学习以后。

    局部加权回归的意思就是:对于一个确定的询问点x,我们都要进行一次局部加权回归求得相应的Θ,算法流程是:

    找到合适的Θ,最小化    就是我们对于当前x这个询问求得的线性回归y。

    其中 表示对于每一个样本的权值,可以有多种取值,

    一种相对标准公平的选择是:

    被称作波长函数,它控制了权值随距离下降的速率。它越小,钟形越窄,ω衰减的很快;它越大,衰减的就越慢。

    而ω可以简单的看出当样本距离询问点比较接近时,权值就是越大,相反越远就会越小。

    这个算法的优缺点也很容易被看出来:

    优点就是,局部加权回归缓解了特征选择的需要,很大程度上缓解了欠拟合的问题。

    缺点就是,每一次有个新的询问,我们都有重新遍历样本,重新收敛参数θ,这样对于效率来说会非常的慢。

  • 相关阅读:
    在ubuntu上搭建turnserver
    如何将R包安装到自定义路径
    R读取MySQL数据出现乱码,解决该问题的方法总结
    利用百度API(js),通过地址获取经纬度的注意事项
    通过地址获取经纬度的三种方法; 通过经纬度获取省市的方法
    软件工程-第一周作业汇总
    软件工程作业-采访本课程往届学生记录
    动手实现混合四则运算
    历年学生软件作品点评
    软件工程-东北师大站-第一次作业
  • 原文地址:https://www.cnblogs.com/samsons/p/4396164.html
Copyright © 2011-2022 走看看