zoukankan      html  css  js  c++  java
  • 机器学习(3)之最小二乘法的概率解释与局部加权回归

    机器学习(3)之最小二乘法的概率解释与局部加权回归

    1. 最小二乘法的概率解释

    在前面梯度下降以及正规方程组求解最优解参数Θ时,为什么选择最小二乘作为计算参数的指标,使得假设预测出的值和真正y值之间面积的平方最小化?

    我们提供一组假设,证明在这组假设下最小二乘是有意义的,但是这组假设不唯一,还有其他很多方法可以证明其有意义。

    (1)      假设1:

    假设输入与输出为线性函数关系,表示为:

     

    其中,为误差项,这个参数可以理解为对未建模效应的捕获,如果还有其他特征,这个误差项表示了一种我们没有捕获的特征,或者看成一种随机的噪声。

    假设服从某个概率分布,如高斯分布(正态分布):,表示一个均值是0,方差是的高斯分布。

    高斯分布的概率密度函数:

     

    根据上述两式可得:

     

    即,在给定了特征与参数之后,输出是一个服从高斯分布的随机变量,可描述为:

     

    *为什么选取高斯分布?

    1)         便于数学处理

    2)         对绝大多数问题,如果使用了线性回归模型,然后测量误差分布,通常会发现误差是高斯分布的。

    3)         中心极限定律:若干独立的随机变量之和趋向于服从高斯分布。若误差有多个因素导致,这些因素造成的效应的总和接近服从高斯分布。

    注意:并不是一个随机变量,而是一个尝试估计的值,就是说它本身是一个常量,只不过我们不知道它的值,所以上式中用分号表示。分号应读作“以…作为参数”,上式读作“给定x(i)以为参数的y(i)的概率服从高斯分布”。

    假设每个 为IID(independently and identically distributed)独立同分布

    即误差项彼此之间是独立的,并且他们服从均值和方差相同的高斯分布

    (2)      假设2:

    的似然性为(即给定x(i)以为参数的y(i)的概率):

     

    由于是独立同分布,所以上式可写成所有分布的乘积:

    (3)      假设3:

    极大似然估计:选取使似然性最大化(数据出现的可能性尽可能大)

    定义对数似然函数为

     

    上式两个加项,前一项为常数。所以,使似然函数最大,就是使后一项最小,即:

     

    这一项就是之前的 ,由此得证,即之前的最小二乘法计算参数,实际上是假设了误差项满足高斯分布,且独立同分布的情况,使似然最大化来计算参数。

    2.局部加权回归

    一种特定的非参数学习算法。也称作Loess。

    算法思想:

    假设对于一个确定的查询点x,在x处对你的假设h(x)求值。

    对于线性回归,步骤如下:

    1)       拟合出,使最小

    2)       返回

    对于局部加权回归,当要处理x时:

    1)       检查数据集合,并且只考虑位于x周围的固定区域内的数据点

    2)       对这个区域内的点做线性回归,拟合出一条直线

    3)       根据这条拟合直线对x的输出,作为算法返回的结果

    用数学语言描述即:

    1)       拟合出,使最小

    2)       w为权值,有很多可能的选择,比如:

     

    -          其意义在于,所选取的x(i)越接近x,相应的w(i)越接近1;x(i)越远离x,w(i)越接近0。直观的说,就是离得近的点权值大,离得远的点权值小。

    -          这个衰减函数比较具有普遍意义,虽然它的曲线是钟形的,但不是高斯分布。

    -          被称作波长函数,它控制了权值随距离下降的速率。它越小,钟形越窄,w衰减的很快;它越大,衰减的就越慢。

    3)       返回

    总结:对于局部加权回归,每进行一次预测,都要重新拟合一条曲线。但如果沿着x轴对每个点都进行同样的操作,你会得到对于这个数据集的局部加权回归预测结果,追踪到一条非线性曲线。

    *局部加权回归的问题:

    由于每次进行预测都要根据训练集拟合曲线,若训练集太大,每次进行预测的用到的训练集就会变得很大,有方法可以让局部加权回归对于大型数据集更高效,详情参见Andrew Moore的关于KD-tree的工作。

  • 相关阅读:
    MVC设置默认页面
    MySQL_DBA整理
    解决git提交敏感信息(回退git版本库到某一个commit)
    并发数计算
    高并发下的 Nginx 优化与负载均衡
    PassengerNginxdebian快速部署Rails
    Linux+postfix+extmail+dovecot打造基于web页面的邮件系统
    2018.11.30软件更新公告
    2018.10.11软件更新公告
    2018.09.25软件更新公告
  • 原文地址:https://www.cnblogs.com/rcfeng/p/3965490.html
Copyright © 2011-2022 走看看