zoukankan      html  css  js  c++  java
  • 【线性回归】最小二乘与岭回归的概率论解释

    背景:

    考虑一个多项式拟合问题,如下图,绿线的方程是sin(2πx)sin⁡(2πx),蓝点是由绿线并加上噪音(这些噪音是默认符合正态分布的)生成。已知条件是由NN个点构成的训练集x=(x1,...xN)Tx=(x1,...xN)T,以及这些点对应的目标值t=(t1,...tN)Tt=(t1,...tN)T。现在的目标是:根据蓝点来拟合一条曲线,而绿线就是我们要最终拟合的效果。


    问题:
    假设我们最终要拟合的曲线是下面这个MM阶方程,方程如下:
    y(x,w)=w0+w1x+w2x2+...+wMxM=∑j=0Mwjxj(方程1)
    y(x,w)=w0+w1x+w2x2+...+wMxM=∑j=0Mwjxj(方程1)

    其中ww是该方程的系数,也是我们最终要求的对象;
    通常我们会使用最小二乘法来做误差函数(error function,其是一种狭义的损失函数loss function),其公式如下:
    E(w)=12∑i=1N{y(xn,w)−tn}2(方程2)
    E(w)=12∑i=1N{y(xn,w)−tn}2(方程2)

    其中tntn是这些点真实的数值,即上图中的蓝点,我们的目标就是求得一组ww使E(w)E(w)的值最小;
    这似乎是一个天经地义的事情,但它是否是正确的?为什么正确?为什么不能直接将残差累加或是残差的绝对值来作为损失函数,如下式?
    E(w)=12∑i=1N|y(xn,w)−tn|
    E(w)=12∑i=1N|y(xn,w)−tn|

    在使用最小二乘作为误差函数的时候,我们缺乏一个对公式的解释,下面本文就从概率论的角度来解释最小二乘背后的原因。
    概率论解释最小二乘法:
    这里有个假设:一个点的观测值符合以其真实值为均值,方差为β−1β−1(β−1=σ2β−1=σ2)的高斯分布;即是默认我们的误差是属于高斯分布的,写成数学表达式即:
    p(t|x,w,β)=N(t|y(x,w),β−1)(方程3)
    p(t|x,w,β)=N(t|y(x,w),β−1)(方程3)

    如果每个xx都是独立同分布的,那么对于观测值tt的最大似然函数,即:
    p(t|x,w,β)=∏n=1NN(tn|y(xn,w),β−1)(方程4)
    p(t|x,w,β)=∏n=1NN(tn|y(xn,w),β−1)(方程4)

    取对数似然函数,即:
    lnp(t|x,w,β)=∑n=1NlnN(tn|y(xn,w),β−1)
    ln⁡p(t|x,w,β)=∑n=1NlnN(tn|y(xn,w),β−1)

    即:
    lnp(t|x,w,β)=−β2∑n=1N{y(xn,w)−tn}2+N2lnβ−N2ln(2π)(方程5)
    ln⁡p(t|x,w,β)=−β2∑n=1N{y(xn,w)−tn}2+N2ln⁡β−N2ln⁡(2π)(方程5)

    目标是求方程5的最大值,因为最终要求的是ww,因此最终就成了求公式6的最小值,即:
    ∑n=1N{y(xn,w)−tn}2(公式6)
    ∑n=1N{y(xn,w)−tn}2(公式6)
    这个竟然就是一开始的最小二乘法!
    总结1:
    利用最小二乘法求解本质上是求解似然函数的最大值,并且默认残差属于高斯分布。

    概率论解释岭回归:
    我们在上面的基础上增加一个先验概率:拟合函数的参数ww属于一个均值为0的多元高斯分布,本质是在限制ww中的各项相差不能太大,即:
    p(w|α)=N(w|0,α−1I)=(α2π)(M+1)/2exp{−α2wTw}(公式7)
    p(w|α)=N(w|0,α−1I)=(α2π)(M+1)/2exp{−α2wTw}(公式7)
    对公式7求对数,即:
    lnp(w|α)=M+12lnα2π−α2WTW(公式8)
    lnp(w|α)=M+12lnα2π−α2WTW(公式8)
    由于(这是贝叶斯函数的另一种表达方式):
    后验概率=先验概率∗似然函数(公式9)
    后验概率=先验概率∗似然函数(公式9)
    因此:
    p(w|x,t,α,β)正比于p(t|x,w,β)p(w|α)(公式10)
    p(w|x,t,α,β)正比于p(t|x,w,β)p(w|α)(公式10)
    现在我们可以通过已知条件,通过后验概率来求出最有可能的ww,即求公式10的最大值。取公式10左式的负对数,并将公式5和公式8带入,求公式10的最大值可等价于求下式的最小值,即:
    β2∑n=1N{y(xn,w)−tn}2+α2wTw
    β2∑n=1N{y(xn,w)−tn}2+α2wTw
    总结2:
    岭回归本质上是求解后验概率的最大值,并且添加的先验条件是参数ww符合多元高斯分布。

    极大似然估计(MLE)和极大后验估计(MAP):
    在用概率论解释最小二乘法的时候,我们使用的是MLE,即求出似然函数的最大值;在用概率论解释岭回归时,我们使用的是MAP,即求出后验概率的最大值。

    参考:

    https://blog.csdn.net/liu_sn/article/details/79591146

    https://blog.csdn.net/freedom098/article/details/56489238

  • 相关阅读:
    接触C# 反射
    未能找出类型或命名空间名称“T” 问题的解决方案
    Win7 文件加密存储操作后,如何在事后备份证书、秘钥
    [转] SQL SERVER 2008 R2 安装中的账户设置问题
    centos6.5+Django+mysql+nginx+uwsgi
    JAVA解决大数
    STL algorithm算法min,min_element(35)
    Java中间MD5加密算法完整版
    IP地址和子网掩码
    加州理工大学公开课:机器学习与数据挖掘_线性模型 II(第IX类)
  • 原文地址:https://www.cnblogs.com/junneyang/p/12098124.html
Copyright © 2011-2022 走看看