zoukankan      html  css  js  c++  java
  • 线性回归——最小二乘法(一)

    相信学过数理统计的都学过线性回归(linear regression),本篇文章详细将讲解单变量线性回归并写出使用最小二乘法(least squares method)来求线性回归损失函数最优解的完整过程,首先推导出最小二乘法,后用最小二乘法对一个简单数据集进行线性回归拟合

    线性回归

      线性回归假设数据集中特征与结果存在着线性关系;

      等式:y = mx + c

      y为结果,x为特征,m为系数,c为误差 在数学中m为梯度c为截距

      这个等式为我们假设的,我们需要找到m、c使得mx+c得到的结果与真实的y误差最小,这里使用平方差来衡量估计值与真实值得误差(如果只用差值就可能会存在负数); 用于计算真实值与预测值的误差的函数称为:平方损失函数(squard loss function);这里用L表示损失函数,所以有:

    1

      整个数据集上的平均损失为:
    2

      我们要求得最匹配的m与c使得L最小;
    数学表达式可以表示为:

    3

      最小二乘法用于求目标函数的最优值,它通过最小化误差的平方和寻找匹配项所以又称为:最小平方法;这里将用最小二乘法用于求得线性回归的最优解;

    最小二乘法

      为了方便讲清楚最小二乘法推导过程这里使用,数据集有1…N个数据组成,每个数据由、构成,x表示特征,y为结果;这里将线性回归模型定义为:
    4

    平均损失函数定义有:

    5_1
    5_1

      要求得L的最小,其关于c与m的偏导数定为0,所以求偏导数,得出后让导数等于0,并对c与m求解便能得到最小的L此时的c与m便是最匹配该模型的;

    关于c偏导数:

    因为求得是关于c的偏导数,因此把L的等式中不包含c的项去掉得:
    6

    整理式子把不包含下标n的往累加和外移得到:
    7
    对c求偏导数得:
    8

    关于m的偏导数:

    求关于m的偏导数,因此把L等式中不包含项去掉得:

    9
      整理式子把不包含下标n的往累加和外移得到:
    10
    对m求偏导数得:
    11

    令关于c的偏导数等于0,求解:

    12

    从上求解得到的值可以看出,上面式子中存在两个平均值,因此该等式也可以改写成:

    13

    令关于m的偏导数等于0,求解:
      关于m的偏导数依赖于c,又因为已经求得了关于c偏导数的解,因此把求关于c偏导数的解代数关于m的偏导数式子得:
    14_1
    14_2
    14_3

    合并含有m的项化简:

    15
    求解:

    16_1
    16_2

    为了简化式子,再定义出:
    17

    示例:

    这里使用上面得到的最小二乘法公式对以下数据集进行线性拟合:

    nxyxyx^2
    1 2 4 8 4
    2 6 8 48 36
    3 9 12 108 81
    4 13 21 273 169
    平均值 7.5 11.25 109.25 72.5

    数据点分布情况:

    19

    根据上诉最小二乘法公式计算出当前数据集最优:m与c

    21

    c = 11.25 - 1.5307 * 7.5 = -0.23

    最后得出当前线性函数为:

    y = 1.5307x - 0.23

    计算出每个节点的预测值:

    y1 = 1.5307 * 2 - 0.23 = 2.83
    y2 = 1.5307 * 6 - 0.23 = 8.9542
    y3 = 1.5307 * 9 - 0.23 = 13.5463
    y4 = 1.5307 * 13- 0.23 = 19.6691

    拟合结果:

    参考资料:
    https://zh.wikipedia.org/zh/%E6%9C%80%E5%B0%8F%E4%BA%8C%E4%B9%98%E6%B3%95
    a first course in machine learning

    文章首发地址:Solinx
    http://www.solinx.co/archives/648

  • 相关阅读:
    【备忘录】Sublime Text编辑器如何在选中的多行行首增加字符串
    微信卡券领取页面提示签名错误,微信卡券JSAPI签名校验工具对比签名一模一样,cardExt扩展字段有问题
    程序运行时动态生成缓存时存在的问题
    golang的beego框架开发时出现的问题纪录
    【备忘录】CentOS服务器mysql忘记root密码恢复
    试玩swoole扩展 第一天
    spring 定时任务执行2次
    JVM CUP占用率过高排除方法,windows环境
    spring cloud 服务A调用服务B自定义token消失,记录
    java.sql.SQLException: Value '0000-00-00' can not be represented as java.sql.Timestamp
  • 原文地址:https://www.cnblogs.com/gaosheng-221/p/6133452.html
Copyright © 2011-2022 走看看