zoukankan      html  css  js  c++  java
  • 最小一乘回归

    最小一乘回归

    背景

    我们都非常熟悉传统的最小二乘回归,但是最小二乘回归容易受到个别极端值的影响,设想一下不带变量的情形下的最小二乘回归,即

    [operatorname{argmin}_{eta}sum_{i=1}^n(y_i-eta)^2 ]

    容易知道这时的最小二乘估计(hat{eta}=ar{y})

    假设我们的数据为(1,2,3,4,5)代表着班上某5个同学的零花钱,则我们的估计值是(3),但如果这时候第5个同学的数据没收集到,收集到的是另外一个土豪同学的数据,他的零花钱是100,则我们的数据为(1,2,3,4,100),此时估计值就成了(22),也就是说这时候我们对班上其他同学的零花钱估计为(22),但事实上可能这个班除了这个土豪同学有高达100的零花钱外,其他同学零花钱都很少,此时我们这个估计就显得不靠谱了。这种现象在统计学中叫做不稳健(not robust)。设想还是上述例子,但如果我们采用中位数做估计,那么其实两次的估计都是(3),这时候是不是好很多了,一定程度上抵御了某些个别的极端值对估计的影响。

    正是基于这样的思想,人们提出了最小一乘回归,即

    [operatorname{argmin}_{eta_0,cdots,eta_p}sum_{i=1}^{n}|y_{i}-eta_0-sum_{i=1}^{p}eta_{i} x_{i}| ]

    如果考虑不带变量的情形下的最小一乘回归,即

    [operatorname{argmin}_{eta}sum_{i=1}^n|y_i-eta| ]

    则容易知道这时的最小二乘估计(hat{eta}=operatorname{med}_i{{y_i}}),即数据的中位数

    最小一乘回归的求解

    1. 对变量个数多时,转化为线性规划问题,容易验证原始最小一乘回归优化问题,等价于如下的线性规划

      [egin{align*}&operatorname{argmin}_{eta_0,cdots,eta_p}sum_{i=1}^{n}d_i^++d_i^-\& ext{s.t} y_{i}-eta_0-sum_{i=1}^{p}eta_{i} x_{i}-(d_i^+-d_i^-)=0 i=1,cdots,nend{align*} ]

    2. 对变量个数少时,可以采用另外一种办法,可以参看文献1,2,3

    参考文献

    1. 陈希孺. 最小一乘线性回归(上)[J]. 数理统计与管理, 1989(05):48-55.
    2. 陈希孺. 最小一乘线性回归(下)[J]. 数理统计与管理, 1989(05):48-55.
    3. 李仲来. 最小一乘法介绍[J]. 数学通报, 1992(02).
  • 相关阅读:
    人脸识别完整项目实战(1):目录大纲篇
    《分布式数据仓库最佳实践》学员答疑实录(2)
    知识图谱完整项目实战(附源码)(3)
    人脸识别完整项目实战(14):实时人脸特征点标定程序设计
    知识图谱完整项目实战(附源码)(2)
    sqlserver查询数据表中每个分类最新的一条记录
    WPF datagrid combobox 使用枚举
    中控考勤机开发-专业性门禁终端
    临时保存
    开源WPF控件库MaterialDesignInXAML推荐
  • 原文地址:https://www.cnblogs.com/sanmujun/p/12688349.html
Copyright © 2011-2022 走看看