如何理解线性回归中的“回归”，回归到哪里？

zoukankan html css js c++ java

如何理解线性回归中的“回归”，回归到哪里？

原文地址：https://blog.csdn.net/Laputa_ML/article/details/80100739

如何理解线性回归中的“回归”，回归到哪里？先看看线性回归的英文regression towards the mean。mean在英文中是平均值的意思。
那么平均值又怎么理解呢？个人觉得如果能和另外几个值联合起来思考更有助于理解。它们是——真实值、测量值。

真实值

就是一个物体的真实的值。比如桌面的长度的真实值。真实值有什么特点呢？
1、真实值确定存在，比如桌子的长度一定存在一个值。
2、人类永远无法得到真实值，这个比较难以理解了，为什么无法得到真实值，还是永远呢？——因为误差永远存在，无论使用多么精密的测量仪器，无论测量者多么认真仔细，无论测量多少次，误差用用存在，人类永远无法得到真实值。(你要有点哲学思维才能理解)

测量值

测量值就是人类测量桌面长度得到的值，上面说过，测量值由于误差的存在，一定不等于真实值。

平均值

通俗的理解就是多次测量结果求算术平均数的平均值。那么平均值和真实值之间是什么关系呢？个人理解如下：
1、在有限次测量次数的前提下，平均值永远不会等于真实值
2、当测量次数增加的前提下，平均值会接近真实值
3、当测量次数达到无穷∞∞的时候，平均值等于真实值

1和2都很好理解，因为误差的存在导致的。
那么3为什么当测量次数达到∞∞的时候，平均值等于真实值呢？因为当测量次数达到无限的话，无限次的测量中每次测量产生的误差之间最终会相互抵消。举例说明：用尺子测量桌面的长度会受到温度的影响，因为温度会使尺子热胀冷缩而产生误差。那么我们来做一次假设：
    有一张桌子，桌面的真实长度是20cm，即真实值是200mm
    假设某一次测量的时候温度高，尺子热胀了，那么测量值就比真实值小了。再假设第二次测量的时候温度又低了，尺子冷缩了，那么测量值就比真实值大了。那么两次测量的误差就抵消了。
    但是可能没有完全抵消。比如第一次热涨的时候测小了10mm，测量值是190mm，冷缩的时候测大了8mm，测量值是208mm，那么平均值是(190+208)/2=199mm，这个值不等于真实值。那么我们多测量几次呢？有可能每一次测量的误差相互抵消的越来越小，也就越来越接近真实值。那么什么时候等于真实值呢？只有等测量次数达到∞∞的时候，每次测量的误差可以完全抵消，这是平均值一定等于真实值。
    但是这不和上面所说的人类永远无法得到真实值相矛盾吗？不矛盾，因为人类、凡人永远无法做到∞∞，∞∞的特点有两个：
    1、你可以无限接近∞∞
    2、你永远无法达到∞∞
    由于第二点的存在，人类永远无法做到测量∞∞次，那么人类永远无法得到物体的真实值。
    那么回到题目，到底什么是回归，回归到哪里？就是回归到真实值，或者叫回归到事物的本质。
    上面说过，当测量次数越多的时候，平均值越接近真实值，这也说明了为什么必须要大数据才行。当数据量足够大的时候，我们得到的均值越接近事物的本质——真实值，也就是说线性回归方程就是回归到事物的本质——真实值。

平均值与回归方程之间的关系

可能有人看不出求平均值的公式和回归方程公式有什么关系，因为这两个公式表面上看上去确实长得不像。
求算术平均值公式：
x1+x2+x3+…..+xnnx1+x2+x3+…..+xnn

回归方程公式：
y = w0w0 + w1w1x1x1 + w2w2x2x2 + …… + wnwn*xnxn

参考以前的这篇文章线性回归
均值，其实是针对实验观察到的特征样本而言的。比如我们实验结果得出了x1x1,x2x2,x3x3…..xnxn这n个值，那么我们的均值计算是

x1+x2+x3+…..+xnnx1+x2+x3+…..+xnn

比如我们进行掷骰子，掷了六次，点数分别为2，2，2，4，4，4，这六次的观察就是我们的样本，于是我们可以说均值为(2+2+2+4+4+4)/6=3。那么这个公式怎么看上去都和回归方程长得不一样，但是将均值的公式变换一下：

(2+2+2+4+4+4)/6 = 3

3 = (2+2+2+4+4+4)/6

3 = 1/6*2 + 1/6*2 + 1/6*2 + 1/6*4 + 1/6*4 + 1/6*4

再看上面这个公式是不是和回归方程有点像了呢？如果将3看做y，2，2，2，4，4，4看做x1x1、x2x2、x3x3、x4x4、x5x5、x6x6，那么公式就是

y = 1616x1x1 + 1616x2x2 +1616x3x3 +1616x4x4 +1616x5x5 +1616x6x6
是不是已经非常像回归方程了？只是回归方程的权重是加权的，而平均值的权重是等权的。这就解释了为什么y是均值了。
y = w0w0 + w1w1x1x1 + w2w2x2x2 + w3w3x3x3 + w4w4x4x4 + w5w5x5x5 + w6w6x6x6

其实可以看出来，回归方程的y其实就是加权均值，均值就是等权均值，但实质是相同的。所以说回归方程中的y就是均值mean。

总结

数学的概念其实是为了满足人类生产生活的需要，人类生产生活中人们关心的是哪个值？肯定不是测量值，因为误差永远存在，人类关心的是事物的本质，也就是真实值，人类生产生活想要得到的就是真实值，回归就是要回归到真实值。
虽然测量值并不是人类想要的，但是真实值确实人类永远无法得到的，那么人类通过数学统计学原理，使用测量值来推测真实值，推测方法就是尽可能增大测量次数，求取多次测量的均值，而测量次数越多，得到的均值越接近真实值。
上面说过，人类，凡人是做不多测量∞∞次数，假设你是上帝，你是如来，你是神，那你可以做到测量∞∞次，此时均值y=真实值。
y = x1+x2+x3+…..+xnnx1+x2+x3+…..+xnn = 真实值（其中，n=∞∞）

线性回归方程中几个概念
example就是样本，examples就是样本集合，但是一般称作样本空间。
feathers成为特征，也就是回归方程中的x1x2x3…..xnx1x2x3…..xn
x0x0 = 1 是方程的截距。
β1β2β3…..βnβ1β2β3…..βn是每一个特征（x）发生的概率。
outcome：就是人类期望得到的真实值，但是我们得到的outcome是接近真实值的均值。
ξ 指的就是每个example和真实值之间的偏差，误差。
————————————————
版权声明：本文为CSDN博主「Laputa_ML」的原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接及本声明。
原文链接：https://blog.csdn.net/Laputa_ML/article/details/80100739

查看全文

相关阅读:
自我学习笔记08
自我学习笔记07
自我学习笔记06
自我学习笔记05
自我学习笔记04
自我学习笔记03
自我学习笔记02
WebApi HttpUtils
Android 正则表达式，Pattern，Matcher基本使用
 Andriod项目结构

原文地址：https://www.cnblogs.com/lzhu/p/11745433.html