1.1 通俗的理解:
统计学讲回归 就是一堆数据画到一个画像上,实际上有一个真实图像 但是你从数据得到的图像和真实的图像不一致,通过数据越来越多,图像就回到了真实的图像了,这就是回归。
通过观察使得认知接近真值的过程---回归本源
在我们认知(测量)这个世界的时候,我们并不能得到这个世界的全部信息(真值),只能得到这个世界展现出的可被我们观测的部分信息。那么,如果我们想得到世界的真值,就只能通过尽可能多的信息,从而使得我们的认识,无限接近(回归)真值。
其中,真值的概念是一个抽象的概念(感觉是从统计学中给出的)。真值是真实存在于这个世界的,但是却又永远无法真正得到。因为,无论是受限于我们自身的认知水平,还是测量手段,都会存在偏差,导致无法得到真值。就
像海森堡测不准原理一样,永远不可能知道一个确定的真值。再说的扯一点,真值就是我们中国人常说的道。
1.2 回归的定义
回归,指研究一组随机变量(Y1 ,Y2 ,…,Yi)和另一组(X1,X2,…,Xk)变量之间关系的统计分析方法,又称多重回归分析。通常Y1,Y2,…,Yi是因变量,X1、X2,…,Xk是自变量。
1.3 回归分析(Regression analysis)
分析自变量与因变量之间定量的因果关系,并用回归方程来表示。
结合1.1所说的回归的含义,我们可以重新对回归分析进行解释。也就是,通过更多的数据(自变量和因变量),使得回归方程的参数更加准确,更能精确地描述自变量和因变量之间的关系。
这里的真值是什么呢?就是自变量和因变量之间的关系。
我们的认知又是什么呢?就是回归方程的参数。
回归分析是建立一种数学模型。
当函数为参数未知的线性函数时,称为线性回归分析模型;当函数为参数未知的非线性函数时,称为非线性回归分析模型。当自变量个数大于1时称为多元回归,当因变量个数大于1时称为多重回归。
1.4 回归的分类
回归主要的种类有:线性回归、曲线回归、二元logistic回归、多元logistic回归。
最简单的情形是一元线性回归,由大体上有线性关系的一个自变量和一个因变量组成;模型是Y=a+bX+ε(X是自变量,Y是因变量,ε是随机误差)。
所谓的回归分析,即是根据 一组数据 来预测关系式,将该关系式作为数学模型; 然后再用另外的数据根据该模型进行拟合。
回归分析则要分析现象之间相关的具体形式,确定其因果关系,并用数学模型来表现其具体关系。
一般来说,回归分析是通过规定因变量和自变量来确定变量之间的因果关系,建立回归模型,并根据实测数据来求解模型的各个参数,然后评价回归模型是否能够很好的拟合实测数据;如果能够很好的拟合,则可以根据自变量作进一步预
测。
references:
http://blog.sina.com.cn/s/blog_7445c2940102wln5.html
https://baike.baidu.com/item/%E5%9B%9E%E5%BD%92/10412815?fr=aladdin