多元线性回归 ——模型、估计、检验与预测

zoukankan html css js c++ java

多元线性回归 ——模型、估计、检验与预测

一、模型假设

传统多元线性回归模型

最重要的假设的原理为：

1. 自变量和因变量之间存在多元线性关系，因变量y能够被x1,x2….x{k}完全地线性解释；2.不能被解释的部分则为纯粹的无法观测到的误差

其它假设主要为：

1.模型线性，设定正确； 2.无多重共线性； 3.无内生性； 4.随机误差项具有条件零均值、同方差、以及无自相关； 5.随机误差项正态分布

具体见另一篇文章：回归模型的基本假设

二、估计方法

目标：估计出多元回归模型的参数

注：下文皆为矩阵表述，X为自变量矩阵(n*k维)，y为因变量向量（n*1维）

OLS（普通最小二乘估计）

思想：多元回归模型的参数应当能够使得，因变量y的样本向量在由自变量X的样本所构成的线性空间G（x）的投影（即y’= xb）为向量y在线性空间G(x)上的正交投影。直白一点说，就是要使得(y-y’)’(y-y’)最小化，从而能够使y的预测值与y的真实值之间的差距最小。

使用凸优化方法，可以求得参数的估计值为：b = (x’x)^(-1)x’y

最大似然估计

既然已经在假设中假设了随机误差项的分布为正态分布，

那么自变量y的分布也可以由线性模型推算出来（其分布的具体函数包括参数b在内）。

进一步的既然已经抽取到了y的样本，那么使得y的样本出现概率（联合概率密度）最大的参数即为所求

最终结果与OLS估计的结果是一致的

矩估计

思想：通过寻找总体矩条件(模型设定时已经有的假设，即无内生性)，在总体矩条件中有参数的存在，然后用样本矩形条件来进行推导未知参数的解。

在多元回归中有外生性假设：

对应的样本矩为：

最终估计结果与OLS方法也是一样的。

三、模型检验

1.拟合优度检验

（1）因变量y是随机变量，而估计出来的y’却不是随机变量；

（2）拟合优度表示的是模型的估计值y’能够在多大程度上解释因变量样本y的变动。

（3）y’的变动解释y的变动能力越强，则说明模型拟合的越好y-y’就越接近与假设的随机误差

（4）而因变量的变动是由其方差来描述的。

所以定义3个变动：y’的变动，y的变动，以及随机误差u的变动。y的变动是由y’的变动和u的变动所构成的。

TSS:总回归平方和，代表y的变动

RSS:残差平方和，代表y’没有观测到的变动，这部分越大，说明拟合效果越差

ESS:回归平方和，代表y’观测到的变动，这部分越大，说明拟合效果越好。

进一步地，得出了拟合系数

该系数越大，表明模型的拟合程度越好。

需要注意的是，拟合系数并非越大越好，过度拟合的模型是难以进行外推的。

2.总体线性的检验

假设：

思想：若是所有参数的系数都为0，那么y的变动纯粹是由随机项的变动决定的，ESS模型解释的变动范围即为随机项的变动范围，由于随机项服从正态分布，那么ESS则服从卡方分布，又RSS为随机项的变动，本身就服从卡方分布。因此可以构造F统计量

若F值过大，则原假设成立的可能性就很小了。

3.变量显著性的检验

变量显著性的检验思想非常简单：由于b = (x’x)^(-1)x’y，再加上随机项正态分布的假设，便可以得出b的正态分布结论，同时由于随机项的方差是未知的，所以我们便用余差平方和对方差进行估计，从而能够构造T统计量。

四、回归模型的预测

查看全文

相关阅读:
浏览器返回按钮不会触发onLoad事件
 TCP慢启动算法
 TCP协议三次握手过程分析
 关于新增和编辑
 Mock, 让你的开发脱离接口
 到底数据驱动是个什么玩意
 pagination分页插件
 关于状态切换
 在线占位图网站
 Arduino nano 与 w5500模块的连接与调试

原文地址：https://www.cnblogs.com/pingzeng/p/5033163.html

多元线性回归 ——模型、估计、检验与预测

一、模型假设

传统多元线性回归模型

最重要的假设的原理为：

其它假设主要为：

二、估计方法

OLS（普通最小二乘估计）

最大似然估计

矩估计

三、模型检验

1.拟合优度检验

2.总体线性的检验

3.变量显著性的检验

四、回归模型的预测