zoukankan      html  css  js  c++  java
  • 一般回归问题、线性回归与模型的正确设定

    1 一般回归问题

    一般来说,计量经济学教材会从线性回归讲起,但这里再在线性回归之前,理一理更一般性的回归问题。

    先看定义一下什么叫回归:

    定义1 回归函数(Regression Function):(mathbb{E}(y|mathbf{x}))就是(y)(mathbf{x})的回归函数。

    再定义一个度量预测得好不好的指标:

    定义2 均方误(Mean Squared Error,MSE):假设用(g(mathbf{x}))预测(y),则预测量(g(mathbf{x}))的均方误为 $$ ext{MSE}(g)=mathbb{E}[y-g(mathbf{x})]^2$$

    最好的预测函数的形式是什么?以下定理表明,最好的预测函数,恰恰就是回归函数即条件期望。

    定理1 MSE的最优解:(mathbb{E}(y|mathbf{x}))是以下问题的最优解:

    [mathbb{E}(y|mathbf{x}) = argmin_{gin mathbb{F}} ext{MSE}(g) = argmin_{gin mathbb{F}} mathbb{E}[y-g(mathbf{x})]^2 ]

    其中(mathbb{F})是所有可测和平方可积函数的集合(space of all measurable and square-integrable functions):

    [mathbb{F}={ g:mathbb{R}^{k+1} omathbb{R} Big| int g^2(mathbf{x})f_X(mathbf{x})\,dmathbf{x}<infty} ]

    在该定理中,直接求解最值问题比较复杂,需要用到变分法,用构造法证明该定理比较简单,直接对( ext{MSE}(g))做分解即可。令(g_0(mathbf{x})equiv mathbb{E}(y|mathbf{x})),则有

    [egin{aligned} ext{MSE}(g) = &mathbb{E}[y-g_0(mathbf{x})+g_0(mathbf{x})-g(mathbf{x})]^2\ =& mathbb{E}[y-g_0(mathbf{x})]^2+mathbb{E}[g_0(mathbf{x})-g(mathbf{x})]^2+2mathbb{E}[left(y-g_0(mathbf{x}) ight)left(g_0(mathbf{x})-g(mathbf{x}) ight)]^2\ =& mathbb{E}[y-g_0(mathbf{x})]^2+mathbb{E}[g_0(mathbf{x})-g(mathbf{x})]^2 end{aligned} ]

    显然,第一项为常数,只有当第二项为(0)(g(mathbf{x})=g_0(mathbf{x}))时,( ext{MSE}(g))取到最小。

    再来看一个有关回归中的扰动项的定理:

    定理2 回归等式(Regresssion Identity):给定(mathbb{E}(y|mathbf{x})),总是有

    [y=mathbb{E}(y|mathbf{x})+varepsilon ]

    其中(varepsilon)为回归扰动项(regression disturbance),满足(mathbb{E}(varepsilon|mathbf{x})=0)

    接下来的问题是,我们该如何对这个最优解(g_0(mathbf{x}))建模?最简单地,可以用线性函数去近似它。

    2 线性回归

    首先,引入仿射函数的概念:

    定义3 仿射函数族(Affine Functions):记(mathbf{x}=(1,x_1,ldots,x_k)')(eta=(eta_0,eta_1,ldots,eta_k)'),则仿射函数族定义为

    [mathbb{A}= left{g: mathbb{R}^{k+1} omathbb{R} Big| g(mathbf{x})=mathbf{x}'eta ight} ]

    当我们将(g(x))的函数集合从所有可测且平方可积的函数集限制为仿射函数集后,问题转变为求解最优的参数(eta^*)使得MSE最小化,该参数就称为最优最小二乘近似系数。

    定理3 最优线性最小二乘预测(Best Linear Least Squares Prediction):假设(E(y^2)<infty)且矩阵(mathbb{E}(mathbf{x}mathbf{x}'))非奇异,则优化问题

    [min_{ginmathbb{A}} mathbb{E}[y-g(mathbf{x})]^2=min_{etainmathbb{R}^{k+1}} mathbb{E}(y-mathbf{x}'eta)^2 ]

    的解,即最优线性最小二乘预测为

    [g^*(mathbf{x})=mathbf{x}'eta^* ]

    其中

    [eta^*=[mathbb{E}(mathbf{x}mathbf{x}')]^{-1}mathbb{E}(mathbf{x}y) ]

    证明非常容易,只需对一阶条件(dfrac{dmathbb{E}(y-mathbf{x}'eta)^2}{deta}igg|_{eta=eta^*}=0)求解即可,因为二阶条件即Hessian矩阵(dfrac{d^2mathbb{E}(y-mathbf{x}'eta)^2}{deta deta'}=mathbb{E}(mathbf{x}mathbf{x}'))(mathbb{E}(mathbf{x}mathbf{x}'))非奇异时一定是正定的。

    下面正式定义线性回归模型:

    定义4 线性回归模型(Linear Regression Model):

    [y=mathbf{x}'eta+u, etainmathbb{R}^{k+1} ]

    其中(u)是回归模型误差(regression model error)。

    那么,线性回归模型和最优线性最小二乘预测之间有什么关系?

    定理4 假设定理3的条件成立,(y=mathbf{x}'eta+u),并令(eta^*=[mathbb{E}(mathbf{x}mathbf{x}')]^{-1}mathbb{E}(mathbf{x}y))为最优线性最小二乘近似系数。则

    [eta=eta^* ]

    等价于(mathbb{E}(mathbf{x}u)=0)

    该定理的证明非常简单,需从必要性和充分性两方面证明,在此不作展开。

    该定理意味着,只要正交条件(mathbb{E}(mathbf{x}u)=0)满足,那么线性回归模型的参数值就等于最优线性最小二乘近似系数(eta^*),二者等价。

    3 模型的正确设定

    均值模型怎样才是正确设定了?

    定义5 条件均值模型的正确设定(Correct Model Specification in Conditional Mean):线性回归模型(y=mathbf{x}'eta+u, etainmathbb{R}^{k+1})是条件均值(mathbb{E}(y|mathbf{x}))的正确设定,若存在某个参数(eta^o in mathbb{R}^{k+1})使得(mathbb{E}(y|mathbf{x})=mathbf{x}'eta)
    另一方面,若对于任意(etain mathbb{R}^{k+1})均有(mathbb{E}(y|mathbf{x}) eq mathbf{x}'eta),则线性回归模型是对(mathbb{E}(y|mathbf{x}))的错误设定。

    由该定义可以看到,线性回归模型设定正确的条件是存在某一参数(eta^o)使得(mathbb{E}(u|mathbf{x})=0)。换句话说,线性回归模型设定正确的充要条件是(mathbb{E}(u|mathbf{x})=0),其中(u=y-mathbf{x}'eta^o)

    下面的定理说明当均值模型设定正确时,回归模型误差项(u)与真实回归扰动项(varepsilon)的关系:

    定理5 如果线性回归模型(y=mathbf{x}'eta+u)是对条件均值(mathbb{E}(y|mathbf{x}))的正确设定,则
    (1) 存在一个参数(eta^o)和一个随机变量(varepsilon),有(y=mathbf{x}'eta^o+varepsilon),其中(mathbb{E}(varepsilon|mathbf{x})=0)
    (2) (eta^*=eta^o)

    由定义5可直接得到(1),对于(2),可由(1)的(mathbb{E}(varepsilon|mathbf{x})=0)推出(mathbb{E}(mathbf{x}varepsilon)=0),再使用定理4即可得证。

    为便于理解,下面用一个例子说明什么叫模型的正确设定和错误设定:

    假设数据生成过程(DGP)为(y=1+dfrac{1}{2}x_1+dfrac{1}{4}(x_1^2-1)+varepsilon),其中(x_1)(varepsilon)是相互独立的(mathcal{N}(0,1))随机变量。现在如果我们用线性回归模型(y=mathbf{x}'eta+u)对该DGP进行近似,其中(mathbf{x}=(1,x_1)')

    经计算,我们可以解得最优线性最小二乘近似(eta^*=(1,dfrac{1}{2})'),而(g^*(mathbf{x})=1+dfrac{1}{2}x_1),可以看到其中没有包含非线性的部分。若在回归模型中取(eta=eta^*),由定理4,就有(mathbb{E}(mathbf{x}u)=0),但是,此时(mathbb{E}(u|mathbf{x})=dfrac{1}{4}(x_1^2-1) eq 0),即模型没有正确设定。

    模型没有被正确设定,它会造成什么样的后果?计算可知真正的期望边际效应为(dfrac{mathbb{E}(y|mathbf{x})}{dx_1}=dfrac{1}{2}+dfrac{1}{2}x_1),但它不等于(eta^*_1=dfrac{1}{2})。也就是说,模型的错误设定,会导致解出的最优线性最小二乘近似并不是真正的期望边际效用。

    参考资料

    • 洪永淼《高级计量经济学》,2011
  • 相关阅读:
    Atitit  atiMail atiDns新特性 v2  q39
    Atitit.java jar hell解决方案Djava.ext.dirs in ide envi..
    砍价大法
    DWR学习
    什么是WEB 2.0
    XHTML 1.0 Tags 参考
    web.config文件遇到的错误
    JDBC教程之PreparedStatement
    符合W3C标准的target=_blank形式
    dwr 登录实现 (入门知识)
  • 原文地址:https://www.cnblogs.com/analysis101/p/14249193.html
Copyright © 2011-2022 走看看