1 一元回归与多元回归
任何一本初级水平的计量经济学、统计学或机器学习相关书籍,都会详细推导多元线性线性回归的解,在这里就不再赘述。
我们给出本文用到的一些设定。(y)为(N)维因变量向量,假设(y=Xeta+epsilon),如果自变量为(p)维,将(X)排为(N imes (p+1))矩阵,其中第一列(x_{cdot 0}=1_N)为全是(1)的截距项,我们有最小二乘估计:
如果是单变量回归,并且没有截距项的话,将自变量记为(N)维向量(x),(y=x'eta)中(eta)的最小二乘估计为
二者有何联系?如果在多变量回归中,(X)的列向量相互正交即(X'X)为对角矩阵,则可以得出,每个系数的估计值为(hateta_j=dfrac{x_{cdot j}'y}{x_{cdot j}'x_{cdot j}})。
这给了我们一种启示,能否构造出相互正交的一些维度?
2 Gram–Schmidt过程
我们用如下过程计算(hateta_p):
- (z_{cdot 0}=x_{cdot 0}=1_N);
- 遍历(j = 1,ldots,p):用(x_{cdot j})对(l=0,ldots, j-1)的每个(z_{cdot l})分别做无截距项的一元线性回归,分别得到系数(hatgamma_{lj}=dfrac{z_{cdot l}'x_{cdot j}}{z_{cdot l}'z_{cdot l}}),最后得到(z_{cdot j}=x_{cdot j}-sum_{k=0}^{j=1}hatgamma_{kj}z_{cdot k});
- 再用(y)对(z_{cdot p})做无截距项的一元回归,得到最终的(hateta_p=dfrac{z_{cdot p}'y}{z_{cdot p}'z_{cdot p}})。
由于(x_{cdot p})只在(z_{cdot p})中出现,并且与(z_{cdot 0},ldots,z_{cdot p-1})均正交,因此有以上结果。若(epsilonsim N(0,sigma^2 I_N)),则该估计的方差可以写为
注意到,每一个维度都可以作为第(p)维,因此,每一个(hateta_j)都可以用这样的方法得出。
3 QR分解
如果补充上(hatgamma_{jj}=0),其中(j=0,ldots,p),将所有的(hatgamma_{ij})排成((p+1) imes (p+1))的上三角矩阵(Gamma),同时再记(Z=(z_{cdot 0}, z_{cdot 1},ldots, z_{cdot p})),则有
再构造一个((p+1) imes (p+1))的对角矩阵(D),对角线元素为(D_{ii}=Vert z_{cdot i}Vert),即(Z'Z=D^2),在上式中间插入(D^{-1}D=I_{p+1}),则有
记(Q=ZD^{-1}),(R=DGamma),这就是矩阵(X)的QR分解:(X=QR)。
由于(Z)的列向量相互正交,因此(Q'Q=D^{-1}Z'ZD=I_{p+1}),而(R)还是一个上三角矩阵。利用QR分解,我们可以将最小二乘估计写为
并有拟合值
由于(R)是上三角矩阵,且最后一行为((0,ldots,0,Vert z_{cdot p}Vert)),因此(R^{-1})也是上三角矩阵,且最后一行为((0,ldots,0,1/Vert z_{cdot p}Vert))。再利用(Q=(z_{cdot 0}/Vert z_{cdot 0}Vert, z_{cdot 1}/Vert z_{cdot 1}Vert,ldots, z_{cdot p}/Vert z_{cdot p}Vert)),可得出(R^{-1}Q')的最后一行为(z_{cdot p}'/Vert z_{cdot p}Vert^2),因此,有
这也与第2节的结果一致。
参考文献
- Hastie, Trevor, Robert Tibshirani, and Jerome Friedman. The elements of statistical learning: data mining, inference, and prediction. Springer Science & Business Media, 2009.