给定由d个特征描绘的样本x=(x1;,x2;...;xd),其中xi表示样本的第i个特征的取值,故预测函数的一般形式为
f(x)=w1x1+w2x2+...+wdxd+b
一般写成向量形式
f(x)=wx+b
首先讨论最简单的形式:一元线性回归模型,即数据集只含一个特征
f(xi)=wxi+b
模型评估函数用最小均方误差函数:
E(w,b)=arg min(f(xi)-yi)2
=arg min(wx+b-yi)2
为了最小化函数E(w,b),分别对w和b求导
∂E(w,b)/∂w=2(w∑xi-∑(yi- b)xi)--------1
∂E(w,b)/∂b=2(mb-∑(yi-wxi))----------2
其中i=0,1,...,m(m为样本数)
令1和2式等于0:
∂E(w,b)/∂w=0
∂E(w,b)/∂b=0
既可以得到w和b的值
现在讨论多元模型:即样本由多个特征描绘
f(Xi)=WTXi+b
令W*=(W,b)
X=(x1T,1;...;xmT,1)
得到:
E(W*)=arg min(Y-XW*)T(Y-XW*)
对W求导:
∂E(W)/∂W=2XT(XW*-Y)
如果XTX是非奇异矩阵,则
W*=(XTX)-1XTY
但是大多数情况下矩阵(XTX)往往是非方阵,所以不可求(XTX)的逆