3 线性回归模型
3.1
[sigma(a)=frac{1}{1+exp(-a)},
]
[ anh(a)=frac{exp(a)-exp(-a)}{exp(a)+exp(-a)}=-1+2frac{1}{1+exp(-2a)}=2sigma(2a)-1.
]
3.2
由
[mathbf{Phi}(mathbf{Phi}^ ext{T}mathbf{Phi})^{-1}mathbf{Phi}^ ext{T}mathbf{v}=mathbf{Phi}mathbf{u}
]
显然该矩阵将向量(mathbf{v})投射到由矩阵(mathbf{Phi})列向量支撑的空间。另一方面,由于最大似然估计给出的权值向量为:
[mathbf{w}_ ext{ML}=(mathbf{Phi}^ ext{T}mathbf{Phi})^{-1}mathbf{Phi}^ ext{T}mathbf{t},
]
并且(mathbf{y}=mathbf{Phi}mathbf{w}_ ext{ML}),下面说明最大似然估计给出的结果将(mathbf{t})正交投射到由(mathbf{Phi})确定的子空间。有:
[mathbf{Phi}^ ext{T}(mathbf{y-t})=mathbf{Phi}^ ext{T}left(mathbf{Phi}(mathbf{Phi}^ ext{T}mathbf{Phi})^{-1}mathbf{Phi}^ ext{T}mathbf{t}-mathbf{t}
ight)=mathbf{0}.
]
3.3
[E_D(mathbf{w})=frac{1}{2}(mathbf{t-Phi w})^ ext{T}mathbf{R(t-Phi w)},
]
其中
[mathbf{R}= ext{diag}(r_1,...,r_N).
]
从而
[
abla_mathbf{w}(E_D)=-frac{1}{2}(mathbf{Phi^ ext{T}R(t-Phi w)+(t-Phi w)^ ext{T}RPhi})=0,
]
于是
[mathbf{Phi}^ ext{T}mathbf{RPhi w}=mathbf{Phi}^ ext{T}mathbf{Rt},
]
[mathbf{w}^{*}=(mathbf{Phi}^ ext{T}mathbf{R}mathbf{Phi})^{-1}mathbf{Phi}^ ext{T}mathbf{R}mathbf{t}.
]
考虑权重(r_n)的意义,首先如果样本噪声依赖于样本点,直觉上方差更大的样本点应该被赋予较低的权值,实际上,如果噪声分布为高斯,(r_n)等同与精度(方差的倒数)。此外,如果数据中存在重复样本点,(r_n)作为分配不同取值样本点的权值系数(有效观测数)。
3.4
[x_n= ilde{x}_n+epsilon_n,
]
[y_n= ilde{y}_n+sum_{i=1}^Dw_iepsilon_n^i,
]
[ ilde{E}=frac{1}{2}sum_{n=1}^N{ ilde{y}_n-y_n+y_n-t_n}^2
]
[=E+frac{1}{2}sum_{n=1}^N( ilde{y}_n-y_n)^2+sum_{i=1}^N( ilde{y}_n-y_n)(y_n-t_n),
]
由于
[y_n- ilde{y}_nsim mathcal{N}(0,sigma^2sum_{i=1}^Dw_i^2),
]
[(y_n- ilde{y}_n)^2 sim left(sigma^2sum_{i=1}^Dw_i^2
ight)chi^2(1),
]
于是
[mathbb{E}( ilde{E})=E+frac{1}{2}sigma^2sum_{i=1}^Dw_i^2,
]
正则化因子为(lambda=sigma^2/2.)