正则化:代数几何中的一个概念。
通俗定义
就是给平面不可约代数曲线以某种形式的全纯参数表示。
即对于PC^2中的不可约代数曲线C,寻找一个紧Riemann面C*和一个全纯映射σ:C*→PC^2,使得σ(C*)=C
严格定义
(1) σ(C*)=C (2) σ^(-1)(S)是有限点集 (3) σ:C*σ^(-1)(S)→CS是一对一的映射
则称(C*,σ)为C的正则化。不至于混淆的时候,也可以称C*为C的正则化。
正则化的做法,实际上是在不可约平面代数曲线的奇点处,把具有不同切线的曲线分支分开,从而消除这种奇异性。 [1]
-
正则化就是对最小化经验误差函数上加约束,这样的约束可以解释为先验知识(正则化参数等价于对参数引入先验分布)。约束有引导作用,在优化误差函数的时候倾向于选择满足约束的梯度减少的方向,使最终的解倾向于符合先验知识(如一般的l-norm先验,表示原问题更可能是比较简单的,这样的优化倾向于产生参数值量级小的解,一般对应于稀疏参数的平滑解)。
-
同时,正则化解决了逆问题的不适定性,产生的解是存在,唯一同时也依赖于数据的,噪声对不适定的影响就弱,解就不会过拟合,而且如果先验(正则化)合适,则解就倾向于是符合真解(更不会过拟合了),即使训练集中彼此间不相关的样本数很少。
反问题有两种形式。最普遍的形式是已知系统和输出求输入,另一种系统未知的情况通常也被视为反问题。许多反问题很难被解决,但是其他反问题却很容易得到答案。显然,易于解决的问题不会比很难解决的问题更能引起人们的兴趣,我们直接解决它们就可以了。那些很难被解决的问题则被称为不适定的。一个不适定问题通常是病态的,并且不论是简单地还是复杂地改变问题本身的形式都不会显著地改善病态问题。另一方面,病态问题不一定是不适定的,因为通过改变问题的形式往往可以改善病态问题。在严格的数学意义上,我们通常不可能对不适定问题进行求解并得到准确解答。然而,通过使用我们的先验知识,我们通常有希望能够得到一个接近准确解答的答案。 [2]
求解不适定问题的普遍方法是:用一组与原不适定问题相“邻近”的适定问题的解去逼近原问题的解,这种方法称为正则化方法。如何建立有效的正则化方法是反问题领域中不适定问题研究的重要内容。通常的正则化方法有基于变分原理的Tikhonov 正则化、各种迭代方法以及其它的一些改进方法,这些方法都是求解不适定问题的有效方法,在各类反问题的研究中被广泛采用,并得到深入研究。 [3]
梯度下降法
系数w的更新公式为:
可见,正则化后的迭代算法和没有正则化的迭代形式非常像,唯一的差别在与每次迭代都要多减去一个λ
。相当于如果当前
已经比较大了,那么,w要先多减去一点,然按梯度方向进行迭代。
另外,上式的正则化项与m成反比,也就是说,样本数越大,过拟合的问题越小,正则化的作用越弱。
牛顿法
引入l2-norm正则项后,一阶导数和Hessian矩阵如下所示:
∇J=
−λ
H=
(
)
+λ/m