l2正则项为
L2 = λ/m ||w||2 =λ/m *(w1^2 + w2^2 + ... + wn^2)
我们在损失函数中加入这个正则项。
假设,对于某个训练集,我们可以训练出准确率非常高的分类器,但是其中有两个噪声样本的标签是错的,那么我们在判别这个噪声样本的时候,相关性较高的wi特征,可能就会比较大,
||w||^2也会比较大,所以损失函数不会最小。加入L2正则的花,就是在损失函数最小化的过程当中,去避免w可能会过分倾向某一个特征。
再比如:
判别一个人是男是女,我们在样本中很刚巧,男的全是短头发特征为,女的全是长头发,那么在头发这个特征wi上,可能就会训练出wi所占的权重非常大,完全依靠是否为长头发进行判别。
那么就过拟合了,所以在损失函数中加入w的L2项,就是在最小化损失函数的过程中,不太过分的倚重某一个特征,也就是允许一定的训练误差
==========吴恩达笔记============
损失函数加入l2正则项,其实就是控制||w||2的大小,
========另一个很有用的避免过拟合的方法============
dropout 随机失活