L1正则化和L2正则化

zoukankan html css js c++ java

L1正则化和L2正则化

　　L1和L2正则都是比较常见和常用的正则化项，都可以达到防止过拟合的效果。L1正则化的解具有稀疏性，可用于特征选择。L2正则化的解都比较小，抗扰动能力强。

L2正则化

　　对模型参数的L2正则项为

　　　　

即权重向量中各个元素的平方和，通常取1/2。L2正则也经常被称作“权重衰减”（weight decay）和“岭回归”。

　　设带L2正则化的损失函数：

　　　　

假设损失函数在二维上求解，则可以画出图像

　　　　　　　　

彩色实线是的等值线，黑色实线是L2正则的等值线。二维空间（权重向量只有和）上，L2正则项的等值线是圆，与的等值线相交时或等于零的概率很小。所以使用L2正则项的解不具有稀疏性。在求解过程中，L2通常倾向让权值尽可能小，最后构造一个所有参数都比较小的模型。因为一般认为参数值小的模型比较简单，能适应不同的数据集，也在一定程度上避免了过拟合现象。参数足够小，数据偏移得多一点也不会对结果造成什么影响，可以说“抗扰动能力强”。

L1正则化

　　对模型参数的L1正则项为

　　　　　　

　　设带L1正则化的损失函数

　　　　　　

　　假设损失函数在二维上求解，则可以画出图像

　　　　　　　　

彩色实线是的等值线，黑色实线是L1正则的等值线。二维空间（权重向量只有和）上，L1正则项的等值线是方形，方形与的等值线相交时相交点为顶点的概率很大，所以或等于零的概率很大。所以使用L1正则项的解具有稀疏性。

　　推广到更大维度空间也是同样道理，L2正则项的等值线或等值面是比较平滑的，而L1正则项的等值线或等值面是比较尖锐的，所以这些突出的点与接触的机会更大，而在这些突出的点上，会有很多权值等于0。

　　由L1正则化导出的稀疏性质已被广泛用于特征选择，特征选择可以从可用的特征子集中选择有意义的特征。

参考资料：

http://blog.csdn.net/zouxy09/article/details/24971995

查看全文

相关阅读:
Winform读取app.config文件
 判断本机只能运行一个winform程序
 [导入][链接] Top 10: The best, worst... and craziest uses of RFID
[导入][Tips] 在Ubuntu下限制本机使用的网络带宽
 [导入][一点一滴学英语] 20061205
[导入][链接] Linux Distribution Chooser
[导入][链接] Open Source Java Clustering
[导入][链接] 关于Vista的关机选项
 [导入]Drip, Transfusion, Perfusion还是Infusion？关于一个词的翻译
 [导入][阅读] "Computer Programmer" vs. "Software Developer"

原文地址：https://www.cnblogs.com/Peyton-Li/p/7607858.html