正则化：L0 vs L1 vs L2

zoukankan html css js c++ java

正则化：L0 vs L1 vs L2
原文地址：https://www.jianshu.com/p/e5c9a9fc84d4
为什么正则化可以缓解过拟合？
过拟合时，拟合函数的系数往往非常大。过大的权重会导致模型过多地学习到某些数据的个性特征，从而导致过拟合。更少的参数（实际是更多的参数取值为0或取值趋于0），模型倾向于变得简单。
规则化函数(Omega)可以有多种选择，不同的选择产生的效果也不同。不过其一般是模型复杂度的单调递增函数，即模型越复杂，规则化的值越大。通常，我们将其定为模型中参数向量的范数。

L0范数
向量中非0元素的个数。希望(W)中大部分元素是0，实现稀疏。

L1范数
向量中各元素的绝对值之和。也叫Lasso Regularization。也可以实现稀疏化，通过将无用特征对应的参数(W)置为0实现。

L0 vs L1
L0和L1都可以实现稀疏化。稀疏化的好处，一是进行特征选择，二是可解释性强。不过一般使用L1而不使用L0的原因在于，一是L0很难优化求解，是NP难问题；二是因为L1是L0的最优凸近似，比L0更容易优化求解。

L2范数
向量中各元素平方和然后开方。用在回归中也称为岭回归(Ridge Regression)。
L2缓解过拟合的原理是，其使得(W)中每个元素都很小，趋近于0，但不会等于0。这样子得到的模型的抗干扰能力强。因为当参数值很小时，即使样本数据(X)发生很大的变化，模型预测值(y)的变化也会很有限。

L1 vs L2
参数更新时，L1通过将(W)减去一个值使得(W)慢慢变为0，其会趋于产生较少的特征，在特征选择的时候很有用；L2通过将(W)乘上一个小于1的值使得(W)趋近于0但不会等于0，其会趋于选择更多的特征，但特征对应的权重值接近于0。
查看全文

相关阅读:
模态框+Tab切换显示Json/Xml格式，提交Json/Xml字符串到后台
 jeDate时间插件
 ECharts柱状图+BootstrapTable联动
 ES6新增的一些常用特性
 Array数组遍历的几种方法以及Object对象的遍历
 Arguments 对象
 数组去重几种方法
 原型链图解
 切换镜像小工具
 AppID

原文地址：https://www.cnblogs.com/cherrychenlee/p/10806117.html