深入理解L1、L2正则化

zoukankan html css js c++ java

深入理解L1、L2正则化
阅读目录
过节福利，我们来深入理解下L1与L2正则化。

回到顶部

1 正则化的概念
- 正则化(Regularization) 是机器学习中对原始损失函数引入额外信息，以便防止过拟合和提高模型泛化性能的一类方法的统称。也就是目标函数变成了原始损失函数+额外项，常用的额外项一般有两种，英文称作
- L1正则化和L2正则化可以看做是损失函数的惩罚项。所谓惩罚是指对损失函数中的某些参数做一些限制。对于线性回归模型，使用L1正则化的模型叫做Lasso回归，使用L2正则化的模型叫做Ridge回归（岭回归）。
- 线性回归L1正则化损失函数：
  $min w [\sum i = 1 N (w T x i - y i) 2 + λ ∥ w ∥ 1] . . . . . . . . (1)$
- 线性回归L2正则化损失函数：
  $min w [\sum i = 1 N (w T x i - y i) 2 + λ ∥ w ∥ 2 2] . . . . . . . . (2$
- 公式(1)(2)中，可以看到正则化项是对系数做了限制。L1正则化和L2正则化的说明如下：
  
  L1正则化是指权值向量
  
  L2正则化是指权值向量
  
  一般都会在正则化项之前添加一个系数
回到顶部

2 正则化的作用
- L1正则化可以使得参数稀疏化，即得到的参数是一个稀疏矩阵，可以用于特征选择。
  
  稀疏性，说白了就是模型的很多参数是0。通常机器学习中特征数量很多，例如文本处理时，如果将一个词组（term）作为一个特征，那么特征数量会达到上万个（bigram）。在预测或分类时，那么多特征显然难以选择，但是如果代入这些特征得到的模型是一个稀疏模型，很多参数是0，表示只有少数特征对这个模型有贡献，绝大部分特征是没有贡献的，即使去掉对模型也没有什么影响，此时我们就可以只关注系数是非零值的特征。这相当于对模型进行了一次特征选择，只留下一些比较重要的特征，提高模型的泛化能力，降低过拟合的可能。
- L2正则化可以防止模型过拟合（overfitting）；一定程度上，L1也可以防止过拟合。
回到顶部

3 L1正则化与稀疏性
- 事实上，”带正则项”和“带约束条件”是等价的。
- 为了约束w的可能取值空间从而防止过拟合，我们为该最优化问题加上一个约束，就是w的L1范数不能大于m：
  ${min \sum N i = 1 (w T x i - y i) 2 s . t . ∥ w ∥ 1 ⩽ m . . .$
- 问题转化成了带约束条件的凸优化问题，写出拉格朗日函数:
  $\sum i = 1 N (w T x i - y i) 2 + λ (∥ w ∥ 1 - m) . . . . . . . . (4)$
- 设
  ${0 = \nabla w [\sum N i = 1 (W T * x i - y i) 2 + λ * (∥ w ∥ 1 -$
- 仔细看上面第一个式子，与公式(1)其实是等价的，等价于(3)式。
- 设L1正则化损失函数：
- 注意到L1正则化是权值的绝对值之和，
- 考虑二维的情况，即只有两个权值
- 上图中等值线是
- 而正则化前面的系数
- 同理，又L2正则化损失函数：
- 二维平面下L2正则化的函数图形是个圆，与方形相比，被磨去了棱角。因此
回到顶部

4 L2正则化为什么能防止过拟合
- 拟合过程中通常都倾向于让权值尽可能小，最后构造一个所有参数都比较小的模型。因为一般认为参数值小的模型比较简单，能适应不同的数据集，也在一定程度上避免了过拟合现象。可以设想一下对于一个线性回归方程，若参数很大，那么只要数据偏移一点点，就会对结果造成很大的影响；但如果参数足够小，数据偏移得多一点也不会对结果造成什么影响，专业一点的说法是抗扰动能力强。
- 为什么L2正则化可以获得值很小的参数?
- (1) 以线性回归中的梯度下降法为例。假设要求的参数为 $J θ = 1 2 n \sum i = 1 n ( h θ ( x ( i ) ) - y ( i ) ) 2 . . . .$
- (2)在梯度下降中 $θ j = θ j - α 1 n \sum i = 1 n ( h θ ( x ( i ) ) - y ( i ) ) x ($
- (3) 其中 $θ j = θ j (1 - α λ n ) - α 1 n \sum i = 1 n ( h θ ( x ( i ) ) - y$
- 其中。从上式可以看到，与未添加L2正则化的迭代公式相比，每一次迭代，
回到顶部

5 正则化项的参数选择
查看全文

相关阅读:
启动Docker容器
 Docker 删除容器
 11.18数据库认证
 10.17权限认证
 9.16角色认证
 8.13数据库认证
 6.11Realm简介
 5.8认证流程分析
 4.7固定信息认证
 20张图表达程序员的心酸

原文地址：https://www.cnblogs.com/klausage/p/12105900.html

深入理解L1、L2正则化

1 正则化的概念

2 正则化的作用

3 L1正则化与稀疏性

4 L2正则化为什么能防止过拟合

5 正则化项的参数选择