正则化

zoukankan html css js c++ java

正则化
转自：https://2018august.github.io/2.%20lr%E6%AD%A3%E5%88%99%E5%8C%96%E7%9A%84%E7%9B%B4%E8%A7%82%E7%90%86%E8%A7%A3/

三种优化问题

通常我们求解的最优化问题可以分为以下三类：
- 无约束的优化问题：
  
  $m i n f (X)$
  
  这是最简单的情况，解决方法通常是 $f (X)$
  
  其几何含义是：
- 有等式约束的优化问题
  
  $m i n f (X)$
  
  $s . t . g (X) = 0$
  
  注： $s . t .$
  
  常常使用的方法就是拉格朗日乘子法（Lagrange Multiplier ) ，即写成 $L (λ, X) = f (X) + λ g (X)$
- 其几何含义是：
  
  等式和不等式约束的优化问题
  
  $m i n f (X)$
  
  $s . t . g (X) = 0$
  
  $h (X) \leq 0$
  
  注： $s . t .$
  
  常常使用的方法就是 KKT 条件。 $L (μ, λ, X) = f (X) + λ g (X) + μ h (X)$
  
  $L (μ, λ, X)$
  
  $g (X) = 0$
  
  $μ h (X) = 0$
  
  求取这些等式之后就能得到候选最优值。其中第三个式子非常有趣，因为 $h (X) \leq 0$
  
  那么 KTT 的几何含义是什么呢？
- L1 正则化和 L2 正则化的几何含义
  
  L1 正则化通常称为 Lasso 正则化：
  
  $J (θ) = - \sum_{i = 1}^{m} (y^{(i)} l o g (h_{θ} (x^{(i)})) + (1 - y^{(i)}) l o g (1 - h_{θ} (x^{(i)}))) + \frac{λ}{m} \sum_{j = 1}^{n} | θ_{j} |$
  
  L2 正则化通常称为 Ridge 正则化：
  
  $J (θ) = - \sum_{i = 1}^{m} (y^{(i)} l o g (h_{θ} (x^{(i)})) + (1 - y^{(i)}) l o g (1 - h_{θ} (x^{(i)}))) + \frac{λ}{2 m} \sum_{j = 1}^{n} θ_{j}^{2}$
  
  我们可以写成统一的形式：
  
  $J (θ, μ) = f (θ) + μ h (θ) \Leftrightarrow J (θ, μ) = f (θ) + μ (h (θ) - η)$
  
  其中 $η$
  
  可以还原为：
  
  $m i n f (θ)$
  
  $s . t . h (θ) - η \leq 0$
  
  那么他们的几何含义是：
  
  对于 L1 正则化 ( Lasso 正则化)： $h (θ) = \sum_{j = 1}^{n} | θ_{j} |$
  
  对于 L2 正则化 ( Ridge 正则化)： $h (θ) = \sum_{j = 1}^{n} θ_{j}^{2}$
  
  Q：以下哪个图形是 L1 正则化，哪个图形是 L2 正则化？
  
  左边的图为 L1 正则化，右图为 L2 正则化。
  
  因为对于 L1 正则化而言 $h (θ) = | w_{1} | + | w_{2} | \leq η$
  
  对于 L2 正则化而言 $h (θ) = w_{1}^{2} + w_{2}^{2} \leq η$
  
  Q1：为什么L1 正则化可以获得稀疏特征？
  
  不同的维度系数一般都是不一样的，因此常见的损失函数图像是一个椭圆形，调整参数 $λ$
  
  Q2： $λ$
  
  $λ$
  
  Q3：为什么 L2 正则化比 L1 正则化应用更加广泛？
  
  因为 L2 正则化的约束边界光滑且可导，便于采用梯度下降法，而L1正则化不可导，只能采用坐标轴下降法或最小角回归法，计算量大。而且，L1 正则化的效果并不会比 L2 正则化好（自己的见解）。
  
  L1 正则化和 L2 正则化正则化的推广
  
  逻辑回归正则化可以写成统一的形式 $L_{q}$
  $J (θ) = - \sum i = 1 m (y (i) l o g (h θ (x (i))) + (1 -$
  其中 $q \geq 0$
  
  从上图可以看出，
  
  $q = 1$
  
  而当 $q < 1$
  
  当 $q \leq 1$
  
  对于 $q \in (1, 2)$
  
  实践表明，对于 $q > 2$
  
  Zou 和 Hastie (2005) 引入了 Elastic Net 正则化，可以通过参数 $α$
  
  即：
  $λ 2 m \sum j = 1 n ( α θ 2 + ( 1 - α ) | θ j | )$
  如下图为 $q = 1.2$
查看全文

相关阅读:
linux hosts.equiv设置解析
 linux 普通synflood攻击防范网络参数设置
 电脑如何刻录光盘的方式
 Linux系统服务详解
 linux下history命令显示历史指令记录的使用方法
 tkinter模块常用参数
 python使用tkinter做界面之颜色
 python进行linux系统监控
 Windows 系统cmd设置添加静态路由方式
 PyCharm在win10的64位系统安装实例

原文地址：https://www.cnblogs.com/liyun1/p/9428967.html

三种优化问题

L1 正则化和 L2 正则化的几何含义

L1 正则化和 L2 正则化正则化的推广