线性回归——Lasso回归和岭回归

\begin{matrix} (4) & J = \frac{1}{n} \sum_{i = 1}^{n} (f (x_{i}) - y_{i})^{2} + λ ‖ w ‖_{2}^{2} \end{matrix}

Lasso回归和岭回归的同和异：

相同：
- 都可以用来解决标准线性回归的过拟合问题。
不同：
- lasso 可以用来做 feature selection，而 ridge 不行。或者说，lasso 更容易使得权重变为 0，而 ridge 更容易使得权重接近 0。
- 从贝叶斯角度看，lasso（L1 正则）等价于参数

也许会有个疑问，线性回归还会有过拟合问题？

加入 L1 或 L2 正则化，让权值尽可能小，最后构造一个所有参数都比较小的模型。因为一般认为参数值小的模型比较简单，能适应不同的数据集，也在一定程度上避免了过拟合现象。

可以设想一下对于一个线性回归方程，若参数很大，那么只要数据偏移一点点，就会对结果造成很大的影响；但如果参数足够小，数据偏移得多一点也不会对结果造成什幺影响，一种流行的说法是『抗扰动能力强』。具体参见博客浅议过拟合现象(overfitting)以及正则化技术原理。

为什么 lasso 更容易使部分权重变为 0 而 ridge 不行？

lasso 和 ridge regression 的目标都是

式（5）和（6）可以理解为，在 w 以 x \in R 2 Fig.1[1] Lasso (left) and ridge (right) regression. Fig. 1 中的坐标系表示 w 等高线从低到高第一次和 w

lasso 限制了

正是由于 lasso 容易使得部分权重取 0，所以可以用其做 feature selection，lasso 的名字就指出了它是一个 selection operator。权重为 0 的 feature 对回归问题没有贡献，直接去掉权重为 0 的 feature，模型的输出值不变。

对于 ridge regression 进行 feature selection，你说它完全不可以吧也不是，weight 趋近于 0 的 feature 不要了不也可以，但是对模型的效果还是有损伤的，这个前提还得是 feature 进行了归一化。

如果你的模型中有很多变量对模型都有些许影响，那么用Ridge；当数据量特别大的时候更倾向于用Ridge，因为Ridge计算起来更快。

\begin{matrix} (4) & J = \frac{1}{n} \sum_{i = 1}^{n} (f (x_{i}) - y_{i})^{2} + λ ‖ w ‖_{2}^{2} \end{matrix}