机器学习正则化参数的学习(l_0/l_1/l_2范数等)

zoukankan html css js c++ java

机器学习正则化参数的学习(l_0/l_1/l_2范数等)

　　特此申明:本博客引用链接: 机器学习中的范数规则化之（一）L0、L1与L2范数

　　我们都知道在优化问题上，我们除了需要最小化训练误差,例如通过square loss，log loss，exp loss等，我们还需要同事兼顾模型的泛化性能，因此我们需要通过添加正则项来进行提高模型的泛化性能，同时添加上的正则项也能够帮助我们来减少测试上的误差，从而提高推荐上的效果(precision)。

1 L0范数与L1范数：

　　L0范数是指向量中非0的元素个数，其主要作用是用来稀疏我们的目标参数(一般表示为W)的，不言而喻，当我们的参数矩阵W如果基本上都是为0的话，是不是就意味着我们不用考虑到输入矩阵(一般表示为X)上很多的特征，是不是就以为着在这一过程中进行了特征的自动选择，但是很多时候我们所看到的正则项往往是L1范数更多，而很少看到L0范数，没错，由于L0范数的求解释个NP-hard的问题，一般我们都会采用近似的方法来求算，正好L1范数是L0范数很好的凸近似优化，因此更多的paper上的方法采用的是L1范数。

　　所以现在让我们来讨论一下L1范数：L1范数是指向量中各个元素绝对值之和，另外有个称呼"稀疏规则算子"(Lasso Regularization),因为上面我们提及到了L1范数是L0范数的凸近似，因此自然有了一些关于L0范数的特征(使稀疏)。

2 L2范数

　　L2范数不逊色于L1范数，L2范数的回归被称为"岭回归"（Ridge Regression）,也有被叫做"权值衰减"(weight decay),主要是来解决过拟合的问题，过拟合指的是：模型在训练的时候能够很好地减小训练误差，但是在预测阶段却是发现模型的测试误差很差，即在推荐系统中表示的状况是:模型的推荐效果并不让人满意。具体图示参照链接上(CSDN博客大佬)的图示:欠拟合/合适的拟合/过拟合，L2范数是指向量中个元素的平方和再求平方根。

查看全文

相关阅读:
安装archlinux的另辟蹊径的命令及心得
 deepin15.11安装N卡驱动，实测！！！（可解决N卡电脑关机卡屏）
js实现简单下载
 微信公众号的开发该公众号提供的服务出现故障，请稍后再试
 线程池的创建
 多线程,生产者消费者模型(生产馒头,消费馒头)
第1章 Java IO系统下
 T01章[Java IO系统] 作业
 第1章 Java IO系统
 用集合实现一个控制台版的学生管理系统

原文地址：https://www.cnblogs.com/liuji/p/7889573.html