矩阵范数及其求导

zoukankan html css js c++ java

矩阵范数及其求导

在机器学习的特征选择中，利用选择矩阵的范数对选择矩阵进行约束，即是正则化技术，是一种稀疏学习。

矩阵的L0, $L_{1}$

$L_{1}$

$L_{1}$

$L_{1}$

$L_{1}$

矩阵的L2 $L_{1}$

L2范数，又叫“岭回归”（Ridge Regression）、“权值衰减”（weight decay）。它的作用是改善过拟合。过拟合是：模型训练时候的误差很小，但是测试误差很大，也就是说模型复杂到可以拟合到所有训练数据，但在预测新的数据的时候，结果很差。

L2范数是指向量中各元素的平方和然后开根。我们让L2范数的规则项||W||₂最小，可以使得W的每个元素都很小，都接近于0。而越小的参数说明模型越简单，越简单的模型则越不容易产生过拟合现象。

L1是绝对值最小，L2是平方最小：L1会趋向于产生少量的特征，而其他的特征都是0，而L2会选择更多的特征，这些特征都会接近于0。

矩阵的 $L_{2, 1}$

而为了进一步说明矩阵的稀疏性，来说明特征选择中矩阵 $L_{2, 1}$

在特征选择中，通过稀疏化的特征选择矩阵来选取特征，即相当于是一种线性变换。

对于特征选择矩阵 $W$
$这便是矩阵的 L 2, 1$
那么，在线性学习模型，损失函数如：

在优化中，矩阵的范数该如何求导？关于矩阵的F范数求导，可以参考矩阵的 Frobenius 范数及其求偏导法则（https://blog.csdn.net/txwh0820/article/details/46392293）。而矩阵 $L_{2, 1}$

对于一个矩阵 $W = [w_{1}, \dots, w_{d}]^{T}$

$W = [w_{1}, \dots, w_{d}]^{T}$

那么 $L_{2, 1}$ ：

矩阵一般化 $L_{2, P}$

就矩阵一般化 $L_{2, P}$

$L_{2, P}$

矩阵的核 $L_{1}$

$L_{1}$

$L_{1}$ $L_{1}$

$L_{1}$

$L_{1}$

$L_{1}$

$L_{1}$

$L_{1}$

$L_{1}$

与经典PCA问题一样，Robust PCA本质上也是寻找数据在低维空间上的最佳投影问题。对于低秩数据观测矩阵X，假如X受到随机（稀疏）噪声的影响，则X的低秩性就会破坏，使X变成满秩的。所以就需要将X分解成包含其真实结构的低秩矩阵和稀疏噪声矩阵之和。找到了低秩矩阵，实际上就找到了数据的本质低维空间。PCA假设数据的噪声是高斯的，对于大的噪声或者严重的离群点，PCA会被它影响，导致无法正常工作。而Robust PCA则不存在这个假设，它只是假设噪声是稀疏的，而不管噪声的强弱如何。

由于rank和L0范数在优化上存在非凸和非光滑特性，所以一般将它转换成求解以下一个松弛的凸优化问题：

具体应用：考虑同一副人脸的多幅图像，如果将每一副人脸图像看成是一个行向量，并将这些向量组成一个矩阵的话，那么可以肯定，理论上，这个矩阵应当是低秩的。但是，由于在实际操作中，每幅图像会受到一定程度的影响，例如遮挡，噪声，光照变化，平移等。这些干扰因素的作用可以看做是一个噪声矩阵的作用。所以可以把同一个人脸的多个不同情况下的图片各自拉长一列，然后摆成一个矩阵，对这个矩阵进行低秩和稀疏的分解，就可以得到干净的人脸图像（低秩矩阵）和噪声的矩阵了（稀疏矩阵），例如光照，遮挡等等。

矩阵的迹 $L_{1}$

$L_{1}$

$L_{1}$

令p = 1 ，得到迹范数：

本文为自己学习过程中对其他资源的学习整理而得的学习笔记，内容源自：https://blog.csdn.net/lqzdreamer/article/details/79676305；https://blog.csdn.net/zchang81/article/details/70208061；https://blog.csdn.net/lj695242104/article/details/38801025

查看全文

相关阅读:
jdk与jre安装之后的名字
 手机用笔记本上网
 Django简易安装
 python 结巴分词
 Elasticsearch shield权限管理详解
 nginx配置初步
 linux 使用 rz 和 sz 命令
 eclipse 鲜为人知的调试技巧，你用过多少
 HDOJ 题目3555 Bomb（数位DP）
Ubuntu1204 vim中文乱码解决方法

原文地址：https://www.cnblogs.com/go-go/p/9674984.html

矩阵范数及其求导

矩阵的L0,L1范数

矩阵的L2范数

矩阵的L2,1范数

矩阵一般化L2,P范数的求导

矩阵的核范数Nuclear Norm

矩阵的迹范数Trace Norm

矩阵的L0, $L_{1}$

矩阵的L2 $L_{1}$

矩阵的 $L_{2, 1}$

矩阵一般化 $L_{2, P}$

矩阵的核 $L_{1}$

矩阵的迹 $L_{1}$