Python机器学习笔记：奇异值分解（SVD）算法

zoukankan html css js c++ java

Python机器学习笔记：奇异值分解（SVD）算法
完整代码及其数据，请移步小编的GitHub

　　传送门：请点击我

　　如果点击有误：https://github.com/LeBron-Jian/MachineLearningNote

　　奇异值分解（Singular Value Decomposition，后面简称 SVD）是在线性代数中一种重要的矩阵分解，它不光可用在降维算法中（例如PCA算法）的特征分解，还可以用于推荐系统，以及自然语言处理等领域，在机器学习，信号处理，统计学等领域中有重要应用。

　　比如之前的学习的PCA，掌握了SVD原理后再去看PCA是非常简单的，因为我最近在整理学习线性代数基础，并温习了一遍特征值与特征向量，所以这里同时也温习一下SVD算法，如果想看我之前的PCA降维的文章，可以参考下面：

Python机器学习笔记：主成分分析（PCA）算法

Python机器学习笔记：使用scikit-learn工具进行PCA降维

　　好了，话不多说，这里再对SVD算法做一个总结（这里总结主线是参考刘建平大佬和老师的网课视频学习，首先在这里提出感谢）

1，基变换与特征值分解

1.1 向量的表示与基变换

　　首先看看向量，向量可以表示为（3, 2），实际上表示线性组合：

　　基表示：（1, 0）和（0, 1）叫做二维空间中的一组基。

　　一组基就确定了对向量进行表示的空间，而向量的表示就是基于这组基进行坐标表示。选定的基不同，空间自然不同，那么向量表示的坐标自然也不同。一般情况下，我们会默认传统的正交坐标系为标准的基选择，但其实对传统正交坐标系进行选择，放缩或剪切变换后得到的依然是一个坐标系。

　　基变换：数据与一个基做内积运算，结果作为第一个新的坐标分量，然后与第二个基做内积运算，结果作为第二个新坐标的分量。

　　将一组基A下的坐标转换成另一组集B下的坐标——核心思想就是将A中的基用B对应的坐标系进行表示，将该向量在A下的坐标表示变换成关于基A的线性组合，进行代换即可。

　　数据（3， 2）映射到基中坐标为：

1.2 特征值分解

　　首先回归下特征值和特征向量的定义，其定义如下：

　　其中A是一个 n * n 的矩阵，x 是一个 n 维向量，则我们说 λ 是矩阵A的一个特征值，而 x 是矩阵A的特征值 λ 所对应的特征向量。

　　求出特征值和特征向量有什么好处呢？就是我们可以将矩阵 A 特征分解。如果我们求出了矩阵 A 的 n 个特征值 λ₁ <= λ₂ <= λ_n ，以及这 n 个特征值所对应的特征向量 {W₁, W₂, ...W_n}，如果这 n 个特征向量线性无关，那么矩阵 A 就可以用下式的特征分解表示：

　　其中 W 是这 n 个特征向量所长成的 n * n 维矩阵，而 Σ 为这个 n 个特征值为主对角线的 n * n 维矩阵。

　　一般我们会把 W 的这 n 个特征向量标准化，即满足 ||w_i||₂ = 1，或者说 w_i^Tw_i=1，此时 W 的 n 个特向量为标准正交基，满足W^TW = I，即 W^T = W^-1。

　　这样我们特征分解表达式可以写成：

　　注意到要进行特征分解，矩阵A必须为方阵。那么如果A不是方阵，即行和列不相同时，我们还可以对矩阵进行分解吗？答案是可以，就是下面我们要学习的SVD算法。

2，特征分解和奇异值分解（SVD）的区别

　　特征值分解和奇异值分解的目的都是一样，就是提取出一个矩阵最重要的特征。

　　所有的矩阵都可以进行奇异值分解，但只有方阵才可以进行特征值分解。当所给的矩阵是对称的方阵，A^T=A，二者的结果是相同的。也就是说对称矩阵的特征值分解是所有奇异值分解的一个特例。但是二者还是存在一些小的差异，奇异值分解需要对奇异值进行从大到小的排序，而且全部是大于等于零。

　　对于如上的奇异值分解公式，我们可以看到奇异值分解同时包含了旋转，缩放和投影三种作用，并且U和V都起到了对A进行旋转的作用，而 Σ 起到了对 A 缩放的作用，特征值分解只有缩放的效果。

　　在应用上，奇异值分解主要用于数据矩阵，而特征值分解主要用于方型的相关矩阵。

3，奇异值分解的定义

　　特征值分解释一个提取矩阵特征很不错的方法，但是它只适用于方阵，而在现实的世界中，我们看到的大部分矩阵都不是方阵，比如说有M个学生，每个学生有N个成绩，这样就形成了一个M*N的矩阵就可能不是方阵了，我们怎么样才能像描述特征值一样描述这样一般矩阵的重要特征呢？奇异值分解就是干这个事情，奇异值分解是一个能适用于任何的矩阵的一种分解的方法。

3.1 SVD的理论描述

　　假设 A 是一个 m*n 阶矩阵，其中的元素全部属于域 K，也就是实数域或复数域。如此则存在一个分解使得：

　　其中 U 是 m*m 阶酋矩阵，Σ 是半正定 m*n 阶对角矩阵，而 V* 是V的共轭转置，是 n*n 阶酋矩阵，这样的分解就称作 M 的奇异值分解。Σ（是对角矩阵，但不一定是方阵）对角线上的元素 Σi 即为 M 的奇异值。

　　一般的 Σ 有如下形式：

　　上述分解中会构建出一个矩阵 Σ ，该矩阵只有对角元素，其他元素均为0，另一个惯例是，Σ 的对角元素是从大到小排列的。这些对角元素称为奇异值。在科学和工程中，一直存在这个一个普遍事实：在某个奇异值的数目（r个）之后，其他奇异值都置为零，这就意味着数据集中仅有 r 个重要特征，其余的都是噪声或冗余数据。

　　从下图可以形象的看出上面SVD的定义：

　　那么我们如何求出SVD分解后的 U，Σ，V 这三个矩阵呢？

　　如果我们将 A 的转置和 A 做矩阵乘法，那么会得到 n*n 的一个方阵 A^TA。既然 A^TA 是方阵，那么我们就可以进行特征分解，得到的特征值和特征向量满足下式：

　　这样我们就可以得到矩阵 A^TA 的 n 个特征值和对应的 n 个特征向量 v 了。将 A^TA 的所有特征向量张成一个 n*n 的矩阵 V，就是我们SVD公式里面的V矩阵了。一般我们将 V 中的每个特征向量叫做 A 的右奇异向量。

　　如果我们将 A 和 A 的转置做矩阵乘法，那么会得到 m*m的一个方阵 AA^T。既然 AA^T 是方阵，那么我们就可以进行特征分解，得到的特征值和特征向量满足下面公式：

　　这样我们就可以得到矩阵 AA^T 的 m 个特征值和对应的 m 个特征向量 u了。将 AA^T 的所有特征张成一个 m*m 的矩阵 U，就是我们 SVD 公式里面的 U矩阵了。一般我们将 U 中的每个特征向量叫做 A 的左奇异向量。

　　U 和 V 我们都求出来了，现在就剩下奇异值矩阵 Σ 没有求出了。

　　由于 Σ 除了对角线上是奇异值其他位置都是0，所以我们只需要求出每个奇异值 σ 就可以了。

　　我们注意到：

　　这样我们可以求出我们的每一个奇异值，进而求出奇异值矩阵 Σ。

　　上面还有一个问题就是我们说 A^TA 的特征向量组成的就是我们SVD中的 V矩阵，而 AA^T的特征向量组成的就是我们 SVD中的 U矩阵，这有什么根据吗？这个其实很容易证明，我们以V矩阵的证明为例：

　　上式证明使用了：U^TU = I, Σ^TΣ = Σ²。可以看出 A^TA 的特征向量组成的的确就是我们SVD中的 V 矩阵。类似的方法可以得到 AA^T 的特征向量组成的就是我们 SVD中的 U 矩阵。

　　进一步我们还可以看出我们的特征值矩阵等于奇异值矩阵的平方，也就是说特征值和奇异值满足如下关系：

　　这样也就是说，我们可以不用上面推导的式子来计算奇异值，上式如下：

　　我们可以直接通过求 A^TA 的特征值取平方根来求奇异值。

注意1：通过A^TA的特征值取平方根求解奇异值的注意点

　　我们知道，正常求 U，V，Σ 不便求，所以，我们利用如下性质（公式上面有提到，这里再复述一下）：

　　需要注意的是：这里的 ΣΣ^T 和 Σ^TΣ 在矩阵的角度上来讲，他们是不相等的，因为他们的维度不同 ΣΣ^T €R^m*m，而 Σ^TΣ€R^n*n，但是他们在主对角线的奇异值是相等的，即有：

　　所以对于 ΣΣ^T 和 Σ^TΣ 中的特征值开方，可以得到所有的奇异值。

注意2：酋矩阵的定义

　　若n行n列的复数矩阵 U满足：

　　其中 In 为 n 阶单位矩阵，U^T 为 U的共轭转置，则U为酋矩阵（即矩阵U为酋矩阵，当且仅当其共轭转置U^T 为其逆矩阵：U^-1 = U^T）

3.2 SVD的几何层面理解

　　下面从几何层面上去理解二维的SVD：对于任意的 2*2 矩阵，通过 SVD 可以将一个互相垂直的网络（orthogonal grid）变换到另外一个互相垂直的网络。

　　我们可以通过向量的方式来描述这个事实：首先，选择两个互相正交的单位向量 v1 和 v2，向量 Mv1 和 Mv2 正交。

　　u1 和 u2 分别表示 Mv1 和 Mv2 的单位向量，σ1*u1=Mv1 和 σ2*u2=Mv2，σ1 和 σ2分别表示这不同方向向量上的模，也称为作为矩阵 M 的奇异值。

　　这样就有了如下关系式：

　　我们现在可以简单描述下经过 M 线性变换后的向量 x 的表达形式。由于向量 v1 和 v2 是正交的单位向量，我们可以得到如下式子：

　　这就意味着：

　　向量内积可以用向量的转置来标色，如下所示：

　　最终的式子为：

　　上述的式子经常表示为：

　　u 矩阵的列向量分别是 u1 和 u2，Σ 是一个对角矩阵，对角元素分别是对应的 σ1 和 σ2，v 矩阵的列向量分别为 v1 和 v2。

　　这就表明了任意的矩阵 M 是可以分解成三个矩阵，v 表示原始域的标准正交基， u 表示经过 M 变换后的 co-domain 的标准正交基，Σ 表示了 v 中的向量与 u 中相对应向量之间的关系。

3.3 SVD的推导

　　这里直接拿了百度百科的内容。

3.3 SVD的一些性质

　　上面我们对SVD的定义和计算做了详细的描述，下面对其一些性质进行分析。

　　对于奇异值，它和我们特征分解中的特征值类似，在奇异值矩阵中也是按照从大到小排列，而且奇异值的减少特别的块，在很多情况下，前10%甚至1%的奇异值的和就占了全部的奇异值之和的99%以上的比例。也就是说，我们可以用最大的k个奇异值和对应的左右奇异值向量来近似描述矩阵。也就是说：

　　其中 k 要比 n 小很多，也就是一个大的矩阵 A 可以用三个小的矩阵来标色，如下图所示，现在我们的矩阵 A 只需要灰色的部分的三个小矩阵就可以近似描述了。

　　由于奇异值的特点就是衰减特别快，也就是说仅仅有前几个奇异值特别大，后面的值都很小，这一点可以用于数据压缩和去噪，PCA降维，也可以用于推荐算法，将用户和喜好对应的矩阵分解，进而得到隐含的用户需求来做推荐。

4，SVD算法的应用

4.1 矩阵近似值

　　奇异值分解在统计中的主要应用为主成分分析（PCA），一种数据分析方法，用来找出大量数据中所隐含的“模式”，PCA算法的作用是把数据集映射到低维空间中去。数据集的特征值（在SVD中用奇异值表征）按照重要性排列，降维的过程就是舍弃不重要的特征向量的过程，而剩下的特征向量组成的空间即为降维后的空间。

　　在PCA降维中，需要找到样本协方差矩阵 X^TX 的最大的 d 个特征向量，然后用这最大的 d 个特征向量张成的矩阵来做低维投影降维。可以看出，在这个过程中需要先求出协方差矩阵 X^TX，当样本数多样本特征数也多的时候，这个计算量是很大的。

　　注意到SVD也可以得到协方差矩阵 X^TX 最大的 d 个特征向量张成的矩阵，但是SVD有个好处，有一些SVD的实现算法可以不先求出协方差矩阵 X^TX ，也能求出我们的右奇异矩阵 V。也就是说，我们的 PCA算法可以不用做特征分解，而是做 SVD来完成。这个方法在样本量很大的时候很有效。实际上，scikit-learn 算法的背后真正的实现就是SVD，而不是我们认为的暴力特征分解。

　　另一方面，注意到 PCA仅仅使用了我们 SVD的右奇异矩阵，没有使用左奇异矩阵，那么左奇异矩阵有什么用呢？

　　假设我们那的样本是 m*n 的矩阵 X，如果我们通过 SVD找到了矩阵 XX^T 最大的 d 个特征向量张成的 m*d 维矩阵 U，则我们如果进行如下处理：

　　可以得到一个 d*n 的矩阵 X'，这个矩阵和我们原来的 m*n 维样本矩阵 X 相比，行数从 m 减到了 d，可见对行数进行了压缩，也就是说，左奇异矩阵可以用于行数的压缩。相对的，右奇异矩阵可以用于列数集特征维度的压缩，也就是我们的PCA降维。

　　举个例子，我们搜集的数据中总是存在噪声：无论采用的设备多精密，方法有多好，总是会存在一些误差的。大的奇异值对应了矩阵中的主要信息的话，运用SVD进行数据分析，提取其中的主要部分的话，还是相当合理的。

　　作为例子，假设我们搜集的数据如下所示：

　　我们将数据用矩阵的形式表示：

　　经过奇异值分解后，得到：

　　由于第一个奇异值远比第二个要大，数据中有包含一些噪声，第二个奇异值在原始矩阵分解相对应的部分可以忽略。经过SVD分解后，保留了主要样本点如图所示：

　　就保留主要数据来看，该过程与PCA降维有一些联系，PCA 也是要了SVD去检测数据间依赖和冗余信息。

4.2 平行奇异值

　　把频率选择性衰落信道进行分解。

4.3 求伪逆

　　奇异值分解可以被用来计算矩阵的伪逆，若矩阵 M 的奇异值分解为 M = UΣV*，那么 M 的伪逆为： M+ = VΣ⁺U*。

　　其中 Σ⁺是 Σ 的伪逆，并将其主对角线上每个非零元素都求导数之后再转置得到的。求伪逆通常用来求解线性最小平方，最小二乘法问题。

4.4 在数据表达上的应用

　　下面我们来看一个奇异值分解在数据表达上的应用，假设我们有如下一张 15*25的图像数据：

　　如图所示，该图像主要由下面三部分构成：

　　我们将图像表示为 15*25 的矩阵，矩阵的元素对应着图像不同像素，如果像素是白色的话，就取1，黑色的话就取0，我们得到了一个具有 375个元素的矩阵，如下图所示：

　　如果我们对矩阵 M 进行奇异值分解以后，得到的奇异值分别是：

　　矩阵 M 就可以表示成：

　　vi 具有 15个元素， ui 具有 25 个元素，σi 对应不同的奇异值，如上图所示，我们就可以用 123个元素来表示具有 375个元素的图像数据了。

4.5 降噪（noise reduction）

　　前面例子的奇异值都不为零，或者都还算比较大，下面我们来探索一下拥有零或者非常小的奇异值的情况。通常来讲，大的奇异值对应的部分会包含更多的信息。比如，我们有一张扫描，带有噪声的图像，如下图所示：

　　我们采用跟实例二相同的处理方式处理该扫描图像，得到图像矩阵的奇异值：

　　很明显，前面三个奇异值远远比后面的奇异值要大，这样矩阵 M 的分解方式就可以如下：

　　经过奇异值分解后，我们得到了一张降噪后的图像。

5， SVD计算实例

5.1 实例1

　　对M进行奇异值分解，M矩阵如下：

　　我们看一下 M 矩阵变换后的效果，如下图所示：

　　在这个例子中，第二个奇异值为0，因此经过变换后只有一个方向上有表达。

　　换句话说，如果某些奇异值非常小的话，其相对应的几项就可以不同出现在矩阵 M 的分解式中。因此，我们可以看到矩阵 M 的秩大小等于非零奇异值的个数。

5.2 实例2

　　这里我们用一个例子来说明矩阵是如何进行奇异值分解的。

　　我们需要进行奇异值分解的矩阵A如下：

　　我们首先求出 A^TA和 AA^T：

　　进行求出 A^TA 的特征值和特征向量（此处的特征向量取的是单位向量）：

　　则 V 为：

　　接着求 AA^T 的特征值和特征向量（此处的特征向量取的是单位向量）：

　　则 U 为：

　　利用 Av_i=σ_iu_i，i=1,2 求奇异值：

　　当然，我们也可以用 σ_i= √λ_i 直接求出奇异值为 √3 和 1。

　　即通过：

　　我们代数矩阵即可求出奇异值。

　　最终得到 A 的奇异值分解为：

6，利用Python实现SVD降维

6.1 Python中SVD的函数

　　Python中的 Numpy 包内有一个 linalg 的线性工具，可以使用它来直接计算 SVD 的结果，不需要专门研究对应的线性代数的知识，我们拿上面 5.2 的实例来看，矩阵如下：

　　我们使用该函数来计算它的SVD。

　　得到如下结果：

　　可以看到 Σ 是以行向量的形式出现，因为该矩阵除了对角元素以外其他元素均为0，这样的格式更节省空间。

　　我们和之前计算的结果进行比对：

　　我们发现 Σ 和我们计算出来的是一致的。

　　当然人可以计算2*2, 3*3的，但是当矩阵的维度越来越大呢？

　　接下来再看一个大的数据集，我们建立如下的数据集：

　　我们求出奇异值为：

　　我们发现它后面两个值接近于0，所以我们就可以将最后两个值去掉了，接下来我们就可以去掉一部分元素的矩阵近似表示原始数据：

　　这样我们重构的近似矩阵如下：
[[ 1.00000000e+00 1.00000000e+00 1.00000000e+00 7.75989921e-16 7.71587483e-16] [ 2.00000000e+00 2.00000000e+00 2.00000000e+00 3.00514919e-16 2.77832253e-16] [ 1.00000000e+00 1.00000000e+00 1.00000000e+00 2.18975112e-16 2.07633779e-16] [ 5.00000000e+00 5.00000000e+00 5.00000000e+00 3.00675663e-17 -1.28697294e-17] [ 1.00000000e+00 1.00000000e+00 -5.48397422e-16 2.00000000e+00 2.00000000e+00] [ 3.21319929e-16 4.43562065e-16 -3.48967188e-16 3.00000000e+00 3.00000000e+00] [ 9.71445147e-17 1.45716772e-16 -1.52655666e-16 1.00000000e+00 1.00000000e+00]]
　　四舍五入之后与原始数据基本保持一致。

　　我们如果知道仅仅需要保留到前3个奇异值呢？其中一个典型的做法就是保留矩阵中的 90%的能量信息，我们将所有的奇异值取平方和，直到加到总和的90%为止。

6.2 在图像压缩中的应用

　　一个图像矩阵，我们总可以将它分解为以下形式，通过选取不同个数的 Σ 中的奇异值，就可以实现图像的压缩：

　　如果只想实现图像压缩，我们可以使用python numpy 库中的 linalg.svd 对图像矩阵进行分解，进而提取前K个奇异值便能实现SVD图像压缩的效果，下面我们看一下代码：
#_*_ coding:utf-8_*_ import numpy as np import cv2 img = cv2.imread('harden.jpg') print('origin image shape is ', img.shape) # 表示 RGB 中各有一个矩阵，都为300*532 # origin image shape is (300, 532, 3) def svd_compression(img, k): res_image = np.zeros_like(img) for i in range(img.shape[2]): # 进行奇异值分解, 从svd函数中得到的奇异值sigma 是从大到小排列的 U, Sigma, VT = np.linalg.svd(img[:,:,i]) res_image[:, :, i] = U[:,:k].dot(np.diag(Sigma[:k])).dot(VT[:k,:]) return res_image # 保留前 k 个奇异值 res1 = svd_compression(img, k=300) res2 = svd_compression(img, k=200) res3 = svd_compression(img, k=100) res4 = svd_compression(img, k=50) row11 = np.hstack((res1, res2)) row22 = np.hstack((res3, res4)) res = np.vstack((row11, row22)) cv2.imshow('img', res) cv2.waitKey(0) cv2.destroyAllWindows()
　　我们这里分别提取了前300， 200， 100， 50 的奇异值，图如下：

　　可以看到，当我们取到前面300个奇异值来重构图片时，基本与原图看不出来差别，甚至两百的都是都还OK。

　　所以从上面的压缩结果来看，奇异值可以被看作是一个矩阵的代表值，或者说奇异值能够代表这个矩阵的信息，当奇异值越大时，它代表的信息越多。因此我们取前面若干个最大的奇异值，就可以基本还原出数据本身。

参考文献：https://blog.csdn.net/xiahouzuoxin/article/details/41118351

http://www.ams.org/publicoutreach/feature-column/fcarc-svd

https://www.cnblogs.com/pinard/p/6251584.html

https://jingyan.baidu.com/article/9f63fb916ba5e1c8400f0eca.html

http://blog.sciencenet.cn/blog-696950-699432.html

百度百科，SVD的步骤推导等等
不经一番彻骨寒怎得梅花扑鼻香
查看全文

相关阅读:
vue中使用v-bind="$attrs"和v-on="$listeners"进行多层组件监听
 钉钉小程序开发遇到的坑
 promise、async、await、settimeout异步原理与执行顺序
 js获取url参数值的几种方式
 ES6解构赋值
 2019年前端面试题
 浏览器兼容问题踩坑收集
 react+antd分页实现分页及页面刷新时回到刷新前的page
无侵入埋点
 CSS学习笔记（三）空白符和换行

原文地址：https://www.cnblogs.com/wj-1314/p/10304676.html

Python机器学习笔记：奇异值分解（SVD）算法

完整代码及其数据，请移步小编的GitHub

Python机器学习笔记：主成分分析（PCA）算法

Python机器学习笔记：使用scikit-learn工具进行PCA降维

1，基变换与特征值分解

1.1 向量的表示与基变换

1.2 特征值分解

2，特征分解和奇异值分解（SVD）的区别

3， 奇异值分解的定义

3.1 SVD的理论描述

3.2 SVD的几何层面理解

3.3 SVD的推导

3.3 SVD的一些性质

4，SVD算法的应用

4.1 矩阵近似值

4.2 平行奇异值

4.3 求伪逆

4.4 在数据表达上的应用

4.5 降噪（noise reduction）

5， SVD计算实例

5.1 实例1

5.2 实例2

6，利用Python实现SVD降维

6.1 Python中SVD的函数

6.2 在图像压缩中的应用

3，奇异值分解的定义