zoukankan      html  css  js  c++  java
  • SVD分解

    首先,有y = AX,将A看作是对X的线性变换

    但是,如果有AX = λX,也就是,A对X的线性变换,就是令X的长度为原来的λ倍数。

    *说起线性变换,A肯定要是方阵,而且各列线性无关。(回想一下,A各列相当于各个坐标轴,X各个分量相当于各个坐标轴的“基本向量”长度)

    (同一长度的各个方向的向量,变换前和变换后,有些前后只是拉伸了,方向不变;有些拉伸了,方向同时也改变了)

    这样的X1X2……Xn称为特征向量, λ1, λ2…… λn为对应的特征值。

    如果有S矩阵,全是特征特征向量,也就是 S = [X1X2……Xn

    AS=S∧,A = S∧ S-1 ,又叫矩阵对角化。(这是继LU分解,QR分解后的第三种分解)

    (A = x1λ1 y1  + …… + xnλn yn  , y1 ~ yn 假设是S-1 行向量,如果λ1 是最大的,比其他大很多,那么对于A矩阵,只要记住x1λ1 y1 就可以有一个近似的A' ,实现了对矩阵的压缩存储)

    *如果A能对角化,除了是方阵,还要各个λ值互不相同。因为λ有一对相同,证明X会有一对线性相关,从而S的列向量不独立,从而S没有逆。


    既然这样,那么X可以单位化,也就是X' = X / ||X||,而 λ' =  ||X|| λ , X重要的是方向,而不是长度。


    如果A是对称矩阵,那么A = A

    A = S∧ S-1 = (S∧ S-1)=  (S-1) ∧ST

    要式子成立,那么S-1 = S,要有这种性质的矩阵S,只有标准正交矩阵Q,因为QQ-1 = I = QQ

    对于A = AT ,有A =  Q ∧QT 并没有什么约束条件 (Gilbert Strang《Introduction to LINEAR ALGEBRA》p330),这就是对称矩阵对角化

    (对称矩阵一定是方阵,但不一定有逆,如元素全是1的也对称,但各列向量不独立)


     相似矩阵:如果M可逆,那么B = M-1AM相似于A,而且B的特征值和A的特征值一样。

    证明:B = M-1AM 等价于 A = MBM-1 , AXX,(MBM-1)XX ,  B(M-1X) =  λ(M-1X)。因此,B的特征向量是(M-1X) ,特征值依然是λ。


     任意正交向量组V1,V2,V3,通过A变换(A可以是任意形式的矩阵),得到的向量都是正交的。

    (这种任意m*n的变换,应该叫“仿射变换”,因为向量v变换后,其维数都不同了;而平时n*n的变换,应该叫线性变换,维数还是一样的)

    证明:A是m*n的,v是n*1的,u是m*1的,那么:

    Av1 = u1

    Av2 = u2

    要证明U1TU2=0

    (Av1T(Av2 ) =u1Tu  只要证明等式左边等于0

    v1AT Av2  = u1Tu2 因为ATA是对称矩阵,所以有:

    v1T Q ∧QTv2  = u1Tu2


    基于上面,假如将u单位化,v单位化,那么有:

    Av1 = δ1u

    Av2 = δ2u2

    1. v的向量个数,顶多有n个,因为V为n维空间,n维空间中相互垂直的向量顶多有n个。

    2. 就算v是长度为1,通过乘以矩阵A后,也有可能变为长度不为1的u,

    假设所有n个相互正交的单位v向量,通过A变换后,得到相互正交的n个u向量, 将上式子写成矩阵形式:

     

    也就是:AV=UΣ

    因为V是标准正交矩阵,所以VVT=I,所以:A=UΣVT 这就是著名的奇异值分解(SVD)

    (奇异值分解,其实是通用的,终极的分解方式。一旦做SVD分解,自然会根据矩阵的特性,变为:1. 可逆且特征值不重复的方阵分解为S∧ S-1  ;2. 对称方阵分解为Q ∧QT   ;3.  最一般的形式)


    那么,现在的问题仅仅是,如何寻找V和U?

    首先,我们已经知道,任意矩阵A,能分解为A=UΣVT , 所以,可以从这个入手:

    (1)AAT =UΣVUT  

    因为上式子中,V为单位正交矩阵,VTV = I,Σ为对角矩阵,ΣΣT = Σ2,所以有:

    AA= UΣU, 这不就是对称矩阵对角化 :U原来是AA的特征向量,Σ是AA的特征值开根号。

    同理:

    (2)ATA  = VΣUUΣVT

    ATA  = VΣ 2V,那么:V原来是 ATA  的特征向量,Σ是AAT 或 ATA   的特征值开根号。


    顺便有:

    当m>n时:


    总结:计算的主要工作,是如何求解特征值的问题。这是《数值分析》的内容,在此不讲,只讲非数值分析的思路:

    因为:AX =λX ,所以,(A-λI)X= 0

    又因为X要有解,又不能全为0,所以A-λI 的各列要线性相关。

    又因为A-λI 的各列要线性相关,所以行列式det(A-λI) = 0

    (三维)行列式的几何意义是,三个向量作为边,形成的立体体积。

    如果三个向量线性相关,那么自然被“压缩”到一个平面上,体积为0;

    那么,只要用到 A-λI 的各列来求体积为0,就可以对λ列方程,就可以解λ。(实际上《数值分析》并不会这么解,是通过A*A*A*A....迭代得到的)


    参考:

    https://zhuanlan.zhihu.com/p/57803955 (推导过程)

    https://zhuanlan.zhihu.com/p/42896542 (图片压缩和应用)

  • 相关阅读:
    jQuery源码解析(架构与依赖模块)第二章 核心模块
    jQuery源码解析(架构与依赖模块)第一章 理解架构
    js中运算符的优先级
    JS将时间与时间戳互转
    关于JavaScript scope的一切
    java中继承以及其他相关内容
    java中数组的内容
    关于java中的引用数据类型
    关于java的源文件结构以及常用的包
    Java语言的基础内容
  • 原文地址:https://www.cnblogs.com/pylblog/p/10544427.html
Copyright © 2011-2022 走看看