zoukankan      html  css  js  c++  java
  • 线性代数随笔(一):线性变换,特征分解,二次型

    一、一般线性变换

    1、对于一个典型的线性变换:

    $y=Aoldsymbol x=left[ egin{array}{cc} oldsymbol w_1 & oldsymbol w_2end{array} ight]left[ egin{array}{cc} x_1 \ x_2end{array} ight]=x_1oldsymbol w_1+x_2oldsymbol w_2$

    在空间上可以看作每个$x_1$单位拉伸了一个$oldsymbol w_1$,每个$x_2$单位拉伸成了一个$oldsymbol w_2$。

    2、$oldsymbol x=A^{-1}oldsymbol y$,即反变换。得出的是$oldsymbol y$由多少个$oldsymbol w_1$和$oldsymbol w_2$组合而成。

    二、线性变换的特征分解:

    1、特征向量和特征值的定义

    对于矩阵$A$,总有一些特殊的向量$oldsymbol x$,用A对它进行线性变换后,相当于在原方向上拉伸了$lambda$倍:

    $Aoldsymbol x=lambda oldsymbol x$

    (注意:特征向量本身放大$k$倍后依然是特征向量,但是它对应的特征值是不变的。)

    2、特征向量和特征值的用途

    对于任意向量$oldsymbol x$,如果我们能将它表示为一系列特征向量的线性组合:

    $oldsymbol x=y_1oldsymbol v_1 + y_2oldsymbol v_2$

    那么我们用$A$对$oldsymbol x$进行线性变换,就相当于把它的各个分量往两个方向上分别进行拉伸:

    $Aoldsymbol x=A(y_1oldsymbol v_1 + y_2oldsymbol v_2)=lambda_1 y_1oldsymbol v_1+lambda_2 y_2oldsymbol v_2$

    3、矩阵表示

    如果一个$n imes n$矩阵A拥有$n$个线性无关的特征向量,那么这些特征向量就组成了$oldsymbol R^n$的一个基。也就是用这些特征向量可以线性组合出任一$oldsymbol R^n$中的向量。这个基我们用$P$表示。

    $Aoldsymbol x=PDP^{-1}oldsymbol x=left[ egin{array}{cc} oldsymbol v_1 & oldsymbol v_2end{array} ight]left[ egin{array}{cc} lambda_1 & 0 \ 0 & lambda_2 end{array} ight]left[ egin{array}{cc} oldsymbol v_1 & oldsymbol v_2end{array} ight]^{-1}oldsymbol x$

    我们从右向左结合:

    (1)左乘$P^{-1}$,将$oldsymbol x$变换为特征坐标系下的坐标:$oldsymbol y=left[ egin{array}{cc} y_1 \ y_2end{array} ight]$

    (2)左乘特征值对角矩阵$D$,即每个分量按各自的特征值拉伸,结果记为$oldsymbol y'=left[ egin{array}{cc} lambda_1y_1 \ lambda_2y_2end{array} ight]$

    (3)左乘$P$,将拉伸后各个分量转换为原坐标系,结果为:$A(y_1oldsymbol v_1 + y_2oldsymbol v_2)=lambda_1 y_1oldsymbol v_1+lambda_2 y_2oldsymbol v_2$

    三、二次型

    1、表示

    二次型是形如$y=oldsymbol x^TAoldsymbol x=displaystyle sum_{i=1}^Nsum_{i=1}^N x_ix_ja_{i,j}$的表达式。二次型在现实中有很多例子。例如多元正态分布的密度函数:

    $p(x)=frac{1}{(2pi)^{frac{k}{2}}|Sigma|^{frac{1}{2}}}exp(-frac{(x-mu)^TSigma^{-1}(x-mu)}{2})$

    其中指数部分$y=(x-mu)^TSigma^{-1}(x-mu)$就是一个典型的二次型。

    2、二次型的分类

    (1)正定矩阵:对任意$oldsymbol x$,有$y=oldsymbol x^TAoldsymbol x>0$

    (2)负定矩阵:对任意$oldsymbol x$,有$y=oldsymbol x^TAoldsymbol x<0$

    类似的还有半正定矩阵和半负定矩阵,分别是把上述条件的大于(小于)号改为大于等于(小于等于)。

    2、当$A$为对角矩阵

    特别地,当$A$为对角矩阵时,有$oldsymbol x^TAoldsymbol x=sum_{i=1}^Nlambda_ix_i^2$

    (1)当所有对角线元素$lambda_i>0$时,恒有$y>0$,因此$A$为正定矩阵。

    (2)当所有对角线元素$lambda_i<0$时,恒有$y<0$,因此$A$为负定矩阵。

    二次型有很多应用,一个典型的应用是约束优化。当$A$为对角矩阵时,很容易求得约束条件下$y$的极值。这里讨论从略。

    3、当$A$为对称矩阵

    如果限定$A$为对角矩阵,那么二次型的应用就大打折扣。我们希望对角矩阵的二次型的性质能应用到其他矩阵上。一个最常见的例子是对称矩阵,对称矩阵有一个特点:它能进行正交分解。(事实上,对称矩阵是矩阵能够进行正交分解的充分必要条件)

    设$A=PDP^{-1}$是$A$的一个正交分解,其中$P$是单位正交基。根据单位正交基的性质:$P^TP=I$,我们有$P^T=P^{-1}$,因此$P^{-1}$可以和$P^T$互换使用。

    $y=oldsymbol x^TAoldsymbol x=oldsymbol x^TPDP^Toldsymbol x=(P^Toldsymbol x)^TD(P^Toldsymbol x)=(P^{-1}oldsymbol x)^TD(P^{-1}oldsymbol x)$

    这里发现,当把$x$转换到特征坐标系下后,$y$就变成了一个标准的对角矩阵的二次型。

    λ y +λ y  Ax=A(y1v1+y2v2)=λ1y1v1+λ2y2v2

  • 相关阅读:
    System.currentTimeMillis();
    java中synchronized使用方法
    距离矢量路由协议举例——RIP
    Bulk Insert命令具体
    美国地名大全(美国城市名称英文、中文)
    面试准备系列01----面试中的链表题目汇总
    Introspector(内省)简单演示样例 与 简单应用
    Android APK反编译具体解释(附图)
    MATLAB新手教程
    Nginx+Tomcat7+Mencached负载均衡集群部署笔记
  • 原文地址:https://www.cnblogs.com/milaohu/p/6529707.html
Copyright © 2011-2022 走看看