第5章 高维线性代数
与第2章一样,在试图求解高维线性微分方程系统之前,我们必须熟悉一下高维的线性代数。虽然在高维,矩阵的不同标准形个数变得多了,但在作坐标变换将矩阵化为标准形的过程中所用的代数思想大多都在$2 imes 2$情形时出现过了。特别地,当矩阵具有不同(实的或复的)特征值时,除了增加很少的代数复杂性外,可以作类似处理,因而我们首先解决这种情形。在5.6节,我们会看到,这是一种“通有”情形。处理重特征值时需要用到更复杂的代数概念,相应的背景知识将在5.4节给出。
5.1 线性代数预备知识
主要内容包括:线性无关、线性相关、标准基、子空间、初等变换(每一个初等变换矩阵都是可逆的,这是因为将对应的初等变换逆向操作就可以得到它的逆。作为推论,初等矩阵的乘积都是可逆的。于是,如果将$oldsymbol A$作初等变换化为行简化阶梯形(单位矩阵)的对应的初等矩阵记为$oldsymbol {L_1,cdots,L_n}$,则有$(oldsymbol {L_n cdots L_1}) = oldsymbol A^{-1}$。即,如果对任意的$oldsymbol V in mathbb R^n$,向量方程$oldsymbol {AX} = oldsymbol V$有唯一解,则$oldsymbol A$可逆。这样就得到了我们第一个重要的结果。
命题 设$oldsymbol A$为一$n imes n$矩阵,则代数方程系统$oldsymbol {AX} = oldsymbol V$对任意$oldsymbol V in mathbb R^n$都有唯一解当且仅当$oldsymbol A$可逆。
5.2 特征值和特征向量
在第3章我们已经看到,特征值和特征向量在求解线性微分方程系统的过程中起到了至关重要的作用。
定义 一个向量$oldsymbol V$称为$n imes n$矩阵$oldsymbol A$的一个特征向量,如果$oldsymbol V$是线性方程组系统$(oldsymbol A-lambda oldsymbol I)oldsymbol V = 0$的一个非零解。其中的数量$lambda$(并未说是实的!)称为$oldsymbol A$的一个特征值,而称$oldsymbol V$是属于(相应于)$lambda$的一个(因为一个特征值可以对应多个)特征向量。
命题 假设$lambda_1,cdots,lambda_l$是$oldsymbol A$的实不同特征值,$oldsymbol V_1,cdots,oldsymbol V_l$为分别属于它们的特征向量,则$oldsymbol V_j$是线性无关的。
当我们回头考虑微分方程时,重要的则是:
推论 假设$oldsymbol A$为$n imes n$矩阵,具有实不同特征值,则存在矩阵$oldsymbol T$使得
[oldsymbol T^{-1}oldsymbol {AT} = left( egin{array}{l}lambda_1 \ & ddots \ & & lambda_n end{array} ight),]
其中对角线以外元素都是0。
证明 设$oldsymbol V_j$是属于$lambda_j$的特征向量。定义线性映射$oldsymbol T$使得$oldsymbol {TE}_j = oldsymbol V_j$,其中$oldsymbol E_j$是$mathbb R^n$的标准基。即$oldsymbol T$是以$oldsymbol {V_1,cdots,V_n}$为列向量的矩阵。因为$oldsymbol V_j$是线性无关的,故$oldsymbol T$可逆,从而就有
[(oldsymbol {T^{-1}AT)E}_j = oldsymbol {T^{-1}AV}_j = lambda_j oldsymbol {T^{-1}V}_j = lambda_j oldsymbol E_j.]
即,$oldsymbol {T^{-1}AT}$的第$j$列正好就是向量$lambda_joldsymbol E_j$,这也就是我们要证的。
5.3 复特征值
现在我们来处理$oldsymbol A$具有非实特征值的情形。假设$alpha + ext i eta$是$oldsymbol A$的一个特征值,其中$eta e 0$。由于$oldsymbol A$的特征方程具有实系数,因而,如果$alpha + ext i eta$是一个特征值,则它的复共轭$overline {alpha + ext i eta} = alpha - ext i eta$也是一个特征值。
现在假设$oldsymbol A$是一个$2n imes 2n$矩阵,它具有不同的非实特征值$alpha pm ext i eta,j=1,cdots,n$,记$oldsymbol V_j,overline {oldsymbol V_j}$为属于它们的特征向量。那么,与上节的命题一样,所有这些特征向量构成的向量组是线性无关的,即,如果有
[sumlimits_{j=1}^n(c_joldsymbol V_j + d_joverline {oldsymbol V_j}) = 0,]
其中$c_j,d_j$现在为复数,则对所有的$j$,必有$c_j=d_j=0$。
现在我们来做坐标变换将$oldsymbol A$化为标准形。令
[egin {array}{l}oldsymbol W_{2j-1}&= frac {1}{2}(oldsymbol V_j + overline {oldsymbol V_j})\ oldsymbol W_{2j}&= frac {- ext i}{2}(oldsymbol V_j - overline {oldsymbol V_j}). end{array}]
注意这里$oldsymbol W_{2j-1},oldsymbol W_{2j}$都是实向量,事实上,$oldsymbol W_{2j-1}$是$oldsymbol V_j$的实部,而$oldsymbol W_{2j}$是$oldsymbol V_j$的虚部。利用$oldsymbol W_j$进行操作就把我们又带回$mathbb R^n$的世界。
命题 向量组$oldsymbol {W_1,cdots,W_{2n}}$是线性无关的。
现在定义线性映射$oldsymbol T$使得$oldsymbol {TE_j = W_j},j=1,cdots,2n$,即,与$oldsymbol T$相关的矩阵的列向量为$oldsymbol {W_1,cdots,W_{2n}}$。可见,这个矩阵具有实元素。由于向量组$oldsymbol W_j$是线性无关的,所以$oldsymbol T$可逆,且有
[oldsymbol T^{-1}oldsymbol {AT} = left( egin{array}{l}D_1 \ & ddots \ & & D_n end{array} ight),]
其中$oldsymbol D_j$为如下$2 imes 2$矩阵
[oldsymbol D_j = left( egin{array}{l} alpha_j &eta_j \ -eta_j & alpha_j end{array} ight).]
这就是具有不同非实特征值矩阵的标准形(对角化后的形式)。
将本节和上节的结果结合起来,我们得到:
[oldsymbol T^{-1}oldsymbol {AT} = left( egin{array}{l} lambda_1 \&ddots \ && lambda_k \ &&& D_1 \ &&&& ddots \ &&&&& D_n end{array} ight),]
其中$oldsymbol D_j$为如下$2 imes 2$矩阵
[oldsymbol D_j = left( egin{array}{l} alpha_j &eta_j \ -eta_j & alpha_j end{array} ight).]
5.4 基和子空间
定义 设$S$为$mathbb R^n$的一个子空间,向量组$oldsymbol V_1,cdots,oldsymbol V_k$称为$S$的一个基,如果这些$oldsymbol V_j$是线性无关的并且张成$S$。
与平面情形一样,我们称一个函数$oldsymbol T:mathbb R^n o mathbb R^n$为线性的,如果存在一个$n imes n$矩阵$oldsymbol A$使得$oldsymbol {T(X) = AX}$;此时称$oldsymbol T$为一个线性映射或线性变换。由矩阵的性质,对任意的$alpha,eta in mathbb R^n$,我们有,
[oldsymbol T(alpha oldsymbol X + eta oldsymbol Y) = alpha oldsymbol T(oldsymbol X) + eta oldsymbol T(oldsymbol Y).]
我们称线性映射$oldsymbol T$为可逆的,如果相应的矩阵$oldsymbol A$可逆。
对于研究线性微分方程系统而言,最重要的子空间是线性映射的核和值域。所有被$oldsymbol T$映射为0的向量构成的集合称为$oldsymbol T$的核(可理解为将$oldsymbol T$变换为0的向量构成的集合或空间),记为$ ext {Ker}oldsymbol T$。$oldsymbol T$的值域(可理解为$oldsymbol T$所能张成的空间)(记为 $ ext {Range}oldsymbol T$)则由所有这样的向量$oldsymbol W$构成:存在向量$oldsymbol V$使得$oldsymbol {TV} = oldsymbol W$。
命题 设$oldsymbol T:mathbb R^n o mathbb R^n$为一线性映射,则$ ext {Ker}oldsymbol T$和$ ext {Range}oldsymbol T$都是$mathbb R^n$的子空间,而且有
[ ext {dim}; ext {Ker}oldsymbol T + ext {dim}; ext {Range}oldsymbol T = n.]
命题的证明详见书本。注意核空间、值域空间、补空间、直和等之间的区别和联系。
5.5 重特征值
在本节中,我们来描述当矩阵有重特征值时的标准形。为了不在发展一般理论时花费过多的时间,我们将只对有重特征值的$3 imes 3$和$4 imes 4$矩阵作详细讨论。关于具有重特征值矩阵最一般的结论是:
命题 设$oldsymbol A$为一个$n imes n$矩阵,则存在坐标变换$oldsymbol T$使得
[oldsymbol T^{-1}oldsymbol {AT} = left( egin{array}{l}B_1 \ & ddots \ & & B_k end{array} ight),]
其中每个$oldsymbol B_j$都是一个方阵(而其它所有的元素都是零),它的形式为以下两者之一:
[( ext i)left( egin{array}{l} lambda&1 \ & lambda&1 \ && ddots & ddots \ &&& ddots &1 \ &&&& lambda end{array} ight);;;( ext {ii}) left( egin{array}{l} oldsymbol C_2 & oldsymbol I_2 \ & oldsymbol C_2 & oldsymbol I_2 \ && ddots & ddots \ &&& ddots & oldsymbol I_2 \ &&&& oldsymbol C_2 end{array} ight),]
其中
[oldsymbol C_2 = left( egin{array}{l} alpha & eta \ -eta & alpha end{array} ight), ;; oldsymbol I_2 = left( egin{array}{l} 1 & 0\ 0& 1 end{array} ight), ]
并且这里的$alpha,eta,lambda in mathbb R,eta e 0$。此外,特别情形$oldsymbol B_j = (lambda)$或
[oldsymbol C_2 = left( egin{array}{l} alpha & eta \ -eta & alpha end{array} ight)]
当然也是容许的。
先考虑$mathbb R^3$的情形。如果$oldsymbol A$在$mathbb R^3$中具有重特征值,则所有的特征值都是实的(为什么呢?因为两重复根就是四维了)。此时有两种情形,要么有两个不同的特征值,其中一个是重的,要么所有的特征值都相同。前一种情形可以利用在第3章中所描述的类似过程进行处理,因而我们只关心$oldsymbol A$仅有一个三得特征值$lambda$的情形。
命题 假设$oldsymbol A$为一个$3 imes 3$矩阵,具有唯一的特征值$lambda$。则可以找到坐标变换使得$oldsymbol T^{-1} oldsymbol {AT}$为下面的三种形式之一:
[ ext {(i)} left( egin{array}{l} lambda & 0 & 0 \ 0 & lambda & 0 \ 0 & 0 & lambda end{array} ight);; ext {(ii)} left( egin{array}{l} lambda & 1 & 0 \ 0 & lambda & 0 \ 0 & 0 & lambda end{array} ight);; ext {(iii)} left( egin{array}{l} lambda & 1 & 0 \ 0 & lambda & 1\ 0 & 0 & lambda end{array} ight).]
证明详见书本。证明的过程说明了核和值域不一定是直和的关系,反而往往是真包含的关系。
5.6 通有性
我们已经提到过,“大多数”矩阵具有不同特征值,本节的目标就是使这句话严格化。
先复习$mathbb R^n$中的一些拓扑概念。一个集合$mathcal U subset mathbb R^n$称为开的,如果对任意$oldsymbol X in mathcal U$,总有$oldsymbol X$的一个开球包含在$mathcal U$中,即,存在某个$a>0$(依赖于$oldsymbol X$),使得$oldsymbol X$中半径为$a$的开球
[left{oldsymbol Yin {{mathbb R}^{n}} left | left| oldsymbol Y-oldsymbol X ight|<a ight. ight}]
包含在$mathcal U$中。用几何语言,可以说成:如果$oldsymbol X$属于开集$mathcal U$,则充分靠近$oldsymbol X$的点也在$mathcal U$中(感觉是集合可以有限大,但又没有边界)。
$mathbb R^n$中的另外一种子集是所谓的稠密集:$mathcal U subset mathbb R^n$称为稠密的,如果$mathbb R^n$中的每一个点都可以被$mathcal U$中的点任意接近。精确地说,如果$oldsymbol X in mathbb R^n$,则对于每一个$epsilon > 0$,都存在某个$oldsymbol Y in mathcal U$,使得$|oldsymbol X - oldsymbol Y| < epsilon $。$mathcal U$在$ mathbb R^n$稠密的一个等价描述是:对于每一个非空开集$mathcal V subset mathbb R^n$,$mathcal V cap mathcal U$都是非空的。例如,全体有理数构成了$mathbb R$的一个稠密子集,全体无理数也是如此。
$mathbb R^n$中一类有趣的子集是所谓的既开又稠密的集合。这样的一个集合$mathcal U$可以由如下的性质来刻画:$mathcal U$的余集中的点可以被$mathcal U$中的点任意逼近(因为$mathcal U$为稠密),但是$mathcal U$没有点可以被$mathcal U$的余集中的点任意逼近(因为$mathcal U$是开集,能逼近$mathcal U$中点的点都在$mathcal U$中,挺拗口吧)。
下面的命题说明,开稠集是一种很“胖”的集合。
命题 设$mathcal V_1,cdots,V_m$都是$mathbb R^n$中的开稠集,则
[mathcal V = mathcal V_1 cap cdots cap mathcal V_m]
也是开稠的。
于是我们可以这样认为,$mathbb R^n$中的子集如果含有一个开稠集,则它是大的。为了使“大多数”矩阵这一说法严格化,我们需要在所有矩阵的集合中引入开稠集的概念。记$L(mathbb R^n)$为$n imes n$矩阵的集合,这也就是$mathbb R^n$上所有线性映射的集合。
定理 $L(mathbb R^n)$中由具有$n$个不同特征的矩阵所构成的集合$mathcal M$在$L(mathbb R^n)$中是开稠的。(证明详见书本)
矩阵的一个性质$mathcal P$称为一个通有性质,如果具有性质$mathcal P$的矩阵的集合包含$L(mathbb R^n)$中的一个开稠集。从而,一个性质是通有的,如果矩阵的某一开稠集都这个性质(其它矩阵也可能具有)。直观地说,通有性质就是指“几乎所有”矩阵都具有的性质。从而,具有不同特征值是$n imes n$矩阵的一个通有性质。(意思是不必担心,因为多数情况下,方阵都具有不同的特征值,但具有重征值的矩阵也是无数的)