3 运算和性质
在这一节中,我们将介绍几种矩阵/向量的运算和性质。很希望这些内容可以帮助你回顾以前知识,这些笔记仅仅是作为上述问题的一个参考。
3.1 单位矩阵与对角矩阵
单位矩阵,记作I ∈ Rn×n, 是一个方阵,其对角线上的都是1,其他元素都是0。即:
它具备A ∈ Rm×n矩阵的所有性质
请注意,在某种意义上,标识矩阵的符号是有歧义的,因为它没有指定I的维度。一般而言,从上下文中可以推断出I的维度,这个维度使矩阵相乘成为可能。例如,在上面的等式AI = A中的I是n × n矩阵,而A = IA中 I是m × m矩阵。
对角矩阵除了对角线元素之外其他元素都是0。可以记作D = diag(d1,d2,...,dn),其中:
显然,I = diag(1,1,...,1).
3.2转置
矩阵的转置的是矩阵行和列的"翻转"。对于一个矩阵A ∈ Rm×n,,它的转置,AT ∈ Rn×m,是一个n × m 的矩阵,其元素为
我们实际上已经使用转置当描述行向量的转置,因为一个列向量的转置,自然是一个行向量。
下面是一些关于转置的性质,证明起来也不太难:
- (AT )T = A
- (AB)T = BT AT
- (A + B)T = AT + BT
3.3对称矩阵
如果一个方阵A∈ Rn×n满足条件A = AT,(行列互换后与原方阵完全相同)那么它就是对称的。如果满足A = −AT则A是反对称的。很容易证明,任何矩阵A ∈ Rn×n,A + AT 是对称的,而 A−AT是反对称的。因此,任何方阵A ∈ Rn×n可以表示为一个对称矩阵和反对称矩阵的和,因为:
右边的第一个矩阵是对称的,第二个是反对称的。在实践中,对称矩阵是很常用的,他们有诸多优秀的性质,我们将在以后进行说明。我们通常将所有大小为n的对称矩阵的集合表示为Sn;A ∈ Sn则表示A是n × n的对称矩阵。
3.4矩阵的迹
方阵A ∈ Rn×n的迹,记作tr(A),或可以省略括号表示成trA,是矩阵的对角线元素之和:
正如cs229讲义中所述,矩阵的迹具有以下性质(在此讲述完全是为了内容的完整性):
- 对于A ∈ Rn×n, trA = trAT .
- 对于A,B ∈ Rn×n, tr(A + B) = trA + trB.
- 对于A ∈ Rn×n, t ∈ R, tr(tA) = t trA.
- 对于方阵A,B,C,trABC = trBCA = trCAB,即使有更多的矩阵相乘,这个性质也不变.
前三个性质比较容易证明,咱们一起来看看第4个性质。假设A ∈ Rm×n ,B ∈ Rn×m (因此AB ∈ Rm×m是个方阵)。观察到BA ∈ Rn×n也是一个方阵,所以他的迹是有意义的。为了证明trAB = trBA,注意到:
在这里,第一个和最后两个等式使用了迹运算和矩阵乘法的定义。第四个等式是最重要的部分,它使用了标量乘法的交换性来交换每个乘积中因式顺序,也使用了标量加法的交换律和结合律将求和过程重新排序。
3.5范数
向量的范数是向量"长度"的非正式度量。例如,我们常用的欧氏距离(ℓ2范数)。
向量中每个值的平方和 开根号。
注意 .
更正式的来讲,范数是满足以下4个特性的任何一个方程f : Rn → R:
- 对于任意x ∈ Rn, f(x) ≥ 0 (非负性).
- 当且仅当x = 0 时,f(x) = 0(确定性).
- 对于任意x ∈ Rn,t∈ R,f(tx) = |t|f(x) (均匀性).
- 对于任意 x,y∈Rn,f(x + y)≤f(x) + f(y) (三角不等性).
另一个范数的例子是ℓ1范数,
以及ℓ∞范数,
事实上,这三个范数都是ℓP范数家族的的例子,它包含一个实参数p≥1。ℓP范数定义为:
.
也可以定义矩阵A的范数,如Frobenius范数,
.
也存在许多其他的范数,但它们超出了这篇综述讨论的范围。
3.6线性无关和秩
对于一组向量{x1,x2,...xn} ∈ Rm,如果没有向量可以表示为其余向量的线性组合,这组向量就是(线性)无关的。
相反,如果一个向量属于一个集合,这个集合中的向量可以表示为其余的向量某个线性组合,那么就称其称为向量(线性)相关。
也就是说,对于一些标量值α1,...,αn−1 ∈ R,如果
我们说向量x1,...,xn是线性相关;否则,该向量线性无关。例如,向量
x1,x2 和 x3 是线性相关的,因为x3 = −2x1 + x2.
矩阵A ∈ Rm×n的列秩是所有线性独立的列的最大子集的大小。
列秩通常指矩阵A线性无关的列的数目。相似的,将A的行构成一个线性无关集,行秩是它行数的最大值。
对任意矩阵A ∈ Rm×n,其列秩与行秩是相等的(虽然我们不打算证明),所以我们将两个相等的秩统称为A的的秩。秩的一些基本性质如下:
- 对于 A ∈ Rm×n, rank(A) ≤ min(m,n). 如果rank(A) = min(m,n), 则称A满秩。
- 对于 A ∈ Rm×n, rank(A) = rank(AT ).
- 对于 A ∈ Rm×n, B ∈ Rn×p, rank(AB) ≤ min(rank(A),rank(B)).
- 对于 A,B ∈ Rm×n, rank(A + B) ≤ rank(A) + rank(B).
3.7逆
矩阵A ∈ Rn×n的逆,写作A−1,是一个矩阵,并且是唯一的。
A−1A = I (单位矩阵)= AA−1
注意不是所有的矩阵都有逆。例如非方阵,是没有逆的。然而,即便对于一些方阵,它仍有可能不存在逆(只有部分方阵是可逆的)。
如果A−1存在,我们称矩阵A 是可逆的或非奇异的;
如果A−1不存在,则称矩阵A不可逆或奇异;
如果一个方阵A有逆A−1,它必须满秩。我们很快可以看到,除了满秩,矩阵可逆还有许多充分必要条件。
满足以下的性质的矩阵可逆;以下所有叙述都假设A,B ∈ Rn×n是非奇异的:
- (A−1)−1 = A
- (AB)−1 = B−1A−1
- (A−1)T = (AT )−1. 因此这样的矩阵经常写作A−T
举一个矩阵的逆的应用实例。对于线性方程组Ax = b,其中 A ∈ Rn×n,并且x,b ∈ Rn.如果A是非奇异(即可逆),则x = A−1b(如果A ∈ Rm×n不是方阵呢?是否成立?)
3.8 正交矩阵
如果xT y = 0,则两个向量 x,y ∈ Rn是正交的。对于一个向量x ∈ Rn,如果则是x归一化的(向量的2范数为1)。对于一个方阵U ∈ Rn×n,如果所有列都是彼此正交和归一化的,(列就称为标准正交)则这个方阵是正交的(注意在讨论向量或矩阵时,正交具有不同的含义)。
根据正交和归一化的定义可得:
UT U = I = UUT
换言之,一个正交矩阵的逆矩阵的是它的转置。我们一般只使用正交这个术语来描述U为方阵的情形。
非方阵正交:注意,如果U不是方阵的,也就是说, U ∈ Rm×n,n < m,但它的列仍然是正交的,则UT U = I,但UUT ≠ I.等。【左* 与 右* 有区别】
另一个正交矩阵的很好的属性是,向量与正交矩阵的运算将不会改变其欧氏范数,即对于任意x ∈ Rn,正交的U ∈ Rn×n:
3.9矩阵的值域和零空间
一组向量{x1,x2,...xn}的值域是{x1,x2,...xn}线性组合的所有向量的集合。即
可以看出如{x1,...,xn}是一组n个线性无关的向量,其中xi ∈ Rn,则({x1,...xn}) 的值域= Rn。换句话说,任何向量v ∈ Rn可以写成x1 至 xn的线性组合。向量y ∈ Rm 在值域 {x1,...,xn}上的投影 (假定 xi ∈ Rm) 是向量v ∈ span({x1,...xn}),则通过比较其欧式范数,v 与 y无限接近。这个投影记作Proj(Y;{ x1,…,n}),可以定义它为,
A ∈ Rm×n的值域(有时也被称为列空间),表示为R(A),就是A的值域。换言之,
R(A) = {v ∈ Rm : v = Ax,x ∈ Rn}.
我们假设A满秩且n < m,向量y ∈ Rm 在A值域上面的投影可以表示为
这最后一个方程应该看起来非常熟悉,因为它几乎是我们在课上用于参数的最小二乘估计公式(并且我们可以快速再次推导出来)几乎相同的。看一下投影的定义,你会发现这其实与我们在解决最小二乘法问题时进行最小化的目的是相同的(除了范数是一个平方,这并不影响求得最优的点),所以这些问题是有自然联系的。当 A 仅含有1个单独的列 a ∈ Rm,则出现了向量在一条直线上投影的特殊情况。
矩阵A ∈ Rm×n的零空间,记为N(A),是被A乘后,得到的所有等于0的向量一个集合,即,
N(A) = {x ∈ Rn : Ax = 0}.
注意,向量R(A)的大小为m,而N(A)的大小为n,所以 R(AT ) 和 N(A) 的向量都在 Rn中。事实上,我们可以讨论更多。
换句话说,R(AT ) 和 N(A)是不相交的子集,一同跨越了Rn整个空间。这种类型的集合称为正交互补,写作R(AT ) = N(A)⊥.