该篇为《理解矩阵》(孟岩)的笔记,《理解矩阵》原文详见此链接:https://blog.csdn.net/myan/article/details/647511
这些东西大部分是凭着自己的理解写出来的,基本上不抄书,可能有错误的地方,希望能够被指出。但我希望做到直觉,也就是说能把数学背后说的实质问题说出来。
线性空间
首先说说空间(space),这个概念是现代数学的命根子之一。
一般人最熟悉的空间无疑是生活在其中的三维空间,从数学上说这是一个三维的欧几里得空间,这个空间有四个基本的特点,其中最关键的是关于运动的特点:
这个空间可以容纳运动,这里我们所说的运动是从一个点到另一个点的移动(变换),而不是微积分意义上的“连续”性的运动。
也就是说,容纳运动是空间的本质特征。通过这个特征我们可以把关于三维空间的认识扩展到其他空间。事实上,“空间”是容纳运动的一个对象集合,而变换则规定了对应空间的运动。
对于线性空间,有两个基本的问题:
- 线性空间是一个对象集合,那么线性空间是什么样的对象的集合?
- 线性空间中的运动(即线性变换)如何表述?
对于第一个问题,对了解一定线性代数几何意义的人来说比较具有直觉性:
线性空间中的任何一个对象,通过选取基和坐标的办法,都可以表达为向量的形式。
文中举了两个抽象线性空间的例子:
L1. 最高次项不大于n次的多项式的全体构成一个线性空间,也就是说,这个线性空间中的每一个对象是一个多项式。如果我们以(x^0), (x^1), ...,(x^n)为基,那么任何一个这样的多项式都可以表达为一组n+1维向量,其中的每一个分量(a_i)其实就是多项式中(x^{(i-1)})项的系数。值得说明的是,基的选取有多种办法,只要所选取的那一组基线性无关就可以。这要用到后面提到的概念了,所以这里先不说,提一下而已。
L2. 闭区间[a, b]上的n阶连续可微函数的全体,构成一个线性空间。也就是说,这个线性空间的每一个对象是一个连续函数。对于其中任何一个连续函数,根据魏尔斯特拉斯定理,一定可以找到最高次项不大于n的多项式函数,使之与该连续函数的差为0,也就是说,完全相等。这样就把问题归结为L1了。后面就不用再重复了。
如此看来,只要找到合适的基,就可以用向量表示线性空间中的任何一个向量。向量并不只是表面上的一列有序数,向量可以是任何事物,而这些大都可以通过一列数抽象的描述。文中的L1就是一个很好的例子。向量具有很多性质,直觉上,并非是向量具有这些性质,而是具有这些性质的都是向量。
对于第二个问题:
很有意思,在线性空间中,当你选定一组基之后,不仅可以用一个向量来描述空间中的任何一个对象,而且可以用矩阵来描述该空间中的任何一个运动(变换)。而使某个对象发生对应运动的方法,就是用代表那个运动的矩阵,乘以代表那个对象的向量。
简而言之:
在线性空间中选定基之后,向量刻画对象,矩阵刻画对象的运动,用矩阵与向量的乘法施加运动。
由此不难看出,矩阵的本质就是运动的描述。而向量本身就是n * 1的矩阵,一个空间的对象和运动可以用相同的方式表示。线性代数中大多奇妙的性质,均与这个巧合有直接的关系。
矩阵
矩阵的定义
所谓变换,其实就是空间里从一个点(元素/对象)到另一个点(元素/对象)的跃迁。
原文中这句话之所以使用 “跃迁” 而不用 “运动” 是因为变换不是一个人们在宏观世界上观察到的连续的过程,而是像电子在不同能级间跳跃那样是瞬间发生的。
当我们理解了变换的概念,矩阵就变成了:
矩阵是线性空间里的变换的描述。
最后我们可以得到矩阵完整且严谨的定义:
矩阵是线性空间中的线性变换的一个描述。在一个线性空间中,只要我们选定一组基,那么对于任何一个线性变换,都能够用一个确定的矩阵来加以描述。
这句话的关键,在于把 ”线性变换“ 与 ”线性变换的一个描述“ 区分开。矩阵是线性变换的一个描述而非线性变换本身或者线性变换的子集。
矩阵的相似
对于一个线性变换,只要选定了一组基,就可以找到一个矩阵来描述这个线性变换,而换一组基则会得到一个不同的矩阵。所有这些矩阵都是这同一个线性变换的描述,但又都不是线性变换本身。
若矩阵A和B是同一个线性变换的不同描述,则一定可以找到一个非奇异矩阵P(非奇异是一个很直觉的描述,用严格定义则是可逆矩阵),使得矩阵A与B满足这样的关系:
不难看出,这就是相似矩阵的定义,即相似矩阵是同一个线性变换的不同描述。
矩阵作为基的描述
矩阵不仅可以作为线性变换的描述,而且可以作为一组基的描述。而作为变换的矩阵,不但可以把线性空间中的一个点给变换到另一个点去,而且也能够把线性空间中的一个坐标系(基)表换到另一个坐标系(基)去。而且,变换点与变换坐标系,具有异曲同工的效果。线性代数里最有趣的奥妙,就蕴含在其中。理解了这些内容,线性代数里很多定理和规则会变得更加清晰、直觉。