矩阵乘法的本质是什么？第1页

这是一个系列短片，若感兴趣，观看顺序是：

lu-yi-50-92 网友的相关建议:

2020-2-19

我在后来的学习中，发现了更多矩阵的用途。例如通信中信道传输用到了信道矩阵（包括BSC、BEC这两个书中常见）、线性码结构的定义（用一个矩阵来生成一组编码，编码为该矩阵的零空间），以及前两天研究周期序列的递推关系时，用到了矩阵（因为需要用已有的周期序列来做线性表示，从而需要解线性方程组）。总的来说，这些涉及到了矩阵的乘法，更多的是应用，我打算罗列出来。

鉴于知乎编辑器会随着字数增多而变卡。。。我决定在文末就贴上链接了~

2019-10-27

前言

矩阵是一个工具，

它可以描述的东西有很多，比如

线性变换
线性方程（很多教材都是从这里开始写矩阵的）
用于表示一些代数
排列数（permutation）
可达性（图论）
以及很多应用上，比如层次分析法中的比较矩阵、神经网络中数据传递的过程等等

要知道，人并不能直接看到抽象的事物（就好比说变换、方程、代数等等），必须要用一些具体的表现工具将其刻画出来。而矩阵就是其中的一个工具（其实还有其他对线性变换的刻画）。

个人对变换的理解比较多，所以我打算先从变换的角度来写写矩阵乘积。

然后再说说方程的，和排列数意义下的矩阵乘法本质。

目录(带*表示非重点)

线性变换
向量内积——解释矩阵乘法
*傅里叶变换
变换意义下的本质
方程意义下的本质
排列数意义下的本质

什么是线性变换？

对于一个变换（对于抽象东西，索性先用符号来表示吧），找两个向量，它满足可加性与齐次性

然后矩阵可以很清晰地刻画这种变换。为什么这么说？

通过齐次性能够发现，对于一条线上的子空间所有向量经过变换后的结果，只与该空间的单位向量差一个系数。

这也就是说，如果想要真正具体地描述一个线性变换，只需要分别知道：每个维度上单位向量经过线性变换后的结果。然后用由单位向量得到的“结果”来刻画整个变化。

比如说：

在3维空间中，很容易想到就只有三个坐标轴，比如说，你想把x轴投射到y轴，y轴投射到z轴，z轴投射到x轴（长度不变）这一变换。

那么就需要，让x轴出现在y'轴的位置，y轴出现在z'轴的位置，z轴出现在x'轴的位置。

即一个排列组合就成为这样的矩阵，将左边三个向量都横过来，然后第一个向量摆在第一行，第二个向量摆在第二行，第三个向量摆在第三行。

那么，这三个向量怎么得来的？矩阵怎么得到的？

这就应该说说内积了——从内积解释相乘

从高中开始接触内积，好像很多人只知道内积是两个向量对应分量相乘再求和。实际上，它是由坐标中的余弦定理得到的。

像对上图的向量根据余弦定理，能够得到 A的余弦值等式的右上角的那个就被定义为内积。

能够看出有了内积，就有了长度对角度的刻画。从而长度与角度在坐标意义上是一回事了。（以前想要测量边和角需要量角器和尺子，现在干脆只用尺子了）这也意味着对于一些变换的刻画，不在需要对长度和角度之类的量进行赘述（比如先向东走50m，再左拐....），借助内积直接用坐标去刻画两者变换。

当然，求出角并非是重点，而是得到的余弦值。因为根据余弦函数的定义，能够发现，向量模长乘上一个余弦值等于该向量朝另一个向量做投影后的长度。

从图中能够发现，可以表示在 “心中”的地位。

定义（内积的矩阵表示） 设为两个的矩阵所表示的向量，则其内积为

对于变换来讲，实际上相当于将旧空间的事物用新空间的坐标来表达。

也就是说，要想求得新空间的坐标，那就需要将：旧空间的坐标分别与新空间的坐标一一做内积，得到旧空间坐标的新空间表示。（这里表述可能有些歧义，对于，其实没有改变空间，准确来说，就是用新的基来表示旧的基）

换成矩阵来将，就是

假设旧空间坐标基为，新空间的基为，相应的变换为

其中T表示转置（transposition）。又可以写为

在做相乘的时候，是可以看作右边每一列的列向量同时与左边矩阵的三个行向量作内积，先后得到三个新的列向量。

额外插个别话题——傅里叶变换

其实可以函数看作是一个向量的，只不过分量无法一一地列出来。

两个函数相乘相当于是向量对应分量相乘，那么积分步就相当于进行求和了吗（从定义上来看，积分可看作将不可列的分量转变成可列的分量再进行对应相乘求和的过程）？这不就成了函数的内积了吗？

看看傅里叶变换公式：

有木有发现，这就是函数与做内积？（也就是朝着这个坐标轴做投影）

后面那个e这一项表示什么意思？其实它可以写成也就是说，将朝着不同频率的正余弦函数做内积，将该函数在“振幅-时间”空间中投射到“频率-振幅”空间中。

这两个空间分别对应着响亮而又文雅的名字，一个叫时域，一个叫频域。

那这玩意根哪里出现矩阵了？

可以这么来看，将按定义域进行有限等距分割（假设只在不为零，那么变换就相当于成了），分别取分割后每个区间中任意一个数，即于是能够得到向量 ( 矩阵)

那另一个矩阵呢，假设，你想知道它五个频率（）的振幅分别是多少，于是乎，积分里面第二个函数就可以写成如下矩阵形式

于是乎，得到变换后的向量为

当然，“割之弥细，失之弥少，割之又割，一致于不可割，则与圆合体而无所失也。"（刘徽）只要前面对区间的分割约细致，则变换后损失的信息越少。

矩阵乘法的本质

人类无法直接观察到速度的存在，所以用一段时间后相对于起点的终点进行刻画；

亦如，

你我无法洞察到事物变化，所以就要用基本状态变化后的结果来进行刻画。

这种基本状态用矩阵来刻画，那就是——单位矩阵

它就是在描述一个变化的最原始状态。你想任何向量左乘上单位矩阵貌似都没有任何变化吧？所以空间中的“基本状态”就拿这个单位矩阵下手了~

就拿旋转矩阵来说，（用二维的比较方便，因为三维的旋转就是二维旋转+一个单位向量）

如果将基看作是变化的，那么矩阵相乘就是将空间进行变换，

如果将基看作是固定的，那么矩阵相乘就是将空间中的对象进行变换。

就如图中向量

其中，把看作旋转后的，看作旋转后的（后面分别记为）

就是原先坐标轴逆时针旋转后的结果。

如何求得旋转矩阵？

首先要知道旋转后，x轴变换后（向量）横纵坐标为 ,

y轴变换后（向量）对应的横纵坐标为

将两者分别取转置，再合并到一个矩阵中，就是上面的旋转矩阵啦~

再简单说说方程上的意义

其实用方程的眼光来看，矩阵2左乘矩阵1，相当于将矩阵1所对应的方程进行换元，再带入到矩阵2所对应的方程之中。

其实这也好理解，在初中学平面直角坐标系时，老师就说过这样的数学思想——数形结合。

坐标系揭示代数方程与几何空间的联系。

就拿二元线性方程组来说

如果再来一个矩阵左乘上面的矩阵

就相当于将开始的那个方程作如下换元，

进而变成

的亚子~~

所以从这一点来看，矩阵相乘即能够刻画空间变化/坐标变换，也可以刻画方程换元。那么，空间/坐标变换在某种意义上和方程的还原是一回事了~

再说说矩阵所表示的排列数~

如上图所示，圆上一共有五个位置，假如给出五个数分别赋给上面五个点（来表示对五个位置的重新排列），每个点只能有一个数。那么一共有多少种排列方式方式？

答案是5！种。

比如以此类推。

但是这样标记很复杂，那就将其写成矩阵：

矩阵横向位置表示原先的位置，纵向位置表示排列后的位置。

将矩阵（原先的位置，现在的位置）=1

则上面那个用矩阵来描述，就是

（其实相当于没有进行任何改变。）

如果把上图所有点的位置逆时针平移一个位置，则相应矩阵为

此时都应该猜出来：就是得到两种变换叠加到的结果。（例如逆时针旋转一个）

通过计算能够发现： 两次逆时针平移一个单位=一次逆时针平移两个单位。

按照该矩阵定义能够发现，在相乘的过程种，会将原先排列点所在位置，放置到左乘矩阵种相应点不为0的位置处。

我想要说的差不多就这些了。丘维声的高等代数里说（大概意思，具体的忘了在哪一页了。。），矩阵在一开始是为了简化数据的书写，忽略其复杂的格式，将数据清晰条理地展现出来。

单纯来看矩阵，其实就是一种书写手法，正是赋予了相应地运算，才能够使其具有一定地表现力

为何说是赋予一种运算？难道说还有其他的运算吗？当然，

除了一般高等代数/线性代数中常说的矩阵积，还有Hadmard积、Kronecker积。但后两者就不是一般意义下的矩阵积了。

矩阵乘法的本质是什么？的其他答案点击这里

矩阵乘法的本质是什么？第1页

前言

目录(带*表示非重点)

什么是线性变换？

这就应该说说内积了——从内积解释相乘

额外插个别话题——傅里叶变换

矩阵乘法的本质

再简单说说方程上的意义

再说说矩阵所表示的排列数~

相关话题

前一个讨论

下一个讨论

相关的话题

矩阵乘法的本质是什么？ 第1页

前言

目录(带*表示非重点)

什么是线性变换？

这就应该说说内积了——从内积解释相乘

额外插个别话题——傅里叶变换

矩阵乘法的本质

再简单说说方程上的意义

再说说矩阵所表示的排列数~

相关话题

前一个讨论

下一个讨论

相关的话题

矩阵乘法的本质是什么？第1页