矩阵乘法的本质是什么？

矩阵乘法啊，这东西看着挺唬人的，一堆数字排排坐，然后又是乘又是加的，但你仔细琢磨琢磨，它其实也没那么神秘。我跟你说，这玩意儿的本质，其实就是把一种“变换”或者“映射”给串联起来了。

你想想，一个向量，扔给一个矩阵，矩阵就能把它变成另一个向量。这就好比你有一台机器，输入一个零件，机器就能把它加工成另一个形状的零件。矩阵，就是这个“加工机器”。

那两个矩阵乘起来是啥意思呢？这就好比你有了两台这样的加工机器，一台接一台地用。你先把一个向量扔给第一台机器加工，加工完的结果再扔给第二台机器接着加工。最后得到的那个向量，就是你把两个加工过程“合并”起来之后的效果。矩阵乘法，就是把这两个“加工过程”给打包成了一个新的、更大的“加工过程”。

打个比方，你有一个机器人，它能伸胳膊（这是第一个变换），也能抬腿（这是第二个变换）。你先让它伸胳膊，然后再抬腿，它就完成了一个组合动作。矩阵乘法，就是把“伸胳膊”这个变换和“抬腿”这个变换组合起来，变成了一个新的、能够一步到位完成“伸胳膊再抬腿”这个组合动作的变换。

咱们再深入一点。一个矩阵怎么完成这个“加工”的呢？你看，矩阵的每一行其实都在告诉我们，输入的向量的各个分量，怎么通过加权求和的方式，贡献到输出向量的某个分量上去。

比如一个2x2的矩阵：
```
[ a b ]
[ c d ]
```
它乘以一个向量 `[ x ]`
`[ y ]`
结果是：
```
[ ax + by ]
[ cx + dy ]
```
你看，第一个输出是 `a` 乘以输入第一个分量 `x`，加上 `b` 乘以输入第二个分量 `y`。这不就是输入向量的各个分量被“抽调”出来，经过一系列的“称重”（乘以矩阵里的数），然后“汇总”到输出的某个位置吗？

矩阵乘法嘛，就是把这种“抽调、称重、汇总”的规则，按照特定的顺序给串起来。当第一个矩阵进行它的“抽调、称重、汇总”之后，得到的新向量再作为第二个矩阵的输入，进行它自己的“抽调、称重、汇总”。

那么，为什么会有一个奇怪的行乘以列的求和公式呢？这其实就是把两个“变换规则”的组合逻辑给落实下来了。

考虑我们上面那个机器人，伸胳膊是第一个变换（矩阵 A），抬腿是第二个变换（矩阵 B）。
假设伸胳膊是这样：
输入状态（胳膊位置，腿位置）> 输出状态（新胳膊位置，新腿位置）
我们用向量 `[x, y]` 来表示机器人的状态，矩阵 A 来表示伸胳膊的变换。

再假设抬腿是这样：
输入状态（胳膊位置，腿位置）> 输出状态（又一个新胳膊位置，又一个新腿位置）
我们用矩阵 B 来表示抬腿的变换。

我们想知道，先伸胳膊再抬腿，这个整体的变换是怎么样的？
一个初始状态向量 `v`，先通过矩阵 A 变成 `Av`。
然后，这个 `Av` 又作为矩阵 B 的输入，变成 `B(Av)`。

现在我们来看 `B(Av)` 是怎么算出来的。假设 A 是 `m x n` 的，B 是 `n x p` 的。那么 Av 是一个 `m x 1` 的向量。B 是 `n x p` 的，所以 B(Av) 是一个 `n x 1` 的向量。这里有个问题，我上面例子里矩阵是方的，你们理解起来更直观。如果矩阵形状不同，这里的维度也会跟着变。但核心思想不变：第一个矩阵的“输出”维度，必须和第二个矩阵的“输入”维度匹配。

所以，如果我们把 B 看作一个作用在 `Av` 上的变换，那么 B 的每一行，其实就是在告诉我们，如何从 `Av` 的各个分量，通过加权求和来得到结果向量的某个分量。而 `Av` 的各个分量，本身又是如何从原始向量 `v` 的分量通过 A 的规则计算出来的。

矩阵乘法 C = BA (注意顺序，如果 A 是第一个变换，B 是第二个，那么乘起来是 BA) 的某个元素 `c_ij`（C 的第 i 行第 j 列），它其实就是告诉我们：原始向量的第 j 个分量，通过整个复合变换 C，最终会贡献多少到结果向量的第 i 个分量上去。

这个 `c_ij` 的计算方式，就是 B 的第 i 行向量，乘以 A 的第 j 列向量（没错，这里是行乘以列）。这为什么是这样呢？因为 B 的第 i 行描述了它如何将“中间向量”的各个分量加权求和得到最终结果的第 i 个分量。而 A 的第 j 列描述了“中间向量”的第 i 个分量，是如何由“原始向量”的第 j 个分量加权求和得来的。

所以，`c_ij` 这个数，就是把这两条线索给串联起来了：原始向量的第 j 个分量，通过 A 到了中间向量的某个位置，这个中间向量的这个位置上的值，又通过 B 的第 i 行的规则，贡献到了最终结果的第 i 个分量。中间的这个“桥梁”就是向量的维度。而那个行乘以列的求和，就是把这个“桥梁”给打通，把原始的输入分量，一步到位地计算到最终的输出分量。

所以，你可以这样理解：
1. 矩阵是变换的描述：每个矩阵都代表着一种对向量的线性变换（比如旋转、缩放、投影等）。
2. 矩阵乘法是变换的复合：两个矩阵相乘，就是在将这两个代表的变换顺序地应用起来。如果矩阵 A 代表变换 T1，矩阵 B 代表变换 T2，那么 B 乘以 A (BA) 代表的变换是先应用 T1，再应用 T2。
3. 元素计算的意义：乘积矩阵的每个元素，揭示了原始输入向量的某个分量，如何通过复合变换影响到最终输出向量的某个分量。

本质上，矩阵乘法就是在高效地描述和执行一系列线性变换的组合。它提供了一种结构化的方式来处理多步的几何变换或数据映射，让你能够把复杂的连续操作，用一个简洁的矩阵来表示和计算。这在计算机图形学、物理学、机器学习等很多领域都至关重要。

网友意见

7分钟入门线性代数+微积分 https://www.zhihu.com/video/1045055752112746496

这是一个系列短片，若感兴趣，观看顺序是：

若没跟上，可看如何生动有趣的入门线性代数

2020-2-19

我在后来的学习中，发现了更多矩阵的用途。例如通信中信道传输用到了信道矩阵（包括BSC、BEC这两个书中常见）、线性码结构的定义（用一个矩阵来生成一组编码，编码为该矩阵的零空间），以及前两天研究周期序列的递推关系时，用到了矩阵（因为需要用已有的周期序列来做线性表示，从而需要解线性方程组）。总的来说，这些涉及到了矩阵的乘法，更多的是应用，我打算罗列出来。

鉴于知乎编辑器会随着字数增多而变卡。。。我决定在文末就贴上链接了~

2019-10-27

前言

矩阵是一个工具，

它可以描述的东西有很多，比如

线性变换
线性方程（很多教材都是从这里开始写矩阵的）
用于表示一些代数
排列数（permutation）
可达性（图论）
以及很多应用上，比如层次分析法中的比较矩阵、神经网络中数据传递的过程等等

要知道，人并不能直接看到抽象的事物（就好比说变换、方程、代数等等），必须要用一些具体的表现工具将其刻画出来。而矩阵就是其中的一个工具（其实还有其他对线性变换的刻画）。

个人对变换的理解比较多，所以我打算先从变换的角度来写写矩阵乘积。

然后再说说方程的，和排列数意义下的矩阵乘法本质。

目录(带*表示非重点)

线性变换
向量内积——解释矩阵乘法
*傅里叶变换
变换意义下的本质
方程意义下的本质
排列数意义下的本质

什么是线性变换？

对于一个变换（对于抽象东西，索性先用符号来表示吧），找两个向量，它满足可加性与齐次性

然后矩阵可以很清晰地刻画这种变换。为什么这么说？

通过齐次性能够发现，对于一条线上的子空间所有向量经过变换后的结果，只与该空间的单位向量差一个系数。

这也就是说，如果想要真正具体地描述一个线性变换，只需要分别知道：每个维度上单位向量经过线性变换后的结果。然后用由单位向量得到的“结果”来刻画整个变化。

比如说：

在3维空间中，很容易想到就只有三个坐标轴，比如说，你想把x轴投射到y轴，y轴投射到z轴，z轴投射到x轴（长度不变）这一变换。

那么就需要，让x轴出现在y'轴的位置，y轴出现在z'轴的位置，z轴出现在x'轴的位置。

即一个排列组合就成为这样的矩阵，将左边三个向量都横过来，然后第一个向量摆在第一行，第二个向量摆在第二行，第三个向量摆在第三行。

那么，这三个向量怎么得来的？矩阵怎么得到的？

这就应该说说内积了——从内积解释相乘

从高中开始接触内积，好像很多人只知道内积是两个向量对应分量相乘再求和。实际上，它是由坐标中的余弦定理得到的。

像对上图的向量根据余弦定理，能够得到 A的余弦值等式的右上角的那个就被定义为内积。

能够看出有了内积，就有了长度对角度的刻画。从而长度与角度在坐标意义上是一回事了。（以前想要测量边和角需要量角器和尺子，现在干脆只用尺子了）这也意味着对于一些变换的刻画，不在需要对长度和角度之类的量进行赘述（比如先向东走50m，再左拐....），借助内积直接用坐标去刻画两者变换。

当然，求出角并非是重点，而是得到的余弦值。因为根据余弦函数的定义，能够发现，向量模长乘上一个余弦值等于该向量朝另一个向量做投影后的长度。

从图中能够发现，可以表示在 “心中”的地位。

定义（内积的矩阵表示） 设为两个的矩阵所表示的向量，则其内积为

对于变换来讲，实际上相当于将旧空间的事物用新空间的坐标来表达。

也就是说，要想求得新空间的坐标，那就需要将：旧空间的坐标分别与新空间的坐标一一做内积，得到旧空间坐标的新空间表示。（这里表述可能有些歧义，对于，其实没有改变空间，准确来说，就是用新的基来表示旧的基）

换成矩阵来将，就是

假设旧空间坐标基为，新空间的基为，相应的变换为

其中T表示转置（transposition）。又可以写为

在做相乘的时候，是可以看作右边每一列的列向量同时与左边矩阵的三个行向量作内积，先后得到三个新的列向量。

额外插个别话题——傅里叶变换

其实可以函数看作是一个向量的，只不过分量无法一一地列出来。

两个函数相乘相当于是向量对应分量相乘，那么积分步就相当于进行求和了吗（从定义上来看，积分可看作将不可列的分量转变成可列的分量再进行对应相乘求和的过程）？这不就成了函数的内积了吗？

看看傅里叶变换公式：

有木有发现，这就是函数与做内积？（也就是朝着这个坐标轴做投影）

后面那个e这一项表示什么意思？其实它可以写成也就是说，将朝着不同频率的正余弦函数做内积，将该函数在“振幅-时间”空间中投射到“频率-振幅”空间中。

这两个空间分别对应着响亮而又文雅的名字，一个叫时域，一个叫频域。

那这玩意根哪里出现矩阵了？

可以这么来看，将按定义域进行有限等距分割（假设只在不为零，那么变换就相当于成了），分别取分割后每个区间中任意一个数，即于是能够得到向量 ( 矩阵)

那另一个矩阵呢，假设，你想知道它五个频率（）的振幅分别是多少，于是乎，积分里面第二个函数就可以写成如下矩阵形式

于是乎，得到变换后的向量为

当然，“割之弥细，失之弥少，割之又割，一致于不可割，则与圆合体而无所失也。"（刘徽）只要前面对区间的分割约细致，则变换后损失的信息越少。

矩阵乘法的本质

人类无法直接观察到速度的存在，所以用一段时间后相对于起点的终点进行刻画；

亦如，

你我无法洞察到事物变化，所以就要用基本状态变化后的结果来进行刻画。

这种基本状态用矩阵来刻画，那就是——单位矩阵

它就是在描述一个变化的最原始状态。你想任何向量左乘上单位矩阵貌似都没有任何变化吧？所以空间中的“基本状态”就拿这个单位矩阵下手了~

就拿旋转矩阵来说，（用二维的比较方便，因为三维的旋转就是二维旋转+一个单位向量）

如果将基看作是变化的，那么矩阵相乘就是将空间进行变换，

如果将基看作是固定的，那么矩阵相乘就是将空间中的对象进行变换。

就如图中向量

其中，把看作旋转后的，看作旋转后的（后面分别记为）

就是原先坐标轴逆时针旋转后的结果。

如何求得旋转矩阵？

首先要知道旋转后，x轴变换后（向量）横纵坐标为 ,

y轴变换后（向量）对应的横纵坐标为

将两者分别取转置，再合并到一个矩阵中，就是上面的旋转矩阵啦~

再简单说说方程上的意义

其实用方程的眼光来看，矩阵2左乘矩阵1，相当于将矩阵1所对应的方程进行换元，再带入到矩阵2所对应的方程之中。

其实这也好理解，在初中学平面直角坐标系时，老师就说过这样的数学思想——数形结合。

坐标系揭示代数方程与几何空间的联系。

就拿二元线性方程组来说

如果再来一个矩阵左乘上面的矩阵

就相当于将开始的那个方程作如下换元，

进而变成

的亚子~~

所以从这一点来看，矩阵相乘即能够刻画空间变化/坐标变换，也可以刻画方程换元。那么，空间/坐标变换在某种意义上和方程的还原是一回事了~

再说说矩阵所表示的排列数~

如上图所示，圆上一共有五个位置，假如给出五个数分别赋给上面五个点（来表示对五个位置的重新排列），每个点只能有一个数。那么一共有多少种排列方式方式？

答案是5！种。

比如以此类推。

但是这样标记很复杂，那就将其写成矩阵：

矩阵横向位置表示原先的位置，纵向位置表示排列后的位置。

将矩阵（原先的位置，现在的位置）=1

则上面那个用矩阵来描述，就是

（其实相当于没有进行任何改变。）

如果把上图所有点的位置逆时针平移一个位置，则相应矩阵为

此时都应该猜出来：就是得到两种变换叠加到的结果。（例如逆时针旋转一个）

通过计算能够发现： 两次逆时针平移一个单位=一次逆时针平移两个单位。

按照该矩阵定义能够发现，在相乘的过程种，会将原先排列点所在位置，放置到左乘矩阵种相应点不为0的位置处。

我想要说的差不多就这些了。丘维声的高等代数里说（大概意思，具体的忘了在哪一页了。。），矩阵在一开始是为了简化数据的书写，忽略其复杂的格式，将数据清晰条理地展现出来。

单纯来看矩阵，其实就是一种书写手法，正是赋予了相应地运算，才能够使其具有一定地表现力

为何说是赋予一种运算？难道说还有其他的运算吗？当然，

除了一般高等代数/线性代数中常说的矩阵积，还有Hadmard积、Kronecker积。但后两者就不是一般意义下的矩阵积了。

类似的话题

矩阵乘法的本质是什么？

矩阵乘法啊，这东西看着挺唬人的，一堆数字排排坐，然后又是乘又是加的，但你仔细琢磨琢磨，它其实也没那么神秘。我跟你说，这玩意儿的本质，其实就是把一种“变换”或者“映射”给串联起来了。你想想，一个向量，扔给一个矩阵，矩阵就能把它变成另一个向量。这就好比你有一台机器，输入一个零件，机器就能把它加工成另一个.............
怎样解释矩阵乘法的不可交换性？

矩阵乘法的不可交换性是线性代数中最基本也是最重要的一条性质之一。简单来说，它意味着：对于两个矩阵 A 和 B，一般情况下，A 乘以 B (AB) 的结果与 B 乘以 A (BA) 的结果是不同的，甚至可能无法进行计算。我们通常用数学语言来表达这一点：对于矩阵 A 和 B，通常情况下 $AB eq .............
为什么秩为1的矩阵可以写成1列乘1行的情形呢？

这是一个非常好的问题，它触及了线性代数中关于矩阵秩的核心概念。简单来说，秩为1的矩阵之所以可以写成一个列向量乘以一个行向量的形式，是因为它的所有行（或所有列）都只是第一个行（或第一个列）向量的倍数，也就是说，它们都具有相同的“方向”，只是尺度不同。下面我们来详细解释这个过程：1. 矩阵的秩（Rank.............
矩形的面积等于长乘以宽，为什么？

矩形的面积等于长乘以宽这个看似简单的数学事实，背后其实蕴含着深刻的几何意义和一种称为“度量”的概念。我们来详细地解释一下为什么是这样。1. 理解“面积”首先，我们需要理解“面积”是什么。在二维几何中，面积是描述一个平面区域大小的量。我们可以想象用一些“单位”来填充这个区域，然后数一下有多少个单位。2.............
为什么矩形面积等于长乘宽？

矩形面积等于长乘以宽，这个我们从小就接触的概念，其实背后有着非常深刻的几何意义和逻辑推理。要详细解释“为什么”，我们可以从多个角度来理解：1. 最直观的理解：单位正方形的堆叠想象一下，我们要计算一个长为 $L$ 单位、宽为 $W$ 单位的矩形区域。单位正方形：我们先定义一个最基本的面积单位—.............
矩阵低秩的意义?

矩阵的低秩，这可不是个冷冰冰的数学概念，它藏着很多故事，能 tells us about the essence of data, about redundancy, and about how we can simplify complex things without losing too mu.............
矩阵的指数函数到底说的是个啥？

我来跟你聊聊矩阵的指数函数，这个东西听起来挺玄乎，但其实它在数学和物理领域里扮演着非常重要的角色。就像我们熟悉的数字的指数函数 $e^x$ 一样，它能描述很多连续变化的现象，比如增长、衰减等等。矩阵的指数函数 $e^A$ 则是把这个概念拓展到了矩阵上，让我们可以用它来研究一些更复杂、多维度的动态系统.............
矩阵的本质是什么？

矩阵，这看似由数字组成的方块，实则承载着数学世界中深邃的逻辑与力量。它并非只是一个抽象的概念，而是我们理解和操纵现实世界中复杂关系的一个强大工具。要理解矩阵的本质，我们需要从它的根源和应用两个层面去深入探究。追根溯源：解决线性方程组的“利器”矩阵最早的出现，很大程度上是为了解决线性方程组问题。想象一.............
矩阵论什么好的书籍推荐？

好的，关于矩阵论的好书推荐，这绝对是个值得好好说道说道的话题。不同于很多学科，矩阵论的经典之作往往经得起时间的考验，而且深入浅出的程度，往往是衡量一本书是否够“好”的重要标尺。我个人在学习和研究矩阵论的过程中，也翻阅了不少书籍，踩过不少坑，也找到了一些真正能够带你入门、带你深入的宝藏。在推荐之前，我.............
矩阵的逆对应于线性变换的逆变换，那么矩阵的转置对应于线性变换的什么？

矩阵的逆运算确实对应于线性变换的逆过程，也就是将变换后的向量还原回原始向量。那么，矩阵的转置在几何变换的语境下又意味着什么呢？这可不是一个简单的“反向”对应，而是一种与原变换密切相关的、但又有所不同的变换。要理解矩阵转置对应的线性变换，我们需要先回忆一下矩阵是如何表示线性变换的。一个 $m ime.............
矩阵相乘的变换为什么总会伴随“颠倒”顺序？

在理解矩阵相乘的“颠倒顺序”之前，咱们得先明白矩阵本身到底是什么，以及它在数学里扮演的角色。别把它想得太复杂，就当它是一个装数字的“表格”或者“阵列”就行了。但这个表格可不是随便乱放数字的，它其实代表着一种“变换”，一种对空间或者向量进行的操作。想象一下，你有一张纸，上面画着一个坐标系，红色的X轴，.............
矩阵P和矩阵Q的秩相等为t，那么拼在一起的矩阵(P,Q)的秩是否为t？为什么？

这个问题很有意思，涉及到矩阵秩的基本概念和性质。直接告诉你答案：不一定相等。让我详细地解释一下原因。首先，我们来回顾一下什么是矩阵的“秩”。矩阵的秩（Rank）矩阵的秩，可以从几个不同的角度去理解，这些理解是等价的：1. 线性无关的行（或列）向量的最大个数：这是一个最直观的定义。一个矩阵的秩就是.............
矩阵链相乘的时间复杂度为什么末尾是dn呢，是那么算的呢？

矩阵链相乘，这个听起来有点技术性的名字，其实描绘的是一个我们日常生活中可能经常遇到的问题，只不过我们换了个方式来思考它。想象一下，你有好几个大小不一的矩阵要一个接一个地乘起来，比如 A B C D。你可能会问，这有什么难的？直接从左往右乘不就行了吗？问题就出在这个“直接”上面。矩阵乘法有个特性.............
矩阵的可交换性有什么几何意义吗？

矩阵的可交换性，即 $AB = BA$，虽然在代数层面上是一个简单的等式，但其背后却有着深刻的几何意义。它揭示了两个线性变换在作用于向量时，其执行顺序的无关紧性。更具体地说，它意味着这两个变换以一种不冲突、不相互干扰的方式独立地改变向量的空间。为了详细解释这一点，我们首先需要回顾一下矩阵和线性变换之.............
矩阵的严格定义是什么？行向量与列向量通过矩阵来定义真的合理吗？

好的，我们来深入探讨矩阵的严格定义以及它与行向量、列向量的关系。矩阵的严格定义在现代数学中，矩阵最严格、最基础的定义是：一个 $m imes n$ 的矩阵是一个由 $m$ 行 $n$ 列的实数（或复数，或更一般的域中的元素）构成的矩形数组。让我们逐一拆解这个定义中的关键概念：数组 (Arr.............
矩阵特征值与矩阵本身的关系是什么？

矩阵的特征值和特征向量是描述矩阵最核心、最深刻的性质之一，它们揭示了矩阵在空间变换中的“内在尺度”和“方向”。可以说，特征值和特征向量就是矩阵“最本质”的描述。下面我们将从多个角度详细阐述矩阵特征值与矩阵本身的关系： 1. 定义与直观理解定义：对于一个方阵 $A$（$n imes n$ 矩阵），如.............
矩阵最小多项式的几何意义是什么?

矩阵最小多项式的几何意义，用最精炼的话来说，它描述了一个线性变换在某个向量上的“最简单”的行为模式，或者说，是在该向量作用下，能够使得该向量变为零向量的最低次数的“多项式关联”。为了更详细地解释这一点，我们需要分解成几个关键部分：1. 线性变换与向量首先，我们要理解矩阵的本质是表示一个线性变换。一个.............
矩阵思维是什么意思？

矩阵思维，顾名思义，就是一种像矩阵一样去思考问题的方式。你想啊，矩阵是什么？它是一张网，一个二维的结构，里面有行有列，每个位置上的数字（或者说是信息）都有其特定的位置和相互关系。矩阵思维就是把我们面对的复杂问题，拆解成这样一张网，然后在这个网格里分析、归纳、提炼，最终找到解决问题的关键点。那具体是怎.............
矩阵A和矩阵B相乘，AxB为什么不等于BxA？

你这个问题提得非常好，这触及了矩阵乘法最核心的特性之一。简单来说，矩阵乘法不具备交换律，也就是说，通常情况下，AxB ≠ BxA。这和我们熟悉的普通数字乘法（比如 2x3 = 3x2）有很大的不同。为什么会这样呢？咱们得从矩阵乘法的定义说起。矩阵乘法的定义：怎么乘的？假设我们有两个矩阵：矩阵.............
《黑客帝国：矩阵重生》9 月 9 日发布首支预告，预告里透露了哪些值得注意的信息？

《黑客帝国：矩阵重生》这部时隔近二十年回归的续作，在 9 月 9 日发布了首支预告片，瞬间点燃了全球影迷的热情。预告片中包含的信息量着实不小，也为我们揭示了不少关于这部作品的新线索。咱们就来好好掰扯掰扯，看看这支预告里到底藏着多少值得我们玩味的东西。首先，最直观也最让人激动的就是熟悉的场景与角色的.............