在线性代数中,非方阵矩阵相乘的几何表示可能不如方阵乘法那样直观和直接。然而,理解其几何意义的关键在于将矩阵乘法分解为一系列的线性变换,并关注这些变换如何影响向量和空间。
核心思想:矩阵乘法代表线性变换的复合
任何矩阵都可以被视为一个线性变换。当两个矩阵相乘时,其几何意义就是将第一个矩阵代表的线性变换应用到第二个矩阵代表的线性变换的“结果”上。换句话说,矩阵乘法是线性变换的复合。
让我们分解一下:
假设我们有两个矩阵:
矩阵 $A$ 是一个 $m imes n$ 的矩阵。
矩阵 $B$ 是一个 $n imes p$ 的矩阵。
它们的乘积 $C = AB$ 是一个 $m imes p$ 的矩阵。为了使乘法有意义,$A$ 的列数必须等于 $B$ 的行数。
从向量的角度理解:
1. 矩阵 $B$ 的作用 (从 $p$ 维空间到 $n$ 维空间):
矩阵 $B$ 是一个 $n imes p$ 的矩阵。我们可以将其视为一个将 $p$ 维向量空间中的向量映射到 $n$ 维向量空间中的向量的线性变换。
想象一下一个 $p$ 维空间。矩阵 $B$ 中的每一列都可以看作是基向量(例如 $e_1, e_2, dots, e_p$)在变换后的图像。
例如,如果 $B$ 是一个 $2 imes 3$ 的矩阵,它将一个 $3$ 维向量映射到一个 $2$ 维向量。矩阵 $B$ 中的每一列向量决定了 $x, y, z$ 轴上的单位向量在变换后的位置。
2. 矩阵 $A$ 的作用 (从 $n$ 维空间到 $m$ 维空间):
矩阵 $A$ 是一个 $m imes n$ 的矩阵。它可以被视为一个将 $n$ 维向量空间中的向量映射到 $m$ 维向量空间中的向量的线性变换。
如果 $A$ 是一个 $3 imes 2$ 的矩阵,它将一个 $2$ 维向量映射到一个 $3$ 维向量。
3. 矩阵乘积 $C = AB$ 的作用 (从 $p$ 维空间到 $m$ 维空间):
矩阵 $C$ 是一个 $m imes p$ 的矩阵。它将一个 $p$ 维向量空间中的向量直接映射到 $m$ 维向量空间中的向量。
从几何上讲,$AB$ 的乘积代表的是先将向量通过 $B$ 进行线性变换,然后再将 $B$ 的输出(一个 $n$ 维向量)通过 $A$ 进行线性变换。这是一个“变换的复合”。
更具体的几何解释:
我们可以通过观察矩阵乘法如何影响基向量来理解其几何表示。
假设我们有一个 $p$ 维空间,其标准基向量是 $e_1, e_2, dots, e_p$。
1. 对 $B$ 的影响:
当我们将矩阵 $B$ 作用于一个 $p$ 维向量 $v in mathbb{R}^p$ 时,$Bv$ 是一个 $n$ 维向量。
$B = [b_1 b_2 dots b_p]$,其中 $b_i$ 是 $B$ 的第 $i$ 列。
$B(c_1 e_1 + c_2 e_2 + dots + c_p e_p) = c_1 b_1 + c_2 b_2 + dots + c_p b_p$。
这表明 $B$ 将 $p$ 维空间的基向量映射到了 $n$ 维空间中的线性组合,这些线性组合的系数由原始向量 $v$ 的分量决定。 $B$ 的列向量定义了 $p$ 维空间中的基向量在 $n$ 维空间中的像。
2. 对 $A$ 的影响:
现在,我们将矩阵 $A$ 作用于 $Bv$,即 $A(Bv)$。这是一个 $m$ 维向量。
$A = egin{pmatrix} a_{11} & dots & a_{1n} \ vdots & ddots & vdots \ a_{m1} & dots & a_{mn} end{pmatrix}$。
如果 $Bv = w in mathbb{R}^n$,那么 $Aw$ 是 $A$ 的行向量与 $w$ 的内积的组合。
$A(Bv) = A(sum_{i=1}^p v_i b_i) = sum_{i=1}^p v_i (Ab_i)$。
这里的 $Ab_i$ 是将矩阵 $A$ 作用于矩阵 $B$ 的第 $i$ 列。换句话说,$Ab_i$ 是 $B$ 的第 $i$ 个“基向量像”在 $A$ 的变换下的像。
3. 乘积 $C=AB$ 的几何意义:
矩阵 $C$ 的第 $j$ 列 $c_j$ 是什么?
$c_j = AB e_j$。
$e_j$ 是 $p$ 维空间的标准基向量(只有第 $j$ 个分量为 1,其余为 0)。
$Be_j$ 是 $B$ 的第 $j$ 列,我们称之为 $b_j$。
所以,$c_j = Ab_j$。
这意味着,矩阵乘积 $C$ 的第 $j$ 列是矩阵 $A$ 将矩阵 $B$ 的第 $j$ 列(也就是 $B$ 对 $e_j$ 的变换结果)变换后的结果。
更进一步,如果我们将 $B$ 视为将 $p$ 个基向量 $e_1, dots, e_p$ 映射到 $n$ 维空间中的向量 $b_1, dots, b_p$,那么 $A$ 就是将这 $p$ 个 $n$ 维向量 $b_1, dots, b_p$ 进一步映射到 $m$ 维空间。
$C$ 的第 $j$ 列就是 $b_j$ 在 $A$ 的变换下的像,即 $Ab_j$。
所以,矩阵 $C$ 的列向量构成了 $p$ 维空间中标准基向量在复合变换 $A circ B$ 下的像。
例子说明:
设 $A$ 是一个 $2 imes 3$ 的矩阵,将三维空间中的向量映射到二维空间。
设 $B$ 是一个 $3 imes 2$ 的矩阵,将二维空间中的向量映射到三维空间。
我们想计算 $AB$,这将是一个 $2 imes 2$ 的矩阵。
从 $p$ 维空间到 $n$ 维空间: $B: mathbb{R}^2 o mathbb{R}^3$
从 $n$ 维空间到 $m$ 维空间: $A: mathbb{R}^3 o mathbb{R}^2$
复合变换: $AB: mathbb{R}^2 o mathbb{R}^2$
假设我们考虑 $B$ 的作用:它将二维空间中的基向量 $e_1 = egin{pmatrix} 1 \ 0 end{pmatrix}$ 和 $e_2 = egin{pmatrix} 0 \ 1 end{pmatrix}$ 分别映射到 $B$ 的第一列 $b_1$ 和第二列 $b_2$(这两个向量都在 $mathbb{R}^3$ 中)。
现在,$A$ 将这三个(不是两个!)三维空间中的基向量 $e_1', e_2', e_3'$ 映射到二维空间中的向量 $a_1, a_2, a_3$。这里的 $e_i'$ 是 $mathbb{R}^3$ 的基向量。
当计算 $AB$ 时,我们关心的是 $p$ 维空间(这里是 $mathbb{R}^2$)的基向量在复合变换下的像。
$AB e_1$:首先,$Be_1 = b_1$($B$ 的第一列,一个 $mathbb{R}^3$ 中的向量)。然后,$A(Be_1) = Ab_1$。这个 $Ab_1$ 是将 $B$ 的第一列(一个 $mathbb{R}^3$ 向量)通过 $A$ 变换后得到的 $mathbb{R}^2$ 向量。它就是 $AB$ 矩阵的第一列。
$AB e_2$:同理,$Be_2 = b_2$($B$ 的第二列)。然后,$A(Be_2) = Ab_2$。这个 $Ab_2$ 是将 $B$ 的第二列通过 $A$ 变换后得到的 $mathbb{R}^2$ 向量。它就是 $AB$ 矩阵的第二列。
所以,$AB = [Ab_1 Ab_2]$,其中 $b_1$ 和 $b_2$ 是 $B$ 的列向量。
关键点总结:
矩阵是线性变换的表示: 任何 $m imes n$ 的矩阵都可以看作是一个将 $mathbb{R}^n$ 映射到 $mathbb{R}^m$ 的线性变换。
矩阵乘法是变换的复合: 如果 $A: mathbb{R}^n o mathbb{R}^m$ 和 $B: mathbb{R}^p o mathbb{R}^n$,那么 $AB: mathbb{R}^p o mathbb{R}^m$ 代表了先应用 $B$,再应用 $A$ 的复合变换。
列向量的像: 乘积矩阵 $C = AB$ 的第 $j$ 列是矩阵 $A$ 将矩阵 $B$ 的第 $j$ 列(即 $B$ 将 $mathbb{R}^p$ 的标准基向量 $e_j$ 映射到的结果)变换后的图像。
几何图形的形变: 如果我们将一个几何图形(比如一个网格或一个区域)看作是大量向量的集合,那么矩阵乘法就描述了整个图形如何经过一系列的形变(拉伸、压缩、旋转、剪切、投影等),最终从一个 $p$ 维空间被映射到另一个 $m$ 维空间。
为什么非方阵乘法有时感觉“不直观”?
维度变化: 非方阵乘法通常意味着输入空间和输出空间的维度是不同的。这导致我们无法像方阵乘法那样,将变换直接理解为在一个固定维度的空间内的形变(例如,在一个平面上的旋转或缩放)。例如,一个 $2 imes 3$ 的矩阵将一个三维空间中的立方体“压扁”到一个二维平面上,这可能导致信息的丢失(例如,无法区分在不同深度上的点)。
空间之间的映射: 非方阵乘法是不同维度空间之间的映射,而方阵乘法是同一维度空间内的变换。我们将一个向量从一个空间“投射”或“映射”到另一个空间,然后在这个新空间中再进行变换。
总结来说, 非方阵矩阵相乘的几何表示是通过一系列线性变换来理解的:首先将输入向量通过第一个矩阵(右边的矩阵 $B$)进行变换,将其映射到一个中间维度的空间,然后将这个中间结果通过第二个矩阵(左边的矩阵 $A$)进行变换,最终映射到输出维度的空间。乘积矩阵的列向量揭示了输入空间基向量在整个复合变换下的最终位置。