当然,这其中的缘由,还得从矩阵的本质,以及它在数学变换中所扮演的角色说起。我们一点点地来捋清楚。
1. 矩阵与线性变换:一个“几何”的视角
首先,我们要明白,一个方阵,比如 $n imes n$ 的矩阵 $A$,它在本质上代表了一个从 $n$ 维空间到自身的一种线性变换。你可以想象,任何一个 $n$ 维向量 $x$,当它乘以矩阵 $A$ 时,就变成了一个新的向量 $y = Ax$。这个过程,就像是把空间里的每个点都进行了一次“拉伸”、“旋转”、“镜像”等等操作,但关键是,这个操作是线性的,也就是说,直线经过变换后仍然是直线,原点保持不变。
2. 特征向量与特征值:变换中的“不变方向”
现在,我们来看特征向量和特征值。当一个向量 $x$ 经过矩阵 $A$ 的变换,得到 $Ax$ 时,它可能会改变方向。但是,对于某些特殊的向量,它们在经过矩阵 $A$ 变换后,方向不变,只是长度发生了缩放。
数学上,我们把这些方向不变的非零向量称为矩阵 $A$ 的特征向量 (eigenvector),而那个用来缩放的比例因子,就是对应的特征值 (eigenvalue),记作 $lambda$。
所以,特征向量和特征值的关系可以写成一个非常简洁的方程:
$Ax = lambda x$
这里,$A$ 是矩阵,$x$ 是特征向量,$lambda$ 是特征值。这个方程的意思就是:将向量 $x$ 乘以矩阵 $A$ 的结果,跟将向量 $x$ 乘以一个标量 $lambda$ 的结果是完全一样的。向量 $x$ 的方向没有改变,只是被 $lambda$ 这个数“拉伸”或“压缩”了。
3. 为什么是“迹”?
那么,特征值之和怎么就跟矩阵的“迹”(trace)扯上关系了呢?“迹”呢,就是矩阵对角线上所有元素的和。比如,一个 $3 imes 3$ 的矩阵:
$A = egin{pmatrix} a_{11} & a_{12} & a_{13} \ a_{21} & a_{22} & a_{23} \ a_{31} & a_{32} & a_{33} end{pmatrix}$
它的迹就是 $ ext{tr}(A) = a_{11} + a_{22} + a_{33}$。
要理解这个联系,我们可以从特征方程入手。
我们把 $Ax = lambda x$ 稍微变形一下:
$Ax lambda x = 0$
$Ax lambda Ix = 0$ (这里 $I$ 是单位矩阵,因为 $lambda x = lambda Ix$)
$(A lambda I)x = 0$
对于这个方程,我们知道 $x$ 是非零向量。如果一个矩阵乘以一个非零向量等于零向量,那么这个矩阵一定是奇异矩阵,也就是说,它的行列式为零。
所以,我们就有:
$det(A lambda I) = 0$
这个方程被称为矩阵 $A$ 的特征方程。展开这个行列式,我们会得到一个关于 $lambda$ 的多项式,这个多项式被称为矩阵 $A$ 的特征多项式。
对于一个 $n imes n$ 的矩阵 $A$,它的特征多项式是一个 $n$ 次多项式,形如:
$P(lambda) = det(A lambda I) = (lambda)^n + c_{n1} (lambda)^{n1} + dots + c_1 (lambda) + c_0 = 0$
根据代数基本定理,这个 $n$ 次多项式有 $n$ 个根(允许复数根,并且可能重根)。这些根,就是矩阵 $A$ 的 $n$ 个特征值,我们记作 $lambda_1, lambda_2, dots, lambda_n$。
4. 利用韦达定理建立联系
现在,关键的一步来了。回忆一下韦达定理。对于一个多项式 $a_n x^n + a_{n1} x^{n1} + dots + a_1 x + a_0 = 0$,其根为 $r_1, r_2, dots, r_n$,韦达定理告诉我们:
根的和:$r_1 + r_2 + dots + r_n = frac{a_{n1}}{a_n}$
根的积:$r_1 r_2 dots r_n = (1)^n frac{a_0}{a_n}$
我们回到矩阵的特征多项式 $P(lambda) = det(A lambda I)$。
让我们来看看这个多项式的最高次项和次高次项是什么。
对于 $A = egin{pmatrix} a_{11} & a_{12} \ a_{21} & a_{22} end{pmatrix}$ 来说,
$A lambda I = egin{pmatrix} a_{11}lambda & a_{12} \ a_{21} & a_{22}lambda end{pmatrix}$
$det(A lambda I) = (a_{11}lambda)(a_{22}lambda) a_{12}a_{21}$
$= a_{11}a_{22} a_{11}lambda a_{22}lambda + lambda^2 a_{12}a_{21}$
$= lambda^2 (a_{11} + a_{22})lambda + (a_{11}a_{22} a_{12}a_{21})$
这是一个关于 $lambda$ 的二次多项式。
最高次项是 $lambda^2$(系数为 $1$)。
次高次项是 $(a_{11} + a_{22})lambda$(系数为 $(a_{11} + a_{22})$)。
注意到 $a_{11} + a_{22}$ 正是矩阵 $A$ 的迹 $ ext{tr}(A)$。
对于一般的 $n imes n$ 矩阵 $A$,它的特征多项式 $det(A lambda I)$ 展开后,最高次项是 $(lambda)^n$,而次高次项的系数是 $(1)^{n1} ext{tr}(A)$。
严谨地证明这一点的关键在于理解 $det(A lambda I)$ 的展开。
$det(A lambda I)$ 的定义是所有排列下项的乘积。
$det(M) = sum_{sigma in S_n} ext{sgn}(sigma) prod_{i=1}^n m_{i, sigma(i)}$
这里 $M = A lambda I$,所以 $m_{ij} = a_{ij} lambda delta_{ij}$,其中 $delta_{ij}$ 是克罗内克符号(当 $i=j$ 时为 $1$,否则为 $0$)。
考虑 $det(A lambda I)$ 的展开:
$det(A lambda I) = sum_{sigma in S_n} ext{sgn}(sigma) prod_{i=1}^n (a_{i, sigma(i)} lambda delta_{i, sigma(i)})$
最高次项 $(lambda)^n$:
要得到 $(lambda)^n$,我们需要在乘积 $prod_{i=1}^n (a_{i, sigma(i)} lambda delta_{i, sigma(i)})$ 中,每一项都选取 $lambda delta_{i, sigma(i)}$。这只有当 $sigma$ 是恒等置换 ($sigma(i) = i$ 对所有 $i$) 时才可能,此时 $ ext{sgn}(sigma) = 1$。
当 $sigma$ 是恒等置换时,乘积是 $(a_{11} lambda)(a_{22} lambda) dots (a_{nn} lambda)$。
展开这个乘积,最高次项是 $(lambda)^n$,系数是 $1$。
为什么只有恒等置换能贡献 $lambda^n$?因为一旦 $sigma$ 不是恒等置换,就存在至少一个 $i$ 使得 $sigma(i)
eq i$。在这种情况下,$delta_{i, sigma(i)} = 0$,所以该项 $(a_{i, sigma(i)} lambda delta_{i, sigma(i)})$ 就是 $a_{i, sigma(i)}$,它不含 $lambda$。要得到 $(lambda)^n$,必须从 $n$ 个因子中都取出含 $lambda$ 的项,这只有当 $sigma(i)=i$ 对所有 $i$ 时才能做到,即 $sigma$ 为恒等置换。
次高次项 $(lambda)^{n1}$:
要得到 $(lambda)^{n1}$,我们需要在乘积 $prod_{i=1}^n (a_{i, sigma(i)} lambda delta_{i, sigma(i)})$ 中,有 $n1$ 个因子取出 $lambda$,而有一个因子取出 $a_{i, sigma(i)}$。
这要求 $sigma$ 只能与恒等置换“非常接近”。
我们再次考虑 $prod_{i=1}^n (a_{i, sigma(i)} lambda delta_{i, sigma(i)})$。
要得到 $(lambda)^{n1}$,我们实际上需要从 $n$ 个 $(a_{i, sigma(i)} lambda delta_{i, sigma(i)})$ 因子中,有 $n1$ 个取出 $lambda delta_{i, sigma(i)}$,还有一个取出 $a_{i, sigma(i)}$。
这意味着,对于 $n1$ 个 $i$,我们必须有 $sigma(i) = i$ 且 $delta_{i, sigma(i)}=1$,而对于另外一个 $j$,我们 $sigma(j)
eq j$ 且 $delta_{j, sigma(j)}=0$,并且我们从 $(a_{j, sigma(j)} lambda delta_{j, sigma(j)})$ 中取出 $a_{j, sigma(j)}$。
但是,这种形式的贡献,当 $sigma$ 不是恒等置换时,最终展开后的 $lambda$ 的幂次最多是 $n2$。
让我们换个角度思考,更直接地看 $det(A lambda I)$ 的展开。
$det(A lambda I) = sum_{sigma in S_n} ext{sgn}(sigma) prod_{i=1}^n m_{i, sigma(i)}$
$m_{i, sigma(i)} = a_{i, sigma(i)} lambda delta_{i, sigma(i)}$
当 $sigma$ 是恒等置换 ($sigma(i)=i$ for all $i$) 时,贡献是 $prod_{i=1}^n (a_{ii} lambda) = (a_{11}lambda)(a_{22}lambda)dots(a_{nn}lambda)$.
展开这个式子,我们得到:
$(1)^n lambda^n + (1)^{n1}(a_{11}+a_{22}+dots+a_{nn})lambda^{n1} + dots$
$= (lambda)^n + (lambda)^{n1} ext{tr}(A) + dots$
现在考虑 $sigma$ 不是恒等置换的情况。
如果 $sigma$ 不是恒等置换,那么至少存在一个 $i$ 使得 $sigma(i)
eq i$。
对于这个 $i$,$delta_{i, sigma(i)} = 0$,所以 $m_{i, sigma(i)} = a_{i, sigma(i)}$。
在乘积 $prod_{i=1}^n m_{i, sigma(i)}$ 中,至少有一个因子 $m_{i, sigma(i)}$ 不含 $lambda$。
因此,对于非恒等置换 $sigma$, $ ext{sgn}(sigma) prod_{i=1}^n m_{i, sigma(i)}$ 这一项中 $lambda$ 的最高幂次小于 $n1$。
具体来说,任何非恒等置换 $sigma$ 都可以分解成若干个不相交的轮换。如果 $sigma$ 不是恒等置换,那么至少存在一个轮换的长度大于 1。
考虑一个 $k$ 轮换 $(i_1, i_2, dots, i_k)$。这个轮换中的元素 $j$ 满足 $sigma(j)
eq j$。
对于 $sigma$ 的展开 $prod_{i=1}^n (a_{i, sigma(i)} lambda delta_{i, sigma(i)})$,如果 $sigma$ 不是恒等置换,那么一定存在一个 $i$ 使得 $sigma(i)
eq i$。对于这个 $i$, $delta_{i, sigma(i)} = 0$,所以 $m_{i, sigma(i)} = a_{i, sigma(i)}$。
那么,乘积 $prod_{i=1}^n m_{i, sigma(i)}$ 的 $lambda$ 的次数是多少呢?
要得到 $lambda^k$,我们必须从 $k$ 个因子中选择 $lambda delta_{i, sigma(i)}$,其余 $nk$ 个因子选择 $a_{i, sigma(i)}$。
对于非恒等置换 $sigma$ 来说,它至少有一个 $i$ 使得 $sigma(i)
eq i$。对于这个 $i$, $delta_{i, sigma(i)} = 0$。所以 $m_{i, sigma(i)} = a_{i, sigma(i)}$。
因此,对于非恒等置换 $sigma$,乘积 $prod_{i=1}^n m_{i, sigma(i)}$ 中, $lambda$ 的幂次最多是 $n1$(当 $sigma$ 是一个交换两个元素的置换,即一个 2轮换,而其他 $n2$ 个元素是不动的)。
事实上,更严谨的说法是:
$det(A lambda I)$ 的特征多项式是
$(1)^n lambda^n + (1)^{n1} ext{tr}(A) lambda^{n1} + dots + det(A)$
证明这个事实的关键在于利用行列式的莱布尼茨公式:
$det(M) = sum_{sigma in S_n} ext{sgn}(sigma) prod_{i=1}^n m_{i, sigma(i)}$
令 $M = A lambda I$。
$det(A lambda I) = sum_{sigma in S_n} ext{sgn}(sigma) prod_{i=1}^n (a_{i, sigma(i)} lambda delta_{i, sigma(i)})$
$(lambda)^n$ 的项: 仅当 $sigma$ 是恒等置换时,$sigma(i)=i$ 对所有 $i$ 成立。此时 $delta_{i, sigma(i)} = 1$。该项为 $ ext{sgn}(id) prod_{i=1}^n (a_{ii} lambda) = prod_{i=1}^n (a_{ii} lambda) = (lambda)^n + (lambda)^{n1} sum a_{ii} + dots$。
$(lambda)^{n1}$ 的项: 要得到 $(lambda)^{n1}$,我们需要在乘积 $prod_{i=1}^n (a_{i, sigma(i)} lambda delta_{i, sigma(i)})$ 中,有 $n1$ 个因子选择 $lambda delta_{i, sigma(i)}$,一个因子选择 $a_{i, sigma(i)}$。
这种情况发生当且仅当 $sigma$ 是一个对换(交换两个元素,其他元素不变)。
假设 $sigma$ 是交换 $k$ 和 $l$ ($k
eq l$),即 $sigma(k)=l, sigma(l)=k$, $sigma(i)=i$ for $i
eq k, l$。
那么 $prod_{i=1}^n (a_{i, sigma(i)} lambda delta_{i, sigma(i)}) = (a_{k,l} lambda delta_{k,l}) (a_{l,k} lambda delta_{l,k}) prod_{i
eq k,l} (a_{ii} lambda delta_{ii})$
由于 $delta_{k,l}=0$ 且 $delta_{l,k}=0$ (因为 $k
eq l$),此式为 $a_{kl} a_{lk} prod_{i
eq k,l} (a_{ii} lambda)$。
这一项不含 $lambda$ 因子,或者说 $lambda$ 的次数为 $n2$ (由 $prod_{i
eq k,l} (a_{ii} lambda)$ 贡献)。
我之前的理解有点偏差,此处需要更精确的展开。
正确的思考方式是:
特征多项式 $P(lambda) = det(A lambda I)$。
$P(lambda)$ 是一个关于 $lambda$ 的多项式。
$P(lambda) = c_n lambda^n + c_{n1} lambda^{n1} + dots + c_1 lambda + c_0$
我们知道 $c_n = (1)^n$。
我们也知道 $c_0 = P(0) = det(A 0I) = det(A)$。
现在我们聚焦于 $c_{n1}$,即 $lambda^{n1}$ 的系数。
Consider $det(A lambda I)$.
Let $B = A lambda I$.
$det(B) = sum_{sigma in S_n} ext{sgn}(sigma) prod_{i=1}^n B_{i, sigma(i)}$
$det(A lambda I) = sum_{sigma in S_n} ext{sgn}(sigma) prod_{i=1}^n (a_{i, sigma(i)} lambda delta_{i, sigma(i)})$
$lambda^n$ 项:
只有当 $sigma$ 是恒等置换 ($id$) 时, $prod_{i=1}^n (lambda delta_{i,i}) = (lambda)^n$。
所以 $c_n = 1$ (如果写成 $lambda^n$ 的形式)或者 $c_n = (1)^n$ (如果写成 $(lambda)^n$ 的形式)。
$lambda^{n1}$ 项:
我们需要从 $n$ 个因子 $prod_{i=1}^n (a_{i, sigma(i)} lambda delta_{i, sigma(i)})$ 中,选择 $n1$ 个 $lambda$ 因子,一个 $a_{i, sigma(i)}$ 因子。
这要求 $sigma$ 只能在最多一个位置与恒等置换不同。
如果 $sigma$ 是恒等置换,我们已经考虑过了,贡献了 $(lambda)^n$ 和 $(lambda)^{n1} ext{tr}(A)$。
如果 $sigma$ 不是恒等置换,则至少存在一个 $k$ 使得 $sigma(k)
eq k$。
对于这个 $k$, $delta_{k, sigma(k)} = 0$,所以 $a_{k, sigma(k)} lambda delta_{k, sigma(k)} = a_{k, sigma(k)}$。
因此,对于非恒等置换 $sigma$,乘积 $prod_{i=1}^n (a_{i, sigma(i)} lambda delta_{i, sigma(i)})$ 中,$lambda$ 的最高幂次不会超过 $n2$。
为什么?
设 $sigma$ 是一个置换。考虑 $prod_{i=1}^n (a_{i, sigma(i)} lambda delta_{i, sigma(i)})$。
如果 $sigma$ 是恒等置换,则 $sigma(i)=i$ 对所有 $i$, $delta_{i, sigma(i)}=1$。乘积是 $prod_{i=1}^n (a_{ii} lambda)$。
如果 $sigma$ 不是恒等置换,那么至少存在一个 $k$ 使得 $sigma(k)
eq k$。对于这个 $k$,$ delta_{k, sigma(k)} = 0$。
所以,乘积中会包含因子 $a_{k, sigma(k)}$,这个因子不含 $lambda$。
更进一步,我们可以说:
$det(A lambda I)$ 可以被看作是对矩阵 $(A_{ij} lambda delta_{ij})$ 求行列式。
这个展开式中的 $lambda$ 的次数,与置换 $sigma$ 中固定点(即 $sigma(i)=i$)的数量有关。
只有当 $sigma$ 是恒等置换时,所有的 $sigma(i)=i$,贡献了 $n$ 个 $lambda$,得到 $(lambda)^n$。
当 $sigma$ 是一个对换(例如,交换 $i$ 和 $j$,其他不变),它有 $n2$ 个固定点。
在这种情况下,乘积是 $ ext{sgn}(sigma) (a_{ii} lambda)dots(a_{jj} lambda) dots (a_{i,j} lambda delta_{i,j}) (a_{j,i} lambda delta_{j,i}) dots$
因为 $i
eq j$, $delta_{i,j}=0, delta_{j,i}=0$。
乘积是 $ ext{sgn}(sigma) prod_{k
eq i,j} (a_{kk} lambda) cdot a_{i,j} cdot a_{j,i}$。
这个式子中 $lambda$ 的最高次数是 $n2$。
关键在于,$lambda^{n1}$ 的系数只能来自恒等置换的展开!
所以, $det(A lambda I) = (a_{11}lambda)(a_{22}lambda)dots(a_{nn}lambda) + ext{terms of order } lambda^{n2} ext{ or lower}$
$= ((1)^n lambda^n + (1)^{n1} (sum a_{ii}) lambda^{n1} + dots) + ext{terms of order } lambda^{n2} ext{ or lower}$
$= (lambda)^n + (lambda)^{n1} ext{tr}(A) + dots$
特征方程 $P(lambda) = det(A lambda I) = 0$ 的根是 $lambda_1, dots, lambda_n$。
这个多项式可以写成 $P(lambda) = (lambda)^n + (lambda)^{n1} ext{tr}(A) + dots + det(A)$。
或者,如果我们把多项式写成 $P(lambda) = lambda^n + b_{n1} lambda^{n1} + dots + b_0$,那么 $b_{n1} = ext{tr}(A)$。
根据韦达定理,根的和 $lambda_1 + lambda_2 + dots + lambda_n = frac{ ext{coefficient of } lambda^{n1}}{ ext{coefficient of } lambda^n}$。
如果我们的特征多项式写成 $P(lambda) = det(A lambda I) = (lambda)^n + c_{n1} (lambda)^{n1} + dots$
那么 $c_n = 1$, $c_{n1} = ext{tr}(A)$.
根的和 $lambda_1 + dots + lambda_n = frac{c_{n1}}{c_n} = frac{ ext{tr}(A)}{1} = ext{tr}(A)$ (如果这里的系数是 $(lambda)^k$)
让我们重新规范一下特征多项式的定义,通常是以 $lambda$ 为变量,而不是 $lambda$。
更标准的定义是 $det(lambda I A)$。
$det(lambda I A) = det( (A lambda I)) = (1)^n det(A lambda I)$.
如果我们用 $det(lambda I A)$ 作为特征多项式:
$det(lambda I A) = det egin{pmatrix} lambdaa_{11} & a_{12} & dots \ a_{21} & lambdaa_{22} & dots \ vdots & vdots & ddots end{pmatrix}$
展开这个,最高次项是 $lambda^n$ (来自对角线元素的乘积 $(lambdaa_{11})dots(lambdaa_{nn})$)。
$(lambdaa_{11})dots(lambdaa_{nn}) = lambda^n (sum a_{ii}) lambda^{n1} + dots = lambda^n ext{tr}(A) lambda^{n1} + dots$
对于非恒等置换 $sigma$, $prod_{i=1}^n (lambda delta_{i,sigma(i)} a_{i,sigma(i)})$ 中 $lambda$ 的最高次数是 $n2$(因为至少有一个 $sigma(i)
eq i$ 导致 $delta_{i, sigma(i)}=0$)。
所以,特征多项式 $P(lambda) = det(lambda I A) = lambda^n ext{tr}(A) lambda^{n1} + dots + (1)^n det(A)$.
这个多项式的根是 $lambda_1, dots, lambda_n$。
根据韦达定理,根的和 $lambda_1 + dots + lambda_n = frac{ ext{coefficient of } lambda^{n1}}{ ext{coefficient of } lambda^n} = frac{ ext{tr}(A)}{1} = ext{tr}(A)$。
这就是为什么特征值之和等于矩阵的迹!
总结一下这个过程:
1. 理解矩阵的本质: 矩阵代表线性变换。
2. 理解特征值/特征向量: 它们是变换中方向不变的向量及其缩放因子。
3. 建立特征方程: $Ax = lambda x implies (A lambda I)x = 0$。
4. 引入特征多项式: $det(A lambda I) = 0$ 或 $det(lambda I A) = 0$。
5. 分析特征多项式的系数:
使用 $det(lambda I A)$,其形式是 $lambda^n ext{tr}(A) lambda^{n1} + dots$。
利用韦达定理,根(即特征值)的和等于 $frac{ ext{tr}(A)}{1} = ext{tr}(A)$。
这个结论非常深刻,它将矩阵的“代数”属性(迹)与“几何”属性(特征值的和,代表了变换在各个方向上的“平均伸缩”)联系起来了。
希望这次详细的解释能让你满意,也希望没有太多的AI痕迹,更像是老朋友在讨论数学的乐趣。