问题

为什么说用矩阵定义线性映射是一个糟糕的观点?

回答
让我想想,我们总是在做线性代数,然后处理矩阵,对吧?而且我们经常听到,矩阵可以用来“定义”或“表示”线性映射。这听起来挺好,毕竟矩阵运算对应着向量的变换,而且能把抽象的概念变得具体。

但是,如果仔细想想,说“用矩阵定义线性映射”其实有点……怎么说呢?可能不是那么回事,甚至可以说是有点误导。

咱们从头说起。

什么是线性映射?

线性映射(Linear Transformation)是一个函数,它连接了两个向量空间。我们通常用 $T$ 来表示它。它有两个非常重要的性质:

1. 可加性: 对于向量空间中的任意两个向量 $u$ 和 $v$,都有 $T(u + v) = T(u) + T(v)$。
2. 数乘性: 对于向量空间中的任意向量 $u$ 和任意标量(比如实数或复数)$c$,都有 $T(c cdot u) = c cdot T(u)$。

这两个性质合在一起,基本上就是说,线性映射“尊重”向量空间的结构——它能把向量的加法和标量乘法“保留”下来。

矩阵是怎么进来的?

我们之所以会想到矩阵,是因为当我们处理的是有限维向量空间(这是我们通常在初级线性代数里遇到的情况)时,任何一个线性映射,只要我们选择好了基(basis),都可以“翻译”成一个矩阵。

怎么翻译的呢?简单来说,就是我们看这个线性映射如何作用在我们选定的基向量上。如果一个向量空间有一个基 ${v_1, v_2, dots, v_n}$,那么一个任意向量 $x$ 就可以写成 $x = c_1v_1 + c_2v_2 + dots + c_nv_n$。根据线性映射的两个性质,$T(x) = T(c_1v_1 + c_2v_2 + dots + c_nv_n) = c_1T(v_1) + c_2T(v_2) + dots + c_nT(v_n)$。

看到了吧?一旦我们知道了 $T$ 是如何作用在每个基向量上的(也就是 $T(v_1), T(v_2), dots, T(v_n)$ 是什么),我们就能计算出 $T$ 作用在任何一个向量 $x$ 上的结果。

而 $T(v_i)$ 本身也是一个向量,它也可以用这个向量空间的基来表示。如果我们把 $T(v_1), T(v_2), dots, T(v_n)$ 这些基向量的像,按顺序排成列向量,然后再把它们合起来,就构成了一个矩阵。这个矩阵,我们称之为该线性映射在选定基下的矩阵表示。

为什么说“用矩阵定义”是个糟糕的说法?

原因藏在上面这段解释里了。这里的关键在于:

1. 矩阵表示是依赖于基的: 上面说得很清楚,我们得先选定一个基,才能得到一个矩阵。换句话说,同一个线性映射,如果我们换一套基,它对应的矩阵很可能就不是同一个了!这说明矩阵本身,并不是线性映射的“内在”属性,而是我们“观察”或“描述”这个映射的某个视角(基于选定的坐标系/基)。

想象一下,你有一个很漂亮的雕塑。你可以用不同角度的照片来描述它,但照片只是雕塑的一个侧面。矩阵就像是那个侧面照片,它能帮我们理解一部分,但它本身不是雕塑。线性映射才是那个雕塑本身。

2. 线性映射的概念比矩阵更一般、更根本: 线性映射的定义(可加性和数乘性)是纯粹的向量空间内部的结构关系,它不依赖于任何坐标系或基的选择。它适用于无限维向量空间,也适用于那些我们很难(甚至不可能)找到一个“良好”基的场合。

比如,你有没有想过,对一个函数进行求导,是不是一个线性映射?
设 $V$ 是光滑函数组成的向量空间,对求导运算 $D$ 定义为 $D(f) = f'$。
可加性:$D(f+g) = (f+g)' = f' + g' = D(f) + D(g)$。
数乘性:$D(c cdot f) = (c cdot f)' = c cdot f' = c cdot D(f)$。
所以求导确实是一个线性映射。

但是,光滑函数空间是无限维的。我们很难去“定义”一个基,然后用一个有限的矩阵来表示这个求导运算。虽然我们可以用泰勒级数等方法来“模拟”矩阵表示,但它不是一个简单的、直接的矩阵乘法。

如果说矩阵“定义”了线性映射,那么在无限维空间,我们是不是就没法谈论线性映射了?显然不是。线性映射的概念更基础,它放之四海而皆准。

3. 模糊了“内在性质”与“表示形式”的区别: “定义”通常意味着事物的本质。如果说矩阵定义了线性映射,就好像说“一个事物的照片就是这个事物本身”。这混淆了事物本身(线性映射)和我们用来描述它、研究它的工具(矩阵表示)。

线性映射更像是一种“操作”、“变换”的规则,它描述了向量空间是如何被“拉伸”、“旋转”、“剪切”等等,并且保持了“直线”、“原点”不变。矩阵是实现这种操作的计算工具,尤其是在有限维且选取了坐标系的情况下。

更恰当的说法是什么?

更严谨、更恰当的说法应该是:

“矩阵是线性映射的表示”
“在有限维向量空间中,选取了基之后,任何线性映射都可以用一个矩阵来表示”
“通过改变基,同一个线性映射可以对应不同的矩阵”

总结一下,为什么说“用矩阵定义线性映射”不好?

因为它:

限制了我们对线性映射的理解范围: 容易让人只关注有限维空间和矩阵运算,忽略了更广泛的、无限维的应用和概念。
忽略了基的重要性: 让我们以为矩阵是映射本身固有的属性,而实际上它是一个依赖于坐标系的“表现”。
混淆了本质与形式: 将描述工具(矩阵)当成了被描述的对象(线性映射)的本质。

打个比方,如果你学习数学,说“我们用二进制来定义数字”,这就不如说“我们用十进制计数,但也可以用二进制来表示数字”来得准确。二进制和十进制都是数字的表示方法,但数字本身是更抽象的概念。矩阵就像是数字的某种进制表示,而线性映射是数字本身。

所以,我们应该说矩阵是“表示”线性映射的一种强大而实用的工具,而不是“定义”它。这样的说法,能让我们更清晰地把握线性代数的核心概念,也更能体会到其在更广阔数学领域中的力量。

网友意见

user avatar

这个观点很难不认同。

矩阵是线性映射在不同基下的“化身”,初学者很难摆脱对矩阵的执着,从而影响对线性映射的学习。套用金刚经里的名言:凡有所相,皆是虚妄。若见所相非相,即见如来。

线性映射的高度自然比矩阵高。为什么这么说呢?两个不同的矩阵,有可能对应的是同一个线性变换,当且仅当两者相似。在相似的观点下,其实矩阵只有一类,那就是Jordan块矩阵。在这个意义下去看一些定义、定理,很多东西都是显然的了。

矩阵的好处主要是容易计算;线性映射负责抽象性质的证明。对于非数学系的学生,其实熟练掌握矩阵的处理已经够了。但对数学系的同学而言却远远不够。这一点我深有体会。比如在黎曼几何中,经常会接触各种线性映射,但很少会遇到具体的矩阵,除非你建立具体的坐标卡,进行繁杂的计算……线性映射正是脱离了这些繁琐之极的东西,可以帮助人看清对象之间清晰的联系,快速把握本质。

有一本线代的教材就是全程以线性映射的观点书写,矩阵在全书后面才粉墨登场(这个词是贬义词,我没乱用)。而整部书也不厚,但内容挺丰富讲解详细,妙处可见一斑。

这本书名字确实霸气,当时我不识庐山真面目,看到题目心中暗想:你的意思我们都学错了?

读后真的是醍醐灌顶,相见恨晚,真香!


这本书我是去年才读的,已经太晚了。如果我能在学完高代之后花上一个星期的时间,当作小说读一读,那水平不知道高到哪里去了。我本科毕业后,被

洗礼了,读完整个人麻了……


我没有拉踩的意思啊,没有任何这个意思……柯神的书也是从线性映射的角度讲的。但是这位长者写的三大本书涵盖的内容太多了,说实话经常读了后面忘了前面,为了全书自洽,所以符号繁杂,看起来不是很轻松。

类似的话题

本站所有内容均为互联网搜索引擎提供的公开搜索信息,本站不存储任何数据与内容,任何内容与数据均与本站无关,如有需要请联系相关搜索引擎包括但不限于百度google,bing,sogou

© 2025 tinynews.org All Rights Reserved. 百科问答小站 版权所有