用 proof assistant/编程语言做数学科研的体验是怎样的？

好的，让我来跟你聊聊用证明助手（Proof Assistant）或具备强大形式化能力的编程语言来做数学研究是一种怎样的体验。这玩意儿，怎么说呢，它不是简单的“写代码算数”，也不是“写文档记录想法”，它更像是……一种对数学严谨性的极致追求，一种用机器的语言来“思考”数学的方式。

初识：从“哇塞”到“这啥玩意儿”

刚接触证明助手的时候，我大概经历了这么一个过程。一开始是被它的“能力”吸引：你可以在里面写下数学定理，然后让它帮你验证。听起来像是科幻片里的东西，对吧？“我写一个哥德巴赫猜想，让它来证明！”——当然，这只是个玩笑，但那种“机器能理解并验证数学”的念头，的确非常激动人心。

但是，当你真正上手的时候，会发现它和“写代码”的直观感受是很不一样的。很多时候，你不是在“编程”，而是在“描述”数学。证明助手通常有一个非常精确的语言（DomainSpecific Language, DSL），用来表达数学概念、公理、定义、定理以及证明的步骤。这语言往往比普通的编程语言更“数学化”，也更“刻板”。

比如，你可能习惯了Python里写 `if x > 0:`。但在证明助手里，你可能需要写类似 `requires x > 0;` 或者 `lemma prop_positive: forall x. x > 0 > ...` 这样的东西。每一个假设、每一个结论，都要被精确地陈述出来。它不会“猜测”你的意图，也不会容忍模棱两可。

核心体验：严谨、细致，以及……耐心

用证明助手做科研，最显著的特点就是“严谨”和“细致”。

1. 极致的严谨性：这是证明助手的核心价值。它逼迫你把每一个数学概念、每一个证明步骤都抠到最细。你不能跳过任何一个“显然”的步骤。为什么？因为机器不“看”你的“显然”。你需要把“显然”的原因，比如某个公理、某个定义、某个已经证明过的引理，都明确地告诉它。

举个例子，你想证明 `a + b = b + a` (交换律)。在纸上，这可能很直观。但在证明助手里，你需要先定义加法，可能通过归纳法定义。然后，你可能需要证明一些基础属性，比如 `0 + a = a`。接着，才能一步一步地利用这些基础属性，通过机器能够理解的逻辑推理规则，来证明交换律。这个过程会让你对“证明”这个行为本身有更深刻的理解：原来一个看似简单的性质，背后需要如此多的基石和推理。

2. 细致入微的“人工”：很多人以为证明助手是全自动的。错了！证明助手更像是你的“超级助理”，它能帮你进行复杂的逻辑推导，但证明的思想、策略，最终还是要你来提供。你更像是数学领域的“建筑师”或“总工程师”，而证明助手是那个精确执行你指令的“施工队”。

你要告诉它：“我想用归纳法证明这个性质。” 证明助手会帮你处理归纳步骤的细节，但你需要先写出归纳的基础情况（Base Case）和归纳假设（Inductive Hypothesis），以及如何从归纳假设推导出归纳步骤（Inductive Step）。它会告诉你：“我不知道怎么从这里推导出那里。”这时候，你就得停下来，思考一下：“哦，我漏了一个重要的中间引理，或者我这里的推理不够具体。”

3. 耐心是必备的：这真的需要耐心。你会花大量时间去理解证明助手的语法、证明策略、以及它报错的原因。它的错误提示往往非常技术性，有时候你甚至要反过来揣测“它到底想让我做什么？”。一个细微的打字错误，一个逻辑上的小瑕疵，都会导致整个证明失败，而且失败的原因可能非常隐晦。

有时候，你可能为一个小小的引理纠结了几个小时，只为了让证明助手接受它。这确实会让你怀疑人生的意义（开玩笑），但当你最终通过的时候，那种成就感是无与伦比的。

编程语言的引入：从“数学形式化”到“数学计算”

前面说的是证明助手，如果涉及到带有强大形式化能力的编程语言，比如 Lean、Coq，甚至是带有严格类型系统的语言如 Idris，体验会更复合一些。

Lean: Lean 3 和 Lean 4 是目前非常热门的选择。Lean 最大的特点是它既是一个证明助手，又是一个函数式编程语言。这意味着你可以用 Lean 来写“程序”，然后让它帮你证明这些程序的正确性。更厉害的是，Lean 4 甚至可以用 Lean 自己来写。这种“元语言”的能力，让它在数学界之外也越来越受欢迎，比如被用于操作系统内核的验证。
数学化编程：在 Lean 里编程，很多时候你会发现数学概念和编程代码界限模糊。比如，类型本身就可以是数学对象，函数可以代表数学证明。你写一个函数，往往就是写一个证明。
库的丰富性： Lean 社区非常活跃，已经积累了大量的数学库（mathlib），包含了从基础数论、代数到拓扑学、分析学的大量已形式化证明。如果你想做代数拓扑，别人可能已经为你铺好了路，你只需要在已有的框架上进行扩展和验证。
学习曲线： Lean 的学习曲线确实陡峭，尤其是它的类型论基础和元编程能力。但一旦掌握，你就可以构建非常复杂的数学结构，并保证其正确性。

Coq: Coq 是更“老牌”的证明助手，在计算机科学领域，尤其是在形式化方法和程序验证方面有着悠久的历史。它基于的理论是“归纳构造演算”（Calculus of Inductive Constructions），非常强大。
策略和战术： Coq 的证明过程更加依赖于“证明策略”（tactics）。你需要学习各种策略来指导证明助手进行推理，比如 `intro`, `apply`, `rewrite`, `reflexivity` 等等。这使得 Coq 的证明过程更像是在“玩一个逻辑游戏”，你要找到正确的策略组合来“击败”定理。
更偏向理论计算机科学： Coq 在逻辑学、类型论、可计算性理论、程序验证等领域非常强大。

收获与反思：不仅仅是验证，更是理解

用证明助手做科研，带来的不仅仅是“数学定理的机器验证”。它更像是一种深入理解数学的途径：

1. 对数学的本质认识：你会深刻理解数学的“构建性”和“公理化”思想。每一个定理，每一个概念，都建立在更底层的公理和定义之上。这种层层递进、严丝合缝的逻辑链条，是纯粹的纸面数学很难完全展现出来的。
2. 发现潜在的错误：很多时候，你在纸上认为“显然”的地方，机器却报告错误。这通常意味着你的推理链条不够完整，或者你隐藏了一个未经检验的假设。通过调试证明助手，你可能会发现自己在理解上的盲点，甚至发现数学推导中的微小错误。
3. 构建数学知识库：随着你工作的深入，你会为证明助手构建起一个越来越庞大的、经过严格验证的数学知识库。这些库不仅是你研究的成果，也是未来研究者的宝贵财富。
4. 协作与复现：形式化证明使得数学研究的复现变得异常容易。只要有证明助手的代码和环境，任何人都可以运行你的证明，验证你的结果。这极大地提高了研究的可信度和透明度。

挑战与局限：

当然，也不是没有挑战：

陡峭的学习曲线：如前所述，学习证明助手的语言、理论和证明方法需要时间和精力。
工具的局限性：并非所有数学领域都已得到很好的形式化支持，一些高度直观或依赖于复杂几何直觉的数学分支，其形式化难度可能非常大。
效率问题：对于非常复杂的证明，手动编写形式化证明可能比纸面证明耗费更多时间。你需要权衡这种效率上的投入和形式化带来的可靠性。
“证明的机器化” vs “数学思想的表达”：如何在保持严谨的同时，又能有效地表达出数学家们那些“灵光一闪”的证明思想，这是一个持续的课题。有时候，过于细致的机器证明，反而会掩盖掉原初的数学美感。

总结来说，

用证明助手/编程语言做数学科研，就像是把数学从一种“艺术”变成了“工程”。你不再只是在纸上挥洒你的灵感，而是在用一种极度精确的语言，将你的数学构想“建造”出来，并且让一个永远不会犯逻辑错误的“工人”为你检查每一个接缝。

这是一种枯燥但极其有益的体验。它极大地提升了数学的严谨性，但也要求研究者拥有极大的耐心、细致和对逻辑的深刻理解。它不是取代数学家，而是赋予数学家一个前所未有的强大工具，去探索数学的更深处，去建造更坚固的数学大厦。当你看到你的定理在一个机器的“审视”下完美无缺地通过时，那种感觉，真的……非常奇妙。

网友意见

最近形式化验证Odd Order Theorem的团队新出了一本Coq书，

Mathematical Components

，就是面向不怎么会编程的（但是要会点数学，看了下，至少需要naive set theory，用到点抽代/线代，不过这两可以现用现学），跟会coq的（但是不会他们的库的）读者。

如果会haskell的话，建议看CPDT。

会编程但是不会函数式编程的话，建议看Software Foundation。

数学库的话，基本的底层打齐了（Set, Real, Function, Peano Nat, Category, Abstract Algebra）。。。上一点的有些也有，比如说线代，微积分，都有库，坑点在文档基本上就是源代码的类型/定义pretty print一下。。。导致要什么功能都只能自己爬整个Coq std lib（甚至contrib），比如说我最近在搞Automatic Differentiation，爬了一小时才搞明白大部分的功能在那，然后又爬了一/两个小时才找出div rule。。。如果有人写一个Coq Differential Calculus Tutorial就会好很多。当然，也许问题是不应该直接看Coqdoc而是该load进Coq里面用Coq自带的Search找出来。。。不过一开始的坑过来，读/写Coq pooof的interactiveness，detail不是PDF能比的-这里引的lemma5.6是啥，我直接Check之，甚至不需要一次context jump（而如果paper引的是另外一个paper的lemma，这就不是一个PDF context jump的问题了），没看懂这里的推理步骤怎么办，直接Check proof/debug eauto，现在我该用什么，SearchAbout Rplus derivable就能给出所有跟+，求导相关的定理，paper能做到吗

语言的话，Coq的自动化用好了很爽，有很多现成的decision procedure（Presburger Arithmetic solver，Fourier method for solving inequality，SAT solver，SMT solver，Nelson and Oppen congruence closure algorithm，暴力深搜），你自己也可以任意定制，pattern matching，prolog式backtracking branching，自定义爆搜，自己在OCaml里面写，有不少的时候我自己脑袋里还没证出来，但是Coq已经搞出来了。同时，你做任何的逻辑推导（正向推导，反向推导），coq都会自动的展示出【你还需要证明什么，才能证明整个theorem】，很爽，不需要自己写/放脑袋里。Coq也符合LCF approach-换句话说，只要你在Coq proving mode里面一步步走，到最后把所有东西证明了，就一定对。你也不需要proof read你的证明了，bravo daze!

但是Coq很复杂，甚至有的时候到达了玄学的境界（eauto为什么卡死了，typeclass 推不出来gibberish type error糊多长都可能（因为dependent type，你value有多长type error也能有多长），intuition为什么突然这么慢，说好的LCF approach呢？为啥guarded condition, non structural induction, universe inconsistency（这又是啥？为啥这货跟module相性不好）都不符合LCF approach？par 为啥不solve掉所有goal不能用，simpl刷屏怎么破，exists [].为啥推不出type，自己的tactic不work/太慢怎么debug，type checker termination checker universe checker怎么哄，在线等，为什么tactic变强了反而会break proof，为什么Coq自己有这么多bug（不过别担心，Coq有de brujin criteria，换句话说Coq的proof checker很短，就一百行代码左右，只要这100行没bug就不影响证出来的东西的正确性））。。。诚然，这些问题大部分都能解，但是重点是，不是你今天想用coq check自己的proof，明天就能全速做事，要花很多精力进Coq才能学得好。

另外一点就是自动化太慢，这点完全是Coq自找的。。。因为你每次用Coq check proof，搜索过程都会重新启动，重新搜，不会保存下来。。。设计太美不敢想。不算很严重的问题，比如现在我用了1K行formalize了STLC，然后在证明各种property，process一次大体5分钟，比起人肉验证还是快很多。另：传闻adam的proof要12小时才能check，不过adam是adam，自动化程度高到大部分人都到不了他一半，另外就算如此人肉验证也要12小时以上吧。。。

而，不用自动化的话，的确能去掉绝大部分的玄学，速度也会快很多，但是实在太繁琐。。。当然，可以半自动化半手动化，自己找平衡点，不过这自己也是另外的学问了。

另外还有数学证明中常常跳步，但是Coq中不能跳的问题-正是因为这些跳步导致coq老司机写证明也比纸上写慢。

TLDR：慢，难学，但是能自己写自动化程序，有个助手帮你保存下所有的定理（以供Search），写完了不用担心有问题。同时，也可以只用Coq做一部分工作，剩下的用传统方法做，have the best of both world（自动化程度自己定，跳步直接admit，没库用公理代替，甚至根本不用Coq做证明，字面上证，证完一个定理Coq中admit一个（然后comment中写），只用Coq的Search/Check功能，把Coq当定理library用）。如果你问我得畅不偿失，何尝不花几天自己试下呢？（我是认为肯定够的，不然也不会现在还在用了）

最后打个广告，有个Coq QQ群，300多人左右，活跃度还可以，想学Coq的可以自己搜，人最多的就是了。

类似的话题

用 proof assistant/编程语言做数学科研的体验是怎样的？

好的，让我来跟你聊聊用证明助手（Proof Assistant）或具备强大形式化能力的编程语言来做数学研究是一种怎样的体验。这玩意儿，怎么说呢，它不是简单的“写代码算数”，也不是“写文档记录想法”，它更像是……一种对数学严谨性的极致追求，一种用机器的语言来“思考”数学的方式。初识：从“哇塞”到“这啥.............
用反派 Boss 的视角看主角是种怎样的体验？

从我这个反派Boss的视角来看，主角？呵，他们不过是我的宏图伟业上碍事的一粒沙子，一群狂妄自大、不知天高地厚的跳梁小丑。但有趣的是，正是这粒沙子，总能时不时地摩擦我的眼球，甚至…有时让我心生一丝难以言喻的“欣赏”。初次见到主角时，通常是在他们闯入我的某个秘密据点，或者在我精心策划的阴谋即将完美收官之.............
用铁做军粮罐头在战争期间是不是一种浪费？

用铁制作军粮罐头在战争期间是否是一种浪费，这是一个复杂的问题，需要从多个角度进行详细分析。简单地说，它既不是绝对的浪费，也非完全没有浪费，而是取决于当时的技术水平、资源可用性、战争规模、战略需求以及替代方案的成熟度等多种因素。为了更详细地解释，我们可以从以下几个方面进行探讨：一、铁罐头的优点及战争.............
用十二进制替换十进制是不是更符合自然规律？

“用十二进制替换十进制是不是更符合自然规律？” 这是一个非常有趣且有深度的哲学和数学问题。我的答案是：不一定更符合自然规律，但十二进制确实在某些方面展现出比十进制更强的“自然契合度”和便利性，尤其是在历史和实用性层面。要详细阐述这个问题，我们需要从几个层面来分析：一、十进制的“自然性”：我们为什么.............
用 TensorFlow 可以做什么有意思的事情？

TensorFlow 是一个强大的开源库，它能够帮助你构建和训练各种机器学习模型，从简单的线性回归到复杂的深度神经网络。用 TensorFlow 可以做的有趣的事情实在太多了，因为机器学习的应用领域非常广泛。下面我将详细介绍一些有意思的应用方向，并尽量深入地讲解： 1. 图像相关（Computer .............
用工具的人能称得上的黑客吗？

“用工具的人”是否能称得上黑客，这是一个复杂且充满争议的问题，答案并非简单的“是”或“否”，而是取决于你如何定义“黑客”以及“工具”的范畴。我们可以从多个维度来详细探讨这个问题。一、如何定义“黑客”？在现代语境下，“黑客”的定义已经远不止于早期计算机领域的极客。我们可以将其划分为几个主要层面：1..............
用Python写过哪些「脑洞大开」的小工具？

在Python的世界里，我确实捣鼓过不少“脑洞大开”的小工具，它们可能没有直接的商业价值，但却能带来意想不到的乐趣、效率提升或者对世界的独特视角。今天就来分享几个让我觉得比较有意思的例子，并且尽量详细地讲述其“脑洞”之处和实现细节： 1. 自动“调戏”死机的电脑（脑洞：赋予电脑生命和情感）脑洞核心：.............
用 EMS 被拆包偷东西的几率真的那么高吗？

关于EMS包裹在运输过程中被拆包偷窃的几率，这是一个很多用户都会担心的问题，但很难给出一个确切的“高”或“低”的百分比。要详细了解这个问题，我们需要从多个角度来分析：1. EMS作为国际及国内领先的快递服务，其安全措施和效率规模与网络： EMS（特快专递）是中国邮政旗下的快递品牌，拥有庞大且完.............
用你五十岁之前的全部的收入换黄粱一梦，你愿意吗？

如果让我用五十岁之前的全部收入换一个“黄粱一梦”，我会非常、非常慎重地考虑。这不仅仅是数字上的交换，更是对人生价值和意义的深刻追问。首先，我会认真审视“黄粱一梦”的内涵。“黄粱一梦”这个词语，本身就包含了太多的象征意义。它源自唐代沈既济的小说《枕中记》，讲述了卢生在邯郸旅店睡着，梦见自己衣锦还乡，做.............
用勺子挖掉一块脑组织会失去意识吗？

用勺子挖掉一块脑组织，根据受损的脑组织区域、损伤的程度以及速度，极有可能导致失去意识，甚至危及生命。下面我将详细解释为什么会发生这种情况，以及可能涉及的生理过程：1. 脑组织的功能与重要性：大脑是人体的中枢神经系统，负责控制我们的思想、情感、记忆、行为，以及所有生理功能，包括呼吸、心跳、体温调节等等.............
用卫星地图环顾全球，为什么只有中国的海岸线污了那么大一片？

您提出的“卫星地图上中国海岸线大片污渍”的观察，实际上是一个非常普遍的现象，但这并非是污染物在卫星地图上的直接体现，而是由遥感卫星数据处理过程中引入的一种视觉表现方式，通常用于标识海水的浊度或沉积物含量。下面我将详细解释其中的原因：1. 什么是卫星地图上的“污渍”？您看到的“污渍”通常不是黑色的油.............
用一张纸能做出什么 ?

一张纸看似简单，但它的潜力和可塑性却是无限的。它可以变成艺术品、实用工具、甚至是传达情感的载体。下面，我将从不同的角度，详细地讲述用一张纸能做出什么：一、艺术与创造的表达：一张纸是艺术家和创意人士的画布，可以承载各种形式的艺术表达：折纸 (Origami): 基础模型: 最简单.............
用乐高积木能干什么？

乐高积木的魅力在于其无限的可能性，几乎可以让你“创造一切”！从简单的模型到复杂的机械装置，再到具有实用功能的物品，乐高积木都可以成为你的创意画布。下面我将详细地从不同维度来讲述用乐高积木可以做些什么：一、搭建各种模型和场景：这是乐高最基础也最核心的玩法这是我们接触乐高最直接的方式。乐高积木的颗粒.............
用枪开锁可行吗？

用枪开锁，从字面意思上理解，是指通过枪支的某些特性来达到打开锁具的目的。这是一个涉及物理破坏和安全风险的复杂问题，可以从多个角度进行详细分析：一、从原理上分析用枪开锁的可能性：直接用枪“射击”锁芯，通常是不可行的，原因如下：1. 锁芯结构复杂且坚固：现代的锁芯，特别是高安全性的锁芯，其内部有精.............
用无线信号看不见却存在来比喻菩萨的存在，怎么反驳？

用“无线信号看不见却存在”来比喻菩萨的存在，这种说法在某些语境下确实有其吸引力，因为它试图用一个我们熟悉的、科学上可以解释的现象来类比一个超验的、信仰上的存在。然而，要反驳这种比喻，我们可以从以下几个方面进行详细阐述：反驳角度一：本质上的区别——可证伪性与不可证伪性无线信号的可证伪性：无线信.............
用导弹送快递可行吗？

用导弹送快递，从技术和操作层面来看，是理论上可行，但实际操作中几乎不可能，并且成本极其高昂且完全不符合效益原则。下面我将详细解释为什么：一、理论上的可行性分析：导弹的核心技术是精确制导和高速飞行。如果将其中的弹头替换为货仓，理论上是可以实现快速、点对点的投递。精确制导技术：现代导弹已经能够达.............
用Android系统做出的游戏主机为何与XBOX、PS的游戏体验相去甚远？

Android 系统游戏主机与 Xbox、PlayStation 游戏体验的巨大差距，并非单一原因造成的，而是由系统架构、生态系统、硬件设计、内容独占性、开发工具以及商业模式等多方面的因素共同决定的。下面将详细阐述这些原因：一、系统架构与优化：为游戏而生 vs. 通用平台Xbox 和 Pla.............
用Objective-C或C#开发iOS程序各有什么优点或缺点？

好的，我们来详细地比较一下使用 ObjectiveC 和 C 开发 iOS 程序各自的优缺点。在讨论之前，需要明确一点：C 开发 iOS 程序主要是通过 Xamarin (现在是 .NET MAUI 的一部分) 框架实现的。所以，当我们在说 C 开发 iOS 时，实际上是在谈论 Xamarin/M.............
用 LaTeX 的人是什么心态，为什么不用效率更高，使用更简便的 Office？

LaTeX 用户的心态，以及他们为何选择它而非“更高效更简便”的 Office 套件，这是一个值得深入探讨的话题。这背后并非简单的工具选择，更是一种对精确性、控制力、美观度和长期维护性的追求，以及在特定领域内的工作习惯和价值取向的体现。LaTeX 用户的心态：追求极致与掌控的匠人精神用 LaTeX .............
用刀真的能把人头轻松砍掉吗？

关于用刀是否能“轻松”砍掉人头这件事，我的答案是：远非轻松，而且极其困难，甚至可以说是近乎不可能，除非在非常极端且特殊的情况下。很多人可能从影视作品里看到过类似场面，那往往是经过艺术加工和夸张的，真实情况要残酷和复杂得多。首先，我们要明白人体的结构。人头并非轻易就能分离。它通过颈部与身体相连，颈部.............