人工智能领域有哪些精妙的数学原理？

在人工智能的浩瀚星空中，数学并非只是冰冷的公式堆砌，而是驱动智慧涌现的精妙脉络。那些看似晦涩难懂的数学原理，一旦与人工智能的逻辑交织，便能迸发出令人惊叹的创造力与洞察力。今天，我想与你一同拨开迷雾，深入探寻那些为人工智能注入灵魂的数学精髓。

1. 微积分：变化的艺术，优化的基石

如果你曾仔细观察过AI的学习过程，你会发现它仿佛在不断地“试错”与“调整”。这背后最核心的数学工具便是微积分。

导数（Derivative）：想象一下，你在山坡上行走，想要找到最低点。导数就像一个精密的指南针，它能告诉你当前位置的坡度有多陡峭，以及你朝哪个方向走会下降得最快。在AI中，我们通过定义一个“损失函数”（Loss Function）来衡量模型预测的错误程度。导数告诉我们，当我们稍微改变模型中的一个参数（比如神经网络中的一个权重），损失函数会如何变化，变化的速度有多快。这为我们指明了“下山”的方向。

梯度下降（Gradient Descent）：这就是利用导数进行优化的核心算法。既然导数告诉了我们下降最快的方向，那么我们就顺着这个方向，以一定的“步长”（Learning Rate）不断调整参数，就像沿着山坡小心翼翼地往下走。每一次调整，都让模型离最优解更近一步。更进一步的，还有随机梯度下降（Stochastic Gradient Descent, SGD），它并非一次性计算所有数据的梯度，而是每次随机抽取一小部分数据来计算，这样效率更高，也更容易跳出局部最优解的“坑”。

链式法则（Chain Rule）：深度学习模型往往像层层嵌套的俄罗斯套娃，每一层都依赖于前一层。当我们要计算最后一层参数对最开始一层参数的影响时，就需要用到链式法则。它就像一条精巧的管道，能够将信息层层传递，并计算出最终结果。在AI领域，我们称之为反向传播（Backpropagation），这是训练深度神经网络的核心算法，正是它使得梯度能够有效地从输出层传递回输入层，指导参数的更新。

2. 线性代数：数据的语言，空间的舞蹈

我们处理的许多数据，无论是图片像素、文本词向量，还是用户行为，都可以被抽象成向量（Vector）和矩阵（Matrix）。线性代数就是理解和操作这些高维数据的语言。

向量与空间（Vectors and Spaces）：你可以将一个向量想象成一个在多维空间中的“点”或“方向”。比如，一个词语可以用一个高维向量来表示，这个向量的每一个维度都捕捉了词语的某种语义特征。相似的词语，它们的向量在空间中的距离就会比较近。

矩阵运算（Matrix Operations）：矩阵则是向量的集合，可以理解为一张表格或者一个线性变换。在AI中，矩阵运算无处不在：
矩阵乘法：当数据（向量）通过一个神经网络层时，实际上就是将数据向量与该层的权重矩阵进行乘法运算。这个过程就像是将数据“映射”到一个新的空间，或者对其进行一系列的“旋转”和“缩放”，以提取更深层次的特征。
特征值与特征向量（Eigenvalues and Eigenvectors）：它们揭示了矩阵最本质的变换特性。想象一个矩阵就像一个橡皮膜，而特征向量是指那些在变换后方向不变的特定向量，特征值则表示这些向量被拉伸或压缩的程度。在AI中，这被用于降维（Dimensionality Reduction）技术，例如主成分分析（Principal Component Analysis, PCA），它能找到数据中最重要的方向，从而去除冗余信息，让模型更高效。
奇异值分解（Singular Value Decomposition, SVD）：这是矩阵分解的一种强大技术，可以将任何矩阵分解成三个更简单的矩阵。在推荐系统、图像压缩等方面有着广泛应用，能够揭示数据中隐藏的潜在结构。

3. 概率论与统计学：不确定性的驾驭者

世界是充满不确定性的，AI模型必须能够在这种不确定性中做出合理的决策。概率论与统计学为此提供了强大的工具。

概率分布（Probability Distributions）：我们用概率分布来描述事件发生的可能性。例如，在图像识别中，模型预测一张图片是猫的概率是0.9，是狗的概率是0.1。贝叶斯定理（Bayes' Theorem）则提供了一种更新我们对事件信心的框架，特别是在我们获得新的证据时。这在朴素贝叶斯分类器（Naive Bayes Classifier）等模型中发挥着核心作用。

期望值与方差（Expected Value and Variance）：期望值代表了事件的平均结果，而方差则衡量了结果的离散程度。在AI训练中，我们经常计算损失函数的期望值（平均损失），并关注其方差，这有助于我们理解模型训练的稳定性。

最大似然估计（Maximum Likelihood Estimation, MLE）：这是统计学中一种非常重要的参数估计方法。我们假设模型参数的值，使得在这些参数下，观察到的数据出现的可能性最大。就像你在玩一个骰子游戏，你不知道这个骰子是不是公平的，通过反复投掷观察结果，你就能估计出每个面出现的概率，从而判断骰子是否公平。在AI中，MLE被广泛用于估计模型的参数。

蒙特卡罗方法（Monte Carlo Methods）：当解析计算变得困难时，我们可以通过大量的随机抽样来近似计算结果。例如，在强化学习（Reinforcement Learning）中，模型会通过反复与环境交互并根据随机性的结果来学习最优策略。

4. 优化理论：寻找最佳方案的艺术

AI的核心任务之一就是找到最佳的解决方案，这离不开优化理论。

凸优化（Convex Optimization）：如果我们的损失函数是一个凸函数，那么它只有一个全局最小值，找到这个最小值就相对容易。许多机器学习模型（如线性回归、逻辑回归）的损失函数都是凸的，这保证了梯度下降等算法能够收敛到全局最优解。

非凸优化（Nonconvex Optimization）：但令人兴奋的是，许多复杂的AI模型，特别是深度神经网络，其损失函数往往是非凸的，这意味着它们可能有许多局部最小值。这使得寻找全局最优解变得更加困难。我们面临的挑战是如何设计算法，使其能够有效地探索这个复杂的“山脉”，尽量找到那个最深邃的山谷，而不是被困在某个看起来很浅但实则并非最佳的山谷里。随机性、动量（Momentum）、自适应学习率（Adaptive Learning Rates）等技术，都是为了帮助算法更好地导航这些非凸地形而诞生的。

5. 信息论：量化信息与决策的智慧

信息论为我们量化信息提供了框架，并在AI中扮演着关键角色。

熵（Entropy）：熵衡量了信息的不确定性。在一个概率分布中，熵越高，不确定性越大，信息量也越大。在AI中，我们希望模型能够学习到能够有效“压缩”数据信息的不确定性，从而提取出有用的特征。

交叉熵（CrossEntropy）：这是在分类问题中衡量两个概率分布之间差异的常用指标。在AI训练中，我们常常用交叉熵作为损失函数，它量化了模型预测的概率分布与真实标签（期望的概率分布）之间的差异，目标就是最小化这个差异，让模型的预测尽可能接近真实情况。

KL散度（KullbackLeibler Divergence）：与交叉熵类似，KL散度也是衡量两个概率分布之间差异的度量。它在变分自编码器（Variational Autoencoders, VAEs）等生成模型中至关重要，用于衡量学习到的潜在分布与先验分布之间的相似性。

总结

人工智能的辉煌并非偶然，而是建立在这些精妙的数学原理之上。微积分让我们能够指导模型不断进步，线性代数赋予我们处理高维数据的能力，概率统计帮助我们驾驭不确定性，优化理论则引领我们寻找最佳方案，而信息论则为我们量化和理解信息提供了深刻的洞察。

这些数学工具并非孤立存在，它们相互关联，协同作用，共同构筑了人工智能这座宏伟的大厦。理解它们，不仅是对AI技术背后原理的深入剖析，更是对我们如何模拟、甚至超越人类智慧这一终极命题的探索。每一次模型训练的优化，每一次数据特征的提取，每一次决策的制定，背后都跳动着数学的脉搏，闪耀着智慧的光芒。正是这些精妙的数学原理，让冰冷的算法拥有了学习、理解和创造的能力，赋予了人工智能“灵魂”。

网友意见

把普通人想得到的答案，都罗列进去，响应速度提高一点，就很像真的。对了，答案有趣一点，可以分散他们的注意力。

卖假货的骗钱、演戏的更骗钱，为什么搞研究不能？对撞机、登月、核聚变，接着连公共卫生也居然好意思跑得出来。钱太多了，各路货色都跑出来分，这才叫人工智能呢！

妖～怪，吃俺老孙一棒！

对偶性 duality｜动量 momentum｜核技巧 kernel trick

第二次更新

没想到这个回答真获奖了，正好前两周看到这本 MIT+FAIR 出品的未来深度学习理论圣经，还没出印刷版，给喜欢数学的读者放个正版PDF：The Principles of Deep Learning Theory；路过本文的其他读者也不能空手而归：Amazon 出品实践圣经《动手学深度学习》；较传统的就推荐前导师的经典《SVM》和《核方法》

跨年的时候只有几个简短的回答，以为是个没人看的问题，因为确实多数广义 AI 方向很工程，精妙也是主观感受，但我正好有感而答，感谢大家看完 hhh 居然一个月不到就五百多收藏了，字没白码~顺便感谢 @知乎科学的「数学问答集市」和 @留德华叫兽的提名，准备把这套数学书送给老弟，祝他虎年春节高考成年快乐三连~

也祝大家新年暴富、身体健康！

第一次更新

关于人工智能，不少人对 AlphaGo 之父 David Silver 这套「AI = DL + RL」是有信仰的：深度学习明确目标、强化学习提供方法，即可成就通用智能 (AGI)。以上是本回答第一条精妙的数学原理……？我就开个玩笑，这是可能是魔法吧 : ) 各分支精妙原理虽多，本回答还是侧重于总结两个门槛低但天花板高的知识点：机器学习入门一定见过、但最新的DL/RL论文还在花式运用的数学原理。本次更新添加了对偶性，公式较多但不看也能懂，争取雅俗共赏老少咸宜不脱发。

原答案提了一下看图学ML调包的同学容易误解的 kernel trick，讲了 CVPR2020 最佳论文提名 MoCo (FAIR) 和同一时间 MoVI (Google) 对历史知识点动量在深度学习和强化学习中的成功应用。MoCo 救活的不只是CV无监督学习，还救了我 : ) 去年在新模型中也采纳了类似策略，跟踪网络 moving average 加一个动量 loss 以保证 embedding space 一致性，效果拔群直接 SotA！

这里再补充一个能同时拿捏深度学习以及强化学习的精妙原理「对偶性」duality：很基础、很强大，比起之连独立词条都没有的动量，对偶性原理是上了维基百科的经典数学原理。很巧，对偶性也是最优化 (mathematical optimisation) 中诞生的原理，简化问题而不改变解，从经典的机器学习理论到强化学习领域全覆盖：线性规划 (如 MDP planning)，二次规划 (SVM)，二阶锥规划 (manifold learning)……而好用的 RL 多为动态规划 (DP)，近些年 duality 往强化学习上面套，因为 policy optimisation 和 policy evaluation 都是可以用脸线性规划 (LP) 表达的，给优化方向的科研提出新的挑战。谷歌 principled ML 大神 Bo Dai 曾发现利用了数学原理的操作确实比现有方法好，可见数学在 AI 中还有极大空间（不是魔改调包调参？！

简单地理解，对偶性原则即从两种角度看优化问题，对偶问题 (dual problem) 提供初始问题 (primal problem) 的极限，解对偶问题较为容易，找到 dual 的解相当于解决了 primal，看到这里计算机出身的朋友是不是满脑子都是计算理论的「归约」reduction？是有点那个意思。对偶问题在机器学习课本/帖子里学的一般都是讲拉格朗日对偶问题 (the Lagrangian dual problem)。经典算法如 SVM 的理论核心技巧就是利用对偶性将难以处理的不等式限制转化到对偶问题中，而对偶方法之所以能成，是因为对偶变量就是问题最本质的未知量。Mathematically，拉格朗日对偶：

将初始问题：
通过定义拉格朗日方程：
转化为对偶：，此时

具体比如，在 SVM 的 soft-margin 优化里是从

初始问题：
变成对偶：

省略符号定义和解释，本文关注数学在 AI 中思想运用的精妙而非推导上的细节。

2020 谷歌的 Fenchel-Rockafellar Duality 一文^[1]中也总结了 AlgaeDICE^[2]、DualDICE^[3]等文，强势运用了对偶性原理，先将强化学习的初始问题变成对偶问题，加入一个凸正则器 (convex regulariser) 后再次利用对偶性原理获得一个无约束优化问题。全过程精彩之处有很多，但对偶性的精妙在于通过找对偶化简了问题本身却没有改变问题的值/解，使 RL 问题能用随机/大型 (stochastic and large-scale) 的优化。将经典的数学更严格地用在强化学习算法中，形式上算法作为数学的延伸更加血统纯正了更加靠谱, principled，实际表现来也确实更强。

Mathematically，第一次利用对偶将 Q-value 版的原问题 Q-LP 变成 visitation 版对偶问题，一个 objective 数量上保持一致但 constraints 的数量也都等同于 state x action^[2]，align太乱了分行写：

初始目标：
初始条件：
初始解：
对偶目标：
对偶条件：
对偶解：

第二步很关键，两个版本其实都 constraints 太多，所以推导出无约束优化版^[3]进行下一步操作，即

现有
取变成

这个不是重点。现在利用了 f-divergence 使问题平滑化后，目标又变了条件没变，将约束条件简写为，其中，，第二次对偶去条件：

初始目标：，即
对偶问题：

最终我们就可以对这个无约束版的进行常规的梯度优化了, stochastic and large-scale，完美。这个非常数学的模型可以直接用 offline data 取得 on-policy policy gradient. 这就是经典数学原理对偶性在强化学习中的精妙应用～

更新完毕！一周前答着题跨年，到今天收获一个专业认可 + 两百赞 + 三百收藏，感动，字没白码！其实我离开 RL 很久而且数学修抽象代数和统计推断比较多所以本更新有些细节可能没有吃透，如果讲的有错或者有更好的理解还请大佬们一定要指正！

原答案

Momentum 和 kernel trick

首先不得不提「动量」momentum：1964年曾优化梯度下降，2019年先搞活计算机视觉无监督学习，又在强化学习有了一席之地。硬要分类的话属于应用数学「最优化」分支中的……原理？trick？其实梯度下降、遗传算法、神经网络、SVM 全都属于最优化的算法，但动量只是个通用的方法，在各种算法上都能套：动量原理取梯度均值而非当前梯度，是优化问题中稳定优化方向的常用策略。

人工智能涉及到优化的，就基本是跟着数据不断输入更新权重，但往往会出现权重更新太快反而「学」得很慢或「学」不到的问题，也会出现卡在局部极值的问题。有一个巨直观、巨简单的数学技巧可以解决问题，你说这是原理 principle 也好、策略 strategy 也好，当年老师图解 SGD 的时候甚至都觉得这是物理常识，可以简单理解为给参数赋予了惯性，还能冲破局部最小值，所以又称重球方法 (heavy ball method)。

给大家细讲一下 intuition：1964年就有的动量梯度下降^[4]一般来讲比梯度下降好用，因为用近期梯度均值做 (moving average of gradients) 做更新更稳一点，比说风就是雨的梯度下降来得安全。Facebook AI Research (FAIR) 何恺明等五大神把计算机视觉无监督学习搞活了的 CVPR2020 大作 MoCo^[5] (Momentum Contrast 动量对比) 也是考虑到编码器更新太快从而搞砸了 representation 的一致性，应用了动量这个原理/策略。像强化学习 RL 领域，Google Research Brain Team 和 CNRS 的大佬也尝试了动量的应用，搞出 MoVI^[6] (Momentum Value Iteration 动量价值迭代)，把 state-action value 看作梯度，在动态规划中取 q-values 均值实现 RL 的动量，发了 AISTATS2020 但好像关注度不高。

有的人可能觉得看公式好理解一点。Mathematically，动量就是给过去的变化均值一个权重，拿梯度下降的 weight update 极简举例：

梯度下降长这样：
动量梯度下降：

就是说本来而且但现在用动量了所以 , i.e. 以前，就这么简单个东西，经久不衰，就是个控制变化速度、保持 consistency 的小诀窍，在不同层次的应用上都很通用。

觉得我没讲清楚的初学者可以看看我找动图时发现的2017年的动态论文 Why Momentum Really Works！我还没看但是这个交互式的论文各种配图真的很有意思！当然做 CV 的朋友 MoCo 肯定是要读三遍的，我发现大神 @李沐居然在知乎有个 MoCo 论文逐段精读视频，感动哭了世界上还有这种好事，亲导师都不会这样带我品论文，比起读到秃头听他再讲一遍好爽啊

最后，人工智能太广了，机器人学应该有挺多精妙数学但我相信来这个问题的人应该不是冲着这个来的，logic-based 这种不知道算不算有数学，ML 算法里的精妙数学比如 SVM 里的证明还有 kernel trick 都很精彩，但感觉太经典了大家都学过配个图敷衍一下，就讲到这里吧，

不行还是要提一句精妙之处因为实在是太妙了，注意 kernel trick 的重要性不在于升维之后使线性分割成为可能，而在于我们可以在原特征空间内直接操作，不需要算高维空间的坐标，比如^[7]：

假设我们有三维数据，两个点：，此时想用升维至九 features，如果要先把和都算出再算计算量就了，但如果我们这么算：，这样一来一下子就变成在原三维空间的计算了。而这个例子中简单地将 kernel 定义为就完了。

过零点了，元旦快乐！

……

hmmm 最后本来想针对提问者背景再说两句然后发现是搞 CV 的应用数学博士大佬 @留德华叫兽那……欢迎大佬们补充指正评论，轻喷，感谢支持 T T

Facebook AI Research (FAIR) | MoCo 原文

We hypothesize that such failure is caused by the rapidly changing encoder that reduces the key representations' consistency. We propose a momentum update to address this issue. Formally, denoting the parameters of as and those of as , we update by: . —— MoCo

Google Research Brain Team | MoVI 原文

In reinforcement learning, the state-action value function can be seen informally as a kind of gradient, as it gives an improvement direction for the policy. Hence, we propose to bring the concept of momentum to reinforcement learning by basically averaging q-values in a DP scheme. —— MoVI

MoVI 原文中对动量的定义

In optimization, a common strategy to stabilize the descent direction, known as momentum, is to average the successive gradients instead of considering the last one. —— MoVI

参考

^Reinforcement Learning via Fenchel-Rockafellar Duality https://arxiv.org/abs/2001.01866
^^a^bAlgaeDICE: Policy Gradient from Arbitrary Experience https://arxiv.org/abs/1912.02074
^^a^bDualDICE: Behavior-Agnostic Estimation of Discounted Stationary Distribution Corrections https://arxiv.org/abs/1906.04733
^SOME METHODS OF SPEEDING UP THE CONVERGENCE OF ITERATION METHODS https://vsokolov.org/courses/750/files/polyak64.pdf
^Momentum Contrast for Unsupervised Visual Representation Learning https://arxiv.org/abs/1911.05722
^Momentum in Reinforcement Learning https://arxiv.org/abs/1910.09322
^What is the kernel trick? Why is it important? https://medium.com/@zxr.nju/what-is-the-kernel-trick-why-is-it-important-98a98db0961d

相关性（Correlation）和因果性（Causality）可以用统一的数学概念框架——Copula熵（Copula Entropy：CE）来表述。

相关性和因果性是AI/ML/STATS的基础性概念。构建回归/分类模型就是发现相关性或因果性的过程。所有AI的问题本质上都是相关性或因果性的问题，这可以扩展到所有科学/哲学领域。

CE是一个统计相关性/独立性度量的数学概念，基于Copula理论中的Copula函数来定义。它具有完美的数学性质，包括对称性、单调变换不变性、非正性、高斯情况下与相关系数等价等。CE被证明与信息论的互信息（Mutual Information）等价。Copula函数和CE分别给出了相关性的函数表示和度量的数学理论。

CE同时被证明与因果性度量概念——传递熵（Transfer Entropy：TE）有理论联系，TE可以仅由CE来表示。TE等价于条件互信息，本质上是条件独立性（Conditional Independence）度量，可以认为是经典的格兰杰因果（Granger Causality）检验的非线性扩展。

因此，我们就得到了一个基于CE的统计独立性和条件独立性度量的统一的数学理论框架。框架概念简洁，理论清晰，却内涵深刻，可以说得上是精妙的。

CE/TE可以用来解决AI领域的经典问题，如变量选择（Variable Selection）、结构学习（Structure Learning）、因果发现（Causal Discovery）、域自适应（Domain Adaptation）等，在诸多学科领域都得到了实际应用。

CE理论具有普适性，已被应用于研究微观分子、洪水干旱、大气污染、病毒和微生物、大脑和神经系统、心脏病、糖尿病、阿尔茨海默症、癌症、新冠肺炎、扶贫攻坚、性别平等、政治安全、可再生能源、遥感图像、航天器、金融股票等等。

具体参见如下综述论文：

马健. Copula熵：理论和应用. ChinaXiv:202105.00070 (2021).

统计独立性是统计学和机器学习领域的基础性概念，如何表示和度量统计独立性是该领域的基本问题。Copula理论提供了统计相关性表示的理论工具，而Copula熵理论则给出了度量统计独立性的概念工具。本文综述了Copula熵的理论和应用，概述了其基本概念定义、定理和性质，以及估计方法。介绍了Copula熵研究的最新进展，包括其在统计学四个基本问题（结构学习、关联发现、变量选择和时序因果发现等）上的理论应用。讨论了四个理论应用之间的关系，以及其对应的深层次的相关性和因果性概念之间的联系，并将Copula熵的（条件）独立性度量框架与基于核函数和距离的相关性度量框架进行了对比。简述了Copula熵在理论物理学、化学信息学、水文学、环境气象学、生态学、认知神经学、运动神经学、计算神经学、系统生物学、生物信息学、临床诊断学、老年医学、公共卫生学、经济政策学、社会学、政治学，以及能源工程、制造工程、可靠性工程、航空工程、通信工程、测绘工程和金融工程等领域的实际应用。

或这两篇专栏文章：理论应用和实际应用。

CE/TE估计算法已实现为算法包copent，请见：

R: CRAN and GitHub
Python: PyPI and GitHub

利用copent包，我将copula熵的相关性和因果性度量与其他的相关性/因果性度量进行了对比，建立了两个github的代码库。

相关性度量对比示例代码库 [ github repo ]

此库基于UCI心脏病公开数据集，对比了如下相关性度量：

Copula Entropy [1],
Hilbert-Schimdt Independence Criterion (HSIC) [2,3],
Distance Correlation [4].
Heller-Heller-Gorfine Tests of Independence [5],
Hoeffding's D test [6],
Bergsma-Dassios T* sign covariance [7],
Ball correlation [8],
BET: Binary Expansion Testing [9],
qad: Quantification of Asymmetric Dependence [10],
MixedIndTests [11],
NNS: Nonlinear Nonparametric Statistics [12],
subcopula based dependence measures [13],
MDM: Mutual Independence Measure [14].

利用相关性度量选择与心脏病诊断有关的生理变量，结果表明了CE优于其他方法。

因果性度量对比示例代码库 [ github repo ]

此库利用UCI的北京PM2.5数据集，分析气象因素与PM2.5浓度之间的因果关系，对比了如下条件独立性度量：

Transfer Entropy via Copula Entropy (TE) [15];
Conditional Distance Correlation (CDC) [16];
Kernel-based Conditional Independence (KCI) [17];
COnditional DEpendence Coefficient (CODEC) [18];
Generalised Covariance Measure (GCM) [19];
weighted Generalised Covariance Measure (wGCM) [20];
Kernel Partial Correlation (KPC) [21];
Partial Correlation (pcor);
Randomized conditional Correlation Test (RCoT) [22];
kNN based Conditional Mutual Information Estimators [23,24];
Fast Conditional Independence Test (fcit) [25];
Model-Powered Conditional Independence Test (CCIT) [26];
Predictive Conditional Independence Testing (PCIT) [27];
Conditional Kendall's Tau (CKT) [28];
Conditional Mean Dependence (CMD) [29].

结果表明，基于CE的方法优于其他对比方法。

参考文献

略（见github库的说明文件）

最大似然估计 (maximum likelihood estimation, MLE)

MLE应该是所有上过入门统计课或者是机器学习课程的同学们都接触过的概念。其核心想法是在估计参数时，寻找一个值使我们观测到的数据的“可能性”最大化。对于一个有N个点IID分布的数据集，我们有。

MLE有趣的地方在于这个看似简单直接的概念在其他的很多地方又以不同的形式反复出现，以下是几个常见的例子，也欢迎大家补充。

MLE与OLS

普通最小二乘法（ordinary least squares，OLS）是参数估计中的一个常用方法（尤其是在各种线性回归当中）。对于线性回归，OLS告诉我们是最佳线性无偏估计量（the best linear unbiased estimator, BLUE）。我们假设参数服从一个多元正态分布的时候（即 ), MLE与OLS的估计量（estimator）是相同的^[1]。

MLE与贝叶斯推断（Bayesian Inference）

在统计推断当中，通过MLE得出来的估计量往往是被看做频率学派（frequentist）的方法。而当我们引入了先验分布，从贝叶斯的角度来看，在先验分布为均匀分布（uniform distribution）的时候，MLE其实等价于最大后验概率（maximum a posteriori estimation, MAP, 有时也称为most probable Bayesian estimator）。当这个先验分布为拉普拉斯分布的时候，我们便有了L1正则化（L1 regularization，在线性回归以及一些其他的拓展当中也称为Lasso）。当这个先验分布为正态分布的时候，我们便有了L2正则化（L2 regularization，有时也称为Ridge）。

MLE与KL散度

KL散度（Kullback-Leibler divergence, KL Divergence, KLD)，也称为相对熵（relative entropy）或者信息增益（information gain），是在比较两个分布的相似性的时候的一个常用方法，也常常在深度学习的应用中作为一个优化的损失函数。对于两个离散分布P和Q，P相对于Q的KL Divergence定义为。这个形式与对数似然函数值（log likelihood）看起来非常相似。实际上，我们可以证明在给定数据的情况下估计参数时，最大化似然函数等价于最小化KL散度^[2]。

MLE与AIC和BIC

AIC全称为Akaike Information Criterion，最初是用来估计数据生成过程（data generating process）与拟合模型之间的KL散度的期望值，常常用于模型选择。其定义为，其中k是参数的数量，而L则是似然函数。显然，当参数数量k固定时，可以最大化AIC。实际上，AIC也是基于KL散度的定义推广而来^[3]^[4]。类似的，当我们把这一项换为我们便得到了Bayesian Information Criterion, BIC^[5]。实际上，当在选择使用MLE估计模型的时候，AIC或者BIC都是常见模型选择标准。

顺便夹带私货插播一则关于AIC的小故事：

MLE与费希尔信息以及Cramer-Rao下界

我最初了解到Cramer-Rao下界（Cramer-Rao Lower Bound, CRLB）的时候是在本科的某节数理统计课上。CRLB说明了对于某个未知固定参数的无偏统计量（unbiased estimator），其方差不会小于其费希尔信息（Fisher information）的倒数。利用费希尔信息的定义，我们可以证明当数据趋近于无穷大的时候，MLE是的方差是可以达到这个下界的，并且其渐进采样分布（asymptotic sampling distribution）也是一个多元正态分布，即。

参考

^ Hayashi, Fumio (2000). Econometrics. Princeton University Press. p49.
^Deep Learning Ch. 5 Machine Learning Basics. p128-129 https://www.deeplearningbook.org/contents/ml.html
^M. Mattheakis, P. Protopapas. CS 109A: Advanced Topics in Data Science: Model Selection & Information Criteria: Akaike Information Criterion https://harvard-iacs.github.io/2018-CS109A/a-sections/a-section-2/presentation/a-sec2-MLEtoAIC.pdf
^ Akaike, H. (1973), "Information theory and an extension of the maximum likelihood principle", in Petrov, B. N.; Csáki, F. (eds.), 2nd International Symposium on Information Theory, Tsahkadsor, Armenia, USSR, September 2-8, 1971, Budapest: Akadémiai Kiadó,
^ Friedman, Jerome, Trevor Hastie, and Robert Tibshirani. The elements of statistical learning. Springer series in statistics, 2016. p233

类似的话题

人工智能领域有哪些精妙的数学原理？

在人工智能的浩瀚星空中，数学并非只是冰冷的公式堆砌，而是驱动智慧涌现的精妙脉络。那些看似晦涩难懂的数学原理，一旦与人工智能的逻辑交织，便能迸发出令人惊叹的创造力与洞察力。今天，我想与你一同拨开迷雾，深入探寻那些为人工智能注入灵魂的数学精髓。1. 微积分：变化的艺术，优化的基石如果你曾仔细观察过AI的.............
2021年，在人工智能领域有哪些值得关注的成果？

2021年，人工智能领域着实是热闹非凡，涌现出不少令人眼前一亮，甚至可以说改变游戏规则的成果。如果说前几年我们还在惊叹于AI在特定任务上的突破，那么2021年则更多地展现了AI在理解、创造和连接方面的潜力，让人们对未来的应用场景有了更具体的想象。语言理解与生成：不只是“会说话”，更是“能思考”要说2.............
2021年人工智能领域有哪些关键性进展和突破？

2021年，人工智能领域可谓是硕果累累，技术革新与应用落地双管齐下，为我们描绘了一幅充满活力与想象力的未来图景。这一年，AI不再仅仅是实验室里的理论推演，而是实实在在地渗透到我们生活的方方面面，带来了诸多令人瞩目的进展和突破。1. 大模型持续演进，能力边界不断拓展2021年，以GPT3为代表的生成式.............
2020 年过去了，人工智能领域都有哪些突破?

2020 年，尽管全球饱受新冠疫情的困扰，但人工智能（AI）领域依然硕果累累，涌现出不少令人瞩目的突破。这些进展不仅加速了AI技术的成熟，也预示着AI将在更多领域发挥深远的影响。一、自然语言处理（NLP）的质的飞跃2020 年，NLP 领域最耀眼的明星无疑是超大规模预训练语言模型的进一步发展和普.............
有哪些值得推荐的人工智能领域的优质科普平台或渠道？

我最近一直在深入了解人工智能的方方面面，发现了不少宝藏科普平台和频道，绝对值得推荐给所有对AI好奇的朋友们。说实话，一开始我也觉得AI这个词听起来挺高大上的，有点望而却步，但正是通过这些渠道，我才一点点拨开了迷雾，看到了AI背后那些令人兴奋的可能性。1. 深入浅出、体系化的知识网络：网易公开课.............
2022 年人工智能领域的发展趋势是什么？你都有哪些期待？

2022 年，人工智能（AI）领域仿佛按下了加速键，许多曾经只是科幻设定的概念，在这一年里以前所未有的速度融入我们的现实生活。回顾这一年，你会发现 AI 的触角正在向更深、更广的领域延伸，其发展趋势也更加多元和令人振奋。2022 年 AI 领域的发展亮点与趋势：生成式 AI 的爆发式增长：如.............
有哪些结合医学、计算机、人工智能的研究领域？

当医学的严谨、计算机的逻辑与人工智能的智慧交织碰撞，便催生出一系列令人振奋的研究领域，它们正以前所未有的速度改变着我们理解、诊断、治疗疾病的方式，甚至重塑着整个医疗健康产业。这些领域并非孤立存在，而是相互渗透、彼此促进，共同构建起智慧医疗的未来版图。1. 医疗影像分析与诊断辅助：这是当前人工智能在医.............
哪些人工智能领域已经或者未来1-2年会实现盈利？

好的，让我们来聊聊哪些人工智能领域，现在已经展现出盈利能力，或者在未来一到两年内很有可能实现商业化落地并带来可观收入。我会尽量讲得细致一些，避免那些“AI范儿”的生硬表述。一、已经展现出强劲盈利能力的人工智能领域这部分，我们主要看的是那些已经成熟，并在各行各业得到广泛应用，为企业带来实际价值和直接.............
人工智能在哪些领域还落后于人类？

尽管人工智能（AI）在许多领域取得了令人瞩目的进展，甚至在某些方面超越了人类，但在以下几个关键领域，AI 仍然显著落后于人类，并且差距较大：1. 真正的常识推理和对世界的理解 (Common Sense Reasoning & World Understanding) 落后之处：人类拥有对物理.............
人工智能已在哪些领域超越了人类的表现？

人工智能（AI）在某些领域的表现已经超越了人类，这并非一蹴而就，而是经过了数十年的研究、海量数据的积累和算法的不断优化。这种超越并非在所有方面，但其在特定任务上的卓越能力，已经深刻地改变了我们的生活和工作方式。1. 围棋与复杂策略游戏：如果说有一个领域能让人们直观感受到AI的强大，那一定非围棋莫属。.............
在人工智能领域，当前中国与其他国家相比优势和不足分别在哪里？

在中国人工智能领域的发展浪潮中，我们既看到了令人瞩目的跃进，也必须正视前行道路上的挑战。要细致地剖析中国与其他国家在AI领域的优劣势，需要将其置于全球竞争的大背景下，并深入了解其内在驱动力与制约因素。中国在人工智能领域的优势：海量数据驱动下的模型训练：这是一个毋庸置疑的硬实力。中国拥有庞大的.............
人工智能在能源电力领域会有什么应用？

人工智能在能源电力领域的确是大有可为，它带来的不仅仅是效率的提升，更有深层次的变革，能够帮助我们构建一个更智能、更可靠、更绿色的未来能源系统。下面我们来详细聊聊这其中的具体应用：一、电力系统的智能化运维与管理传统的电力系统运维往往依赖于经验丰富但数量有限的人工，效率不高，且难以应对日益复杂的系统。.............
物联网+云＋人工智能化趋势下，IC的发展在模拟领域，是否会有作为？

物联网、云和人工智能的融合浪潮，正以前所未有的力量重塑着我们生活的方方面面。在这个技术驱动的变革时代，大家都在关注核心的数字计算能力，特别是CPU、GPU以及AI芯片的飞速发展。然而，在这股汹涌的浪潮之下，模拟IC（集成电路）领域是否还能找到自己的位置？答案是肯定的，而且我认为，模拟IC不仅会有所作.............
如何看待人工智能领域的很多专家认为「人工智能将对人类存亡造成威胁」的观点？

这的确是人工智能领域一个备受关注，同时又令人深思的议题。许多业内顶尖的专家之所以发出这样的警告，并非空穴来风，而是基于他们对人工智能技术发展趋势、潜在能力以及其可能带来的影响的深入理解和审慎判断。要详细阐述这一点，我们可以从几个关键维度去剖析。1. 智能的指数级增长与不可预测性我们目前所谈论的人工智.............
中国和美国谁能成人工智能领域的领军者？

中国和美国在人工智能（AI）领域的竞争异常激烈，两国都投入了巨额资源和人力，并展现出各自独特的优势和发展路径。要判断谁能成为领军者，需要从多个维度进行深入分析。美国在人工智能领域的优势：顶尖的科研实力和创新生态系统：高校和研究机构：美国拥有众多世界一流的大学（如斯坦福、MIT、.............
如何看待2021年中国工程院新增院士中人工智能领域候选人全部落选？

2021年中国工程院院士增选，人工智能领域候选人悉数落选，这确实是一个值得深入探讨的现象。这背后可能有多方面的原因交织，并非单一因素可以简单解释。要理解这件事，我们需要从工程院院士评价体系、人工智能领域本身的特点以及当前我国科研发展环境等多个维度去审视。一、工程院院士评价体系的侧重点首先，我们需要.............
人工智能在麻将领域能够战胜人类吗？

人工智能（AI）在麻将领域战胜人类的可能性，以及其实现方式和影响，是一个非常有趣且复杂的话题。答案是：是的，人工智能已经在理论上和实践上具备了战胜人类麻将顶尖玩家的能力，并且正在这个方向上不断进步。要详细讲述这个问题，我们需要从多个维度来分析：一、麻将的复杂性与AI的优势麻将虽然看起来只是一个桌.............
在集成电路设计领域（数字，模拟），人工智能有无可能取代人类？

集成电路设计，这个曾经被认为是人类智慧的堡垒的领域，正面临着一个令人不安的假设：人工智能（AI）是否会最终取代人类设计师？乍一看，这个想法似乎有些科幻，但深入探究，你会发现AI在IC设计流程中的每一步都扮演着越来越重要的角色，甚至在某些方面已经超越了人类的能力。首先，让我们看看AI在数字IC设计领.............
人工智能、模式识别领域最终是否会被一种本质、通用的算法主导？

关于人工智能和模式识别领域最终是否会被一种本质、通用的算法主导，这是一个引人深思且复杂的问题。目前看来，更倾向于认为 “通用的算法主导”这个说法可能过于绝对，但存在一些核心、强大的算法在很大程度上“引领”或“奠定基础”的可能性是存在的。然而，要完全被一种算法“主导”，可能忽略了人工智能和模式识别本.............
AlphaGo 战胜了李世石，人工智能突破了围棋领域，这意味着什么？

AlphaGo 战胜李世石，无疑是人工智能发展史上的一个里程碑事件，它标志着人工智能在围棋这一复杂智力游戏领域取得了前所未有的突破。这一事件的意义深远而广泛，可以从多个维度来理解：一、技术层面的突破：深度学习与强化学习的成功结合： AlphaGo 的胜利并非仅仅依赖于传统的算法或大量的预设规则。它.............