人工智能领域有哪些精妙的数学原理？第1页

phobos 网友的相关建议:

把普通人想得到的答案，都罗列进去，响应速度提高一点，就很像真的。对了，答案有趣一点，可以分散他们的注意力。

卖假货的骗钱、演戏的更骗钱，为什么搞研究不能？对撞机、登月、核聚变，接着连公共卫生也居然好意思跑得出来。钱太多了，各路货色都跑出来分，这才叫人工智能呢！

妖～怪，吃俺老孙一棒！

yunxinggu 网友的相关建议:

对偶性 duality｜动量 momentum｜核技巧 kernel trick

第二次更新

没想到这个回答真获奖了，正好前两周看到这本 MIT+FAIR 出品的未来深度学习理论圣经，还没出印刷版，给喜欢数学的读者放个正版PDF：The Principles of Deep Learning Theory；路过本文的其他读者也不能空手而归：Amazon 出品实践圣经《动手学深度学习》；较传统的就推荐前导师的经典《SVM》和《核方法》

跨年的时候只有几个简短的回答，以为是个没人看的问题，因为确实多数广义 AI 方向很工程，精妙也是主观感受，但我正好有感而答，感谢大家看完 hhh 居然一个月不到就五百多收藏了，字没白码~顺便感谢 @知乎科学的「数学问答集市」和 @留德华叫兽的提名，准备把这套数学书送给老弟，祝他虎年春节高考成年快乐三连~

也祝大家新年暴富、身体健康！

第一次更新

关于人工智能，不少人对 AlphaGo 之父 David Silver 这套「AI = DL + RL」是有信仰的：深度学习明确目标、强化学习提供方法，即可成就通用智能 (AGI)。以上是本回答第一条精妙的数学原理……？我就开个玩笑，这是可能是魔法吧 : ) 各分支精妙原理虽多，本回答还是侧重于总结两个门槛低但天花板高的知识点：机器学习入门一定见过、但最新的DL/RL论文还在花式运用的数学原理。本次更新添加了对偶性，公式较多但不看也能懂，争取雅俗共赏老少咸宜不脱发。

原答案提了一下看图学ML调包的同学容易误解的 kernel trick，讲了 CVPR2020 最佳论文提名 MoCo (FAIR) 和同一时间 MoVI (Google) 对历史知识点动量在深度学习和强化学习中的成功应用。MoCo 救活的不只是CV无监督学习，还救了我 : ) 去年在新模型中也采纳了类似策略，跟踪网络 moving average 加一个动量 loss 以保证 embedding space 一致性，效果拔群直接 SotA！

这里再补充一个能同时拿捏深度学习以及强化学习的精妙原理「对偶性」duality：很基础、很强大，比起之连独立词条都没有的动量，对偶性原理是上了维基百科的经典数学原理。很巧，对偶性也是最优化 (mathematical optimisation) 中诞生的原理，简化问题而不改变解，从经典的机器学习理论到强化学习领域全覆盖：线性规划 (如 MDP planning)，二次规划 (SVM)，二阶锥规划 (manifold learning)……而好用的 RL 多为动态规划 (DP)，近些年 duality 往强化学习上面套，因为 policy optimisation 和 policy evaluation 都是可以用脸线性规划 (LP) 表达的，给优化方向的科研提出新的挑战。谷歌 principled ML 大神 Bo Dai 曾发现利用了数学原理的操作确实比现有方法好，可见数学在 AI 中还有极大空间（不是魔改调包调参？！

简单地理解，对偶性原则即从两种角度看优化问题，对偶问题 (dual problem) 提供初始问题 (primal problem) 的极限，解对偶问题较为容易，找到 dual 的解相当于解决了 primal，看到这里计算机出身的朋友是不是满脑子都是计算理论的「归约」reduction？是有点那个意思。对偶问题在机器学习课本/帖子里学的一般都是讲拉格朗日对偶问题 (the Lagrangian dual problem)。经典算法如 SVM 的理论核心技巧就是利用对偶性将难以处理的不等式限制转化到对偶问题中，而对偶方法之所以能成，是因为对偶变量就是问题最本质的未知量。Mathematically，拉格朗日对偶：

将初始问题：
通过定义拉格朗日方程：
转化为对偶：，此时

具体比如，在 SVM 的 soft-margin 优化里是从

初始问题：
变成对偶：

省略符号定义和解释，本文关注数学在 AI 中思想运用的精妙而非推导上的细节。

2020 谷歌的 Fenchel-Rockafellar Duality 一文^[1]中也总结了 AlgaeDICE^[2]、DualDICE^[3]等文，强势运用了对偶性原理，先将强化学习的初始问题变成对偶问题，加入一个凸正则器 (convex regulariser) 后再次利用对偶性原理获得一个无约束优化问题。全过程精彩之处有很多，但对偶性的精妙在于通过找对偶化简了问题本身却没有改变问题的值/解，使 RL 问题能用随机/大型 (stochastic and large-scale) 的优化。将经典的数学更严格地用在强化学习算法中，形式上算法作为数学的延伸更加血统纯正了更加靠谱, principled，实际表现来也确实更强。

Mathematically，第一次利用对偶将 Q-value 版的原问题 Q-LP 变成 visitation 版对偶问题，一个 objective 数量上保持一致但 constraints 的数量也都等同于 state x action^[2]，align太乱了分行写：

初始目标：
初始条件：
初始解：
对偶目标：
对偶条件：
对偶解：

第二步很关键，两个版本其实都 constraints 太多，所以推导出无约束优化版^[3]进行下一步操作，即

现有
取变成

这个不是重点。现在利用了 f-divergence 使问题平滑化后，目标又变了条件没变，将约束条件简写为，其中，，第二次对偶去条件：

初始目标：，即
对偶问题：

最终我们就可以对这个无约束版的进行常规的梯度优化了, stochastic and large-scale，完美。这个非常数学的模型可以直接用 offline data 取得 on-policy policy gradient. 这就是经典数学原理对偶性在强化学习中的精妙应用～

更新完毕！一周前答着题跨年，到今天收获一个专业认可 + 两百赞 + 三百收藏，感动，字没白码！其实我离开 RL 很久而且数学修抽象代数和统计推断比较多所以本更新有些细节可能没有吃透，如果讲的有错或者有更好的理解还请大佬们一定要指正！

原答案

Momentum 和 kernel trick

首先不得不提「动量」momentum：1964年曾优化梯度下降，2019年先搞活计算机视觉无监督学习，又在强化学习有了一席之地。硬要分类的话属于应用数学「最优化」分支中的……原理？trick？其实梯度下降、遗传算法、神经网络、SVM 全都属于最优化的算法，但动量只是个通用的方法，在各种算法上都能套：动量原理取梯度均值而非当前梯度，是优化问题中稳定优化方向的常用策略。

人工智能涉及到优化的，就基本是跟着数据不断输入更新权重，但往往会出现权重更新太快反而「学」得很慢或「学」不到的问题，也会出现卡在局部极值的问题。有一个巨直观、巨简单的数学技巧可以解决问题，你说这是原理 principle 也好、策略 strategy 也好，当年老师图解 SGD 的时候甚至都觉得这是物理常识，可以简单理解为给参数赋予了惯性，还能冲破局部最小值，所以又称重球方法 (heavy ball method)。

给大家细讲一下 intuition：1964年就有的动量梯度下降^[4]一般来讲比梯度下降好用，因为用近期梯度均值做 (moving average of gradients) 做更新更稳一点，比说风就是雨的梯度下降来得安全。Facebook AI Research (FAIR) 何恺明等五大神把计算机视觉无监督学习搞活了的 CVPR2020 大作 MoCo^[5] (Momentum Contrast 动量对比) 也是考虑到编码器更新太快从而搞砸了 representation 的一致性，应用了动量这个原理/策略。像强化学习 RL 领域，Google Research Brain Team 和 CNRS 的大佬也尝试了动量的应用，搞出 MoVI^[6] (Momentum Value Iteration 动量价值迭代)，把 state-action value 看作梯度，在动态规划中取 q-values 均值实现 RL 的动量，发了 AISTATS2020 但好像关注度不高。

有的人可能觉得看公式好理解一点。Mathematically，动量就是给过去的变化均值一个权重，拿梯度下降的 weight update 极简举例：

梯度下降长这样：
动量梯度下降：

就是说本来而且但现在用动量了所以 , i.e. 以前，就这么简单个东西，经久不衰，就是个控制变化速度、保持 consistency 的小诀窍，在不同层次的应用上都很通用。

觉得我没讲清楚的初学者可以看看我找动图时发现的2017年的动态论文 Why Momentum Really Works！我还没看但是这个交互式的论文各种配图真的很有意思！当然做 CV 的朋友 MoCo 肯定是要读三遍的，我发现大神 @李沐居然在知乎有个 MoCo 论文逐段精读视频，感动哭了世界上还有这种好事，亲导师都不会这样带我品论文，比起读到秃头听他再讲一遍好爽啊

最后，人工智能太广了，机器人学应该有挺多精妙数学但我相信来这个问题的人应该不是冲着这个来的，logic-based 这种不知道算不算有数学，ML 算法里的精妙数学比如 SVM 里的证明还有 kernel trick 都很精彩，但感觉太经典了大家都学过配个图敷衍一下，就讲到这里吧，

不行还是要提一句精妙之处因为实在是太妙了，注意 kernel trick 的重要性不在于升维之后使线性分割成为可能，而在于我们可以在原特征空间内直接操作，不需要算高维空间的坐标，比如^[7]：

假设我们有三维数据，两个点：，此时想用升维至九 features，如果要先把和都算出再算计算量就了，但如果我们这么算：，这样一来一下子就变成在原三维空间的计算了。而这个例子中简单地将 kernel 定义为就完了。

过零点了，元旦快乐！

……

hmmm 最后本来想针对提问者背景再说两句然后发现是搞 CV 的应用数学博士大佬 @留德华叫兽那……欢迎大佬们补充指正评论，轻喷，感谢支持 T T

Facebook AI Research (FAIR) | MoCo 原文

We hypothesize that such failure is caused by the rapidly changing encoder that reduces the key representations' consistency. We propose a momentum update to address this issue. Formally, denoting the parameters of as and those of as , we update by: . —— MoCo

Google Research Brain Team | MoVI 原文

In reinforcement learning, the state-action value function can be seen informally as a kind of gradient, as it gives an improvement direction for the policy. Hence, we propose to bring the concept of momentum to reinforcement learning by basically averaging q-values in a DP scheme. —— MoVI

MoVI 原文中对动量的定义

In optimization, a common strategy to stabilize the descent direction, known as momentum, is to average the successive gradients instead of considering the last one. —— MoVI

参考

^Reinforcement Learning via Fenchel-Rockafellar Duality https://arxiv.org/abs/2001.01866
^^a^bAlgaeDICE: Policy Gradient from Arbitrary Experience https://arxiv.org/abs/1912.02074
^^a^bDualDICE: Behavior-Agnostic Estimation of Discounted Stationary Distribution Corrections https://arxiv.org/abs/1906.04733
^SOME METHODS OF SPEEDING UP THE CONVERGENCE OF ITERATION METHODS https://vsokolov.org/courses/750/files/polyak64.pdf
^Momentum Contrast for Unsupervised Visual Representation Learning https://arxiv.org/abs/1911.05722
^Momentum in Reinforcement Learning https://arxiv.org/abs/1910.09322
^What is the kernel trick? Why is it important? https://medium.com/@zxr.nju/what-is-the-kernel-trick-why-is-it-important-98a98db0961d

niuzhuang03 网友的相关建议:

相关性（Correlation）和因果性（Causality）可以用统一的数学概念框架——Copula熵（Copula Entropy：CE）来表述。

相关性和因果性是AI/ML/STATS的基础性概念。构建回归/分类模型就是发现相关性或因果性的过程。所有AI的问题本质上都是相关性或因果性的问题，这可以扩展到所有科学/哲学领域。

CE是一个统计相关性/独立性度量的数学概念，基于Copula理论中的Copula函数来定义。它具有完美的数学性质，包括对称性、单调变换不变性、非正性、高斯情况下与相关系数等价等。CE被证明与信息论的互信息（Mutual Information）等价。Copula函数和CE分别给出了相关性的函数表示和度量的数学理论。

CE同时被证明与因果性度量概念——传递熵（Transfer Entropy：TE）有理论联系，TE可以仅由CE来表示。TE等价于条件互信息，本质上是条件独立性（Conditional Independence）度量，可以认为是经典的格兰杰因果（Granger Causality）检验的非线性扩展。

因此，我们就得到了一个基于CE的统计独立性和条件独立性度量的统一的数学理论框架。框架概念简洁，理论清晰，却内涵深刻，可以说得上是精妙的。

CE/TE可以用来解决AI领域的经典问题，如变量选择（Variable Selection）、结构学习（Structure Learning）、因果发现（Causal Discovery）、域自适应（Domain Adaptation）等，在诸多学科领域都得到了实际应用。

CE理论具有普适性，已被应用于研究微观分子、洪水干旱、大气污染、病毒和微生物、大脑和神经系统、心脏病、糖尿病、阿尔茨海默症、癌症、新冠肺炎、扶贫攻坚、性别平等、政治安全、可再生能源、遥感图像、航天器、金融股票等等。

具体参见如下综述论文：

马健. Copula熵：理论和应用. ChinaXiv:202105.00070 (2021).

统计独立性是统计学和机器学习领域的基础性概念，如何表示和度量统计独立性是该领域的基本问题。Copula理论提供了统计相关性表示的理论工具，而Copula熵理论则给出了度量统计独立性的概念工具。本文综述了Copula熵的理论和应用，概述了其基本概念定义、定理和性质，以及估计方法。介绍了Copula熵研究的最新进展，包括其在统计学四个基本问题（结构学习、关联发现、变量选择和时序因果发现等）上的理论应用。讨论了四个理论应用之间的关系，以及其对应的深层次的相关性和因果性概念之间的联系，并将Copula熵的（条件）独立性度量框架与基于核函数和距离的相关性度量框架进行了对比。简述了Copula熵在理论物理学、化学信息学、水文学、环境气象学、生态学、认知神经学、运动神经学、计算神经学、系统生物学、生物信息学、临床诊断学、老年医学、公共卫生学、经济政策学、社会学、政治学，以及能源工程、制造工程、可靠性工程、航空工程、通信工程、测绘工程和金融工程等领域的实际应用。

或这两篇专栏文章：理论应用和实际应用。

CE/TE估计算法已实现为算法包copent，请见：

R: CRAN and GitHub
Python: PyPI and GitHub

利用copent包，我将copula熵的相关性和因果性度量与其他的相关性/因果性度量进行了对比，建立了两个github的代码库。

相关性度量对比示例代码库 [ github repo ]

此库基于UCI心脏病公开数据集，对比了如下相关性度量：

Copula Entropy [1],
Hilbert-Schimdt Independence Criterion (HSIC) [2,3],
Distance Correlation [4].
Heller-Heller-Gorfine Tests of Independence [5],
Hoeffding's D test [6],
Bergsma-Dassios T* sign covariance [7],
Ball correlation [8],
BET: Binary Expansion Testing [9],
qad: Quantification of Asymmetric Dependence [10],
MixedIndTests [11],
NNS: Nonlinear Nonparametric Statistics [12],
subcopula based dependence measures [13],
MDM: Mutual Independence Measure [14].

利用相关性度量选择与心脏病诊断有关的生理变量，结果表明了CE优于其他方法。

因果性度量对比示例代码库 [ github repo ]

此库利用UCI的北京PM2.5数据集，分析气象因素与PM2.5浓度之间的因果关系，对比了如下条件独立性度量：

Transfer Entropy via Copula Entropy (TE) [15];
Conditional Distance Correlation (CDC) [16];
Kernel-based Conditional Independence (KCI) [17];
COnditional DEpendence Coefficient (CODEC) [18];
Generalised Covariance Measure (GCM) [19];
weighted Generalised Covariance Measure (wGCM) [20];
Kernel Partial Correlation (KPC) [21];
Partial Correlation (pcor);
Randomized conditional Correlation Test (RCoT) [22];
kNN based Conditional Mutual Information Estimators [23,24];
Fast Conditional Independence Test (fcit) [25];
Model-Powered Conditional Independence Test (CCIT) [26];
Predictive Conditional Independence Testing (PCIT) [27];
Conditional Kendall's Tau (CKT) [28];
Conditional Mean Dependence (CMD) [29].

结果表明，基于CE的方法优于其他对比方法。

参考文献

略（见github库的说明文件）

ItsMrLin 网友的相关建议:

最大似然估计 (maximum likelihood estimation, MLE)

MLE应该是所有上过入门统计课或者是机器学习课程的同学们都接触过的概念。其核心想法是在估计参数时，寻找一个值使我们观测到的数据的“可能性”最大化。对于一个有N个点IID分布的数据集，我们有。

MLE有趣的地方在于这个看似简单直接的概念在其他的很多地方又以不同的形式反复出现，以下是几个常见的例子，也欢迎大家补充。

MLE与OLS

普通最小二乘法（ordinary least squares，OLS）是参数估计中的一个常用方法（尤其是在各种线性回归当中）。对于线性回归，OLS告诉我们是最佳线性无偏估计量（the best linear unbiased estimator, BLUE）。我们假设参数服从一个多元正态分布的时候（即 ), MLE与OLS的估计量（estimator）是相同的^[1]。

MLE与贝叶斯推断（Bayesian Inference）

在统计推断当中，通过MLE得出来的估计量往往是被看做频率学派（frequentist）的方法。而当我们引入了先验分布，从贝叶斯的角度来看，在先验分布为均匀分布（uniform distribution）的时候，MLE其实等价于最大后验概率（maximum a posteriori estimation, MAP, 有时也称为most probable Bayesian estimator）。当这个先验分布为拉普拉斯分布的时候，我们便有了L1正则化（L1 regularization，在线性回归以及一些其他的拓展当中也称为Lasso）。当这个先验分布为正态分布的时候，我们便有了L2正则化（L2 regularization，有时也称为Ridge）。

MLE与KL散度

KL散度（Kullback-Leibler divergence, KL Divergence, KLD)，也称为相对熵（relative entropy）或者信息增益（information gain），是在比较两个分布的相似性的时候的一个常用方法，也常常在深度学习的应用中作为一个优化的损失函数。对于两个离散分布P和Q，P相对于Q的KL Divergence定义为。这个形式与对数似然函数值（log likelihood）看起来非常相似。实际上，我们可以证明在给定数据的情况下估计参数时，最大化似然函数等价于最小化KL散度^[2]。

MLE与AIC和BIC

AIC全称为Akaike Information Criterion，最初是用来估计数据生成过程（data generating process）与拟合模型之间的KL散度的期望值，常常用于模型选择。其定义为，其中k是参数的数量，而L则是似然函数。显然，当参数数量k固定时，可以最大化AIC。实际上，AIC也是基于KL散度的定义推广而来^[3]^[4]。类似的，当我们把这一项换为我们便得到了Bayesian Information Criterion, BIC^[5]。实际上，当在选择使用MLE估计模型的时候，AIC或者BIC都是常见模型选择标准。

顺便夹带私货插播一则关于AIC的小故事：

MLE与费希尔信息以及Cramer-Rao下界

我最初了解到Cramer-Rao下界（Cramer-Rao Lower Bound, CRLB）的时候是在本科的某节数理统计课上。CRLB说明了对于某个未知固定参数的无偏统计量（unbiased estimator），其方差不会小于其费希尔信息（Fisher information）的倒数。利用费希尔信息的定义，我们可以证明当数据趋近于无穷大的时候，MLE是的方差是可以达到这个下界的，并且其渐进采样分布（asymptotic sampling distribution）也是一个多元正态分布，即。

参考

^ Hayashi, Fumio (2000). Econometrics. Princeton University Press. p49.
^Deep Learning Ch. 5 Machine Learning Basics. p128-129 https://www.deeplearningbook.org/contents/ml.html
^M. Mattheakis, P. Protopapas. CS 109A: Advanced Topics in Data Science: Model Selection & Information Criteria: Akaike Information Criterion https://harvard-iacs.github.io/2018-CS109A/a-sections/a-section-2/presentation/a-sec2-MLEtoAIC.pdf
^ Akaike, H. (1973), "Information theory and an extension of the maximum likelihood principle", in Petrov, B. N.; Csáki, F. (eds.), 2nd International Symposium on Information Theory, Tsahkadsor, Armenia, USSR, September 2-8, 1971, Budapest: Akadémiai Kiadó,
^ Friedman, Jerome, Trevor Hastie, and Robert Tibshirani. The elements of statistical learning. Springer series in statistics, 2016. p233

人工智能领域有哪些精妙的数学原理？的其他答案点击这里

人工智能领域有哪些精妙的数学原理？第1页

第二次更新

第一次更新

原答案

参考

MLE与OLS

MLE与贝叶斯推断（Bayesian Inference）

MLE与KL散度

MLE与AIC和BIC

MLE与费希尔信息以及Cramer-Rao下界

参考

相关话题

前一个讨论

下一个讨论

相关的话题

人工智能领域有哪些精妙的数学原理？ 第1页

第二次更新

第一次更新

原答案

参考

MLE与OLS

MLE与贝叶斯推断（Bayesian Inference）

MLE与KL散度

MLE与AIC和BIC

MLE与费希尔信息以及Cramer-Rao下界

参考

相关话题

前一个讨论

下一个讨论

相关的话题

人工智能领域有哪些精妙的数学原理？第1页