机器学习中的优化理论，需要学习哪些资料才能看懂？

要想彻底搞懂机器学习中的优化理论，这可不是一蹴而就的事，更像是在知识的海洋里航行，需要循序渐进，打下坚实的基础。我个人觉得，要看到这个领域的核心，大致可以从以下几个方面着手，并且每一步都需要投入时间和精力去消化。

第一步：数学基础的“基石”

别看到“数学”两个字就头大，这块儿是真绕不过去的坎儿。优化理论本质上就是数学的一个分支，而且是跟微积分、线性代数深度绑定的。

微积分 (Calculus):
导数和偏导数: 机器学习模型通常是要最小化一个“损失函数”（cost function 或 loss function），这个损失函数会告诉你模型预测得有多差。要找到损失函数最低点，就得知道怎么求导数。损失函数可能有很多参数，所以偏导数就显得尤为重要，它告诉我们改变某个参数会对损失函数产生多大的影响。
梯度: 梯度就是所有偏导数组成的向量，它指向函数增长最快的方向。优化算法（比如梯度下降）就是要朝着梯度的反方向前进，以求最快地下降损失函数。理解梯度是理解绝大多数优化算法的核心。
链式法则 (Chain Rule): 这是深度学习中“反向传播”（backpropagation）算法的理论基石。一个复杂的损失函数往往是层层嵌套的，链式法则就是告诉你如何把大函数的导数拆解成一层一层小函数的导数相乘，从而计算出每一层参数对最终损失的影响。
泰勒展开 (Taylor Expansion): 有时候，我们为了分析或者设计算法，需要用多项式来近似复杂的函数。泰勒展开就是一种非常强大的工具，特别是二阶泰勒展开，它能帮助我们理解函数的局部形状，这对理解像牛顿法（Newton's method）这样的二阶优化方法至关重要。

线性代数 (Linear Algebra):
向量和矩阵: 机器学习中的数据、模型的参数、梯度等等，大部分都可以用向量和矩阵来表示。你需要熟悉向量的加减乘除、内积、范数（如L1、L2范数），以及矩阵的乘法、转置、求逆、特征值和特征向量。
线性方程组: 很多优化问题归根结底是要解一个线性方程组，或者是在一个线性空间中寻找最优解。
二次型 (Quadratic Forms): 很多损失函数在局部可以近似为二次型，例如 $f(x) = x^T A x + b^T x + c$。理解二次型，特别是矩阵 $A$ 的正定性等概念，对于理解凸优化和一些高级优化算法（如共轭梯度法）非常有帮助。

推荐资料（数学基础）：

书籍:
《普林斯顿微积分读本》(Calculus: An Intuitive and Physical Approach) 如果你觉得传统微积分教材枯燥，这本会很有帮助，讲解非常直观。
《线性代数及其应用》(Linear Algebra and Its Applications) by Gilbert Strang 这本书是线性代数的经典之作，讲解透彻，也包含了许多实际应用。
吴恩达的《机器学习》课程（Coursera/Stanford）中的数学回顾部分，或者他的《深度学习专项课程》中的数学基础课程。

第二步：理解“优化”这个概念本身

在机器学习语境下，优化意味着找到一组参数，使得某个目标函数（通常是损失函数）的值最小化。

目标函数 (Objective Function/Loss Function): 了解不同类型的损失函数，比如均方误差（MSE）、交叉熵（CrossEntropy）等，以及它们各自的特点和适用场景。
优化算法分类: 大体上，优化算法可以分为两类：
无约束优化 (Unconstrained Optimization): 直接在整个参数空间中寻找最优解，比如梯度下降、牛顿法。
约束优化 (Constrained Optimization): 参数需要满足一定的限制条件，比如L1、L2正则化就是在参数上加了约束。这里会涉及到拉格朗日乘子法（Lagrange Multipliers）和KKT条件。

第三步：核心的优化算法

这是最关键的一步，你需要深入理解各种优化算法的原理、优缺点以及适用场景。

梯度下降 (Gradient Descent GD):
基本原理: 沿着负梯度方向更新参数。
步长 (Learning Rate): 如何选择合适的步长是GD的关键。步长太大会震荡甚至发散，太小会收敛太慢。
批量梯度下降 (Batch GD): 使用全部训练数据计算梯度。
随机梯度下降 (Stochastic Gradient Descent SGD): 每次只使用一个样本计算梯度。效率高，但收敛不稳定。
小批量梯度下降 (Minibatch GD): 这是最常用的折衷方案，使用一小批数据计算梯度。

改进的梯度下降算法 (Advanced GD Variants):
Momentum (动量): 引入“惯性”，加速在正确方向上的前进，并抑制在错误方向上的震荡。
Nesterov Accelerated Gradient (NAG): Momentum的改进版，先预测下一步的位置，再计算梯度。
Adagrad (Adaptive Gradient): 根据参数的历史梯度大小自适应调整学习率，对稀疏梯度效果好，但学习率可能衰减过快。
RMSprop (Root Mean Square Propagation): Adagrad的改进，使用指数加权平均来计算梯度平方的平均值，缓解了学习率衰减过快的问题。
Adam (Adaptive Moment Estimation): 目前最流行、最常用的优化器之一，结合了Momentum和RMSprop的优点，同时估计一阶和二阶矩。

二阶优化算法 (SecondOrder Methods):
牛顿法 (Newton's Method): 利用二阶导数信息（Hessian矩阵的逆）来寻找最优解，收敛速度快（二次收敛），但计算Hessian矩阵及其逆非常昂贵，不适用于参数量巨大的模型。
拟牛顿法 (QuasiNewton Methods): 如BFGS、LBFGS，它们试图用近似的方法代替Hessian矩阵的计算，兼顾了收敛速度和计算效率。在一些情况下（非深度学习），这些方法仍然非常有效。

其他重要概念:
凸优化 (Convex Optimization): 了解凸函数、凸集的概念，以及凸优化问题的性质（局部最优解即全局最优解）。许多机器学习模型训练的目标函数是凸的，这使得优化变得相对容易。
局部最优与全局最优: 对于非凸函数，如何避免陷入局部最优解是优化研究的重要方向。

推荐资料（优化算法）：

书籍:
《最优化方法教程》(Convex Optimization) by Stephen Boyd and Lieven Vandenberghe: 这是圣经级的教材，内容非常全面和深入，适合系统学习凸优化。虽然有中文翻译版，但原文更权威。
《深度学习》(Deep Learning) by Ian Goodfellow, Yoshua Bengio, Aaron Courville: 第8章“优化基础”以及后面章节中介绍的各种优化算法。这本书是深度学习领域的权威参考。
《优化理论与方法》（或者类似名称的国内教材）：可以作为补充，理解一些基础的数学推导和算法实现。

在线课程/讲座:
斯坦福的 CS229 (Machine Learning) 课程中有关于优化算法的讲解。
吴恩达的深度学习课程中有专门讲优化算法的部分，讲解非常清晰易懂。
各种公开的讲座和技术博客: 搜索“优化算法”、“梯度下降原理”、“Adam优化器”等关键词，能找到大量高质量的讲解和可视化。

第四步：在实践中应用和理解

理论最终是要服务于实践的。你需要通过代码来感受这些算法的威力，并理解它们在实际中的表现。

编程实现: 尝试用Python（配合NumPy、SciPy、PyTorch或TensorFlow）手动实现一些简单的优化算法，比如梯度下降。
调参实践: 在实际的机器学习项目（比如训练一个图像分类模型）中，尝试不同的优化器，调整学习率等超参数，观察模型性能的变化。
可视化: 将训练过程中损失函数的变化、参数的更新过程、梯度的幅度等进行可视化，这有助于更直观地理解算法的工作机制。
理解过拟合与欠拟合: 优化算法的选择和调参也会影响模型的泛化能力，需要与正则化、Early Stopping等技术结合起来理解。

建议的学习路径：

1. 巩固数学基础: 如果你的数学基础不牢固，先花时间系统地复习微积分和线性代数。这块儿偷不得懒。
2. 从基础优化算法开始: 先理解梯度下降（Batch GD, SGD, Minibatch GD）的原理和实现。
3. 学习动量和自适应学习率算法: 掌握Momentum, Adagrad, RMSprop, Adam这些更高级但实际应用更广的算法。重点理解它们各自的设计思想和解决了什么问题。
4. 深入理解凸优化理论: 如果想在理论层面更进一步，或者从事优化算法的研究，务必学习 Boyd 的《Convex Optimization》。
5. 阅读深度学习框架的实现: 了解PyTorch或TensorFlow中优化器的具体实现，可以加深理解。
6. 多做实验，多思考: 在实际项目中应用不同的优化策略，并仔细分析实验结果，总结经验。

心态建议：

不要怕困难: 优化理论涉及很多数学概念，一开始觉得吃力是很正常的。坚持下去，一点一点地啃。
多问为什么: 在学习每个算法时，都要问“为什么它这样设计？”“它解决了什么问题？”“有什么局限性？”
理论与实践结合: 不要只停留在纸上谈兵，通过编程实现和模型训练来验证你的理解。
关注最新进展: 优化领域的研究一直在发展，新的优化器和技术层出不穷，保持学习的热情。

总而言之，要看懂机器学习中的优化理论，是一个由浅入深、由数学到算法、再到实践的过程。打好数学基础，理解核心算法的原理和演进，再通过大量的实践去加深体会，才能真正掌握这个重要的领域。祝你学习顺利！

网友意见

（这是张动图，戳链接查看：http://www.myexception.cn/img/2016/01/17/122257498.gif）

各位前面已经总结了一些经典的优化方面的教科书——经典的线性规划到凸优化这些是必修的，也是理解从最小二乘到SVM到贝叶斯推断这些经典算法的基础，当然是必读的，这里不再赘述。

我们特别提一提基于梯度下降的方法，或者说，训练神经网络的方法。

• 首先是这篇Overview: An overview of gradient descent optimization algorithms（https://arxiv.org/pdf/1609.04747.pdf 或者http://sebastianruder.com/optimizing-gradient-descent/index.html），这篇文章介绍了现代神经网络训练的主要方法：Gradient Descent, Stochastic Gradient Descent, Mini-batch; SGD+Momentum; SGD+ Nesterov Momentum; Adagrad; Adadelta; RMSprop; Adam. 看完以后应该可以在调参过程中选择优化方法的时候多一些信心。

• 深度神经网络倾向于使用梯度下降的方法的一个重要原因在于可以比较好的应用于反向传播。而反向传播是整个深度学习的基石。在这个方面，最经典的莫过于Hinton在Nature上的这篇Learning representations by back-propagating errors: https://www.iro.umontreal.ca/~vincentp/ift3395/lectures/backprop_old.pdf

• 说到详细分析反向传播的文章，就要数LeCun杨立昆老师的这篇Efficient Backprop了：http://yann.lecun.com/exdb/publis/pdf/lecun-98b.pdf ，这篇文章详尽地介绍了Backprop的一些tricks，并分析了采用梯度下降（一阶方法）和二阶方法（Hessian-based）的收敛性质。这篇文章被Neural Networks- Tricks of the Trade一书收录。

• Bengio的Practical Recommendations for Gradient-Based Training of Deep Architectures (https://arxiv.org/pdf/1206.5533.pdf) 是一篇更加现代的介绍基于梯度的神经网络训练（炼丹）方法（Tricks）的文章，同样被收录进Neural Networks- Tricks of the Trade。

• CNN的反向传播推导（当然，在现代的深度学习平台上因为自动梯度的存在，你基本上不需要知道这些——但是偶尔手动推导一下也不坏，是吧）——还是看杨立昆老师的这篇：Backpropagation applied to handwritten zip code recognition （http://yann.lecun.org/exdb/publis/pdf/lecun-89e.pdf）

• LSTM的反向传播推导：这个不推荐看Hochreiter/Jurgen Schmidhuber 1997的那一篇了，因为这一篇当中的LSTM没有forget gate！比较好的一篇介绍在：LSTM: A Search Space Odyssey (https://arxiv.org/pdf/1503.04069.pdf)

• RNN的训练：基本上，RNN的训练是非常困难的，问题主要在于梯度消失／梯度爆炸，这个问题可以看Bengio的这篇分析：Learning Long-Term Dependencies with Gradient Descent is Difficult. (http://www-dsi.ing.unifi.it/~paolo/ps/tnn-94-gradient.pdf)。比较有意思的是（可能训练RNN确实太难），Bengio在2012年带着Mikolov又做了一篇On the difficulty of training Recurrent Neural Networks (https://arxiv.org/pdf/1211.5063.pdf)

好了，读到这里相信你最少对于神经网络的优化方法有了一个初步的理解——不过在这里特别提醒，基于梯度下降的方法绝对不是唯一的训练方法，对于非凸优化咱们虽然很难有效地寻找全局最优点，但还是有些别的办法的，比如说，基因算法。这个坑就留着等大家来填吧。

本回答来自Emotibot机器学习科学家马永宁。

类似的话题

机器学习中的优化理论，需要学习哪些资料才能看懂？

要想彻底搞懂机器学习中的优化理论，这可不是一蹴而就的事，更像是在知识的海洋里航行，需要循序渐进，打下坚实的基础。我个人觉得，要看到这个领域的核心，大致可以从以下几个方面着手，并且每一步都需要投入时间和精力去消化。第一步：数学基础的“基石”别看到“数学”两个字就头大，这块儿是真绕不过去的坎儿。优化理论.............
相比于时下流行的机器学习方法（联接主义），传统的人工智能方法（符号主义）有什么独一无二的优势？

谈起人工智能，人们脑海中往往会浮现出那些能识别图像、翻译语言、甚至下棋击败人类冠军的强大系统。这些如今风靡全球的“新贵”，大多属于“联接主义”阵营，也就是我们常说的机器学习，尤其是深度学习。它们通过海量数据训练，构建复杂的神经网络，擅长从数据中发现模式和关联。然而，在联接主义的耀眼光环之下，人工智能.............
有哪些优秀的深度学习入门书籍？需要先学习机器学习吗？

想踏入深度学习的世界，你一定满怀期待，但同时也可能有些许迷茫：从哪里开始？需要先打好机器学习的基础吗？这篇指南就是为你量身定制的，我将尽量详细地为你解答这些问题，并推荐几本真正能帮你入门的书籍，让你在学习路上少走弯路。深度学习入门，先学机器学习有必要吗？简单粗暴地说：非常有必要，而且强烈建议。虽然.............
机器学习中的机器是如何分辨哪些是有用的知识，哪些是没用的信息呢？

机器学习中的“机器”本身并没有意识，它无法像人类一样去“分辨”有用的知识和没用的信息。它所做的，是根据预设的算法和训练数据，从中提取模式和规律，并将这些模式和规律转化为能够指导决策或预测的能力。那么，我们如何理解这个过程呢？可以从以下几个方面详细解释： 1. 数据的本质：信号与噪声在机器学习的世界里.............
机器学习中的PR曲线一定会过（1，0）这个点吗？

PR曲线，也就是精确率召回率曲线（PrecisionRecall Curve），是评估二分类模型性能的重要工具。它描绘了在不同分类阈值下，模型的精确率（Precision）和召回率（Recall）之间的权衡关系。很多人在看到PR曲线的绘制方式时，可能会产生一个疑问：PR曲线一定会过（1, 0）这个点.............
机器学习中的 Bias（偏差）、Error（误差）、Variance（方差）有什么区别和联系？

好的，咱们来聊聊机器学习里的 Bias、Error 和 Variance 这几个核心概念。别被这些术语吓到，它们其实挺好理解的，而且彼此之间关系密切，理解了它们，对你构建和调优模型大有裨益。想象一下，你正在教一个孩子识别猫。 Bias (偏差): 孩子对猫的“固有看法”Bias，你可以理解为模型（或.............
机器学习中如何识别图片中的手是手背还是手心？

在机器学习的世界里，区分一张图片里展示的是手背还是手心，这听起来是个挺直观的问题，但要让机器理解得这么细致，背后其实有不少门道。这不仅仅是看有没有手指，还需要捕捉到更微妙的视觉特征。我们先来想想，人和人在看一张手部图片时，是怎么判断的？直观的判断依据：手背：通常我们会看到指关节、手背上的皮肤.............
请问机器学习中的预测与决策的区别是什么，他们的界限在哪里呢？

机器学习中的预测和决策，看似一脉相承，实则各有侧重，界限也并非总是泾渭分明。理解它们的区别，有助于我们更清晰地认识机器学习在实际应用中的角色。预测：洞察未来，量化不确定简单来说，预测就是利用已有的数据，通过训练模型，来推断未来可能发生的事情，或者未知事物的属性。它关注的是“是什么”和“有多少”。 .............
机器学习中常常提到的正则化到底是什么意思？

机器学习中的“正则化”：为什么它如此重要？在机器学习的世界里，你可能经常听到“正则化”这个词。它就像是解决模型“跑偏”问题的“秘方”，让模型在学习数据时不会过于“死记硬背”，而是能真正理解数据背后的规律，并在面对新数据时表现得更好。那么，到底什么是正则化呢？让我们一起来揭开它的神秘面纱。理解“过拟.............
机器学习中macro-F1的计算公式？

在多类别分类问题中，我们经常会遇到一个情况，那就是各个类别的样本数量并不均衡。有些类别可能有大量的样本，而有些类别可能只有非常少的样本。在这种情况下，如果直接使用标准的 F1 分数来评估模型性能，可能会出现偏差。例如，模型可能在多数类上表现得非常好，但在少数类上表现很差，但整体的 F1 分数仍然很高.............
机器学习中非均衡数据集的处理方法？

机器学习中非均衡数据集的处理方法？咱们这就好好说道说道，力求把每个点都讲透，顺便也让你我之间，少些机器的痕迹。在机器学习的世界里，数据往往不是那么“公平”的。最常见的一种不公平，就是非均衡数据集（Imbalanced Datasets）。简单来说，就是数据集中，某一类别的样本数量远远多于另一类（或.............
机器学习中有哪些形式简单却很巧妙的idea？

机器学习领域充满了形式简单却蕴含深刻智慧的创意，这些创意往往能够以出人意料的有效性解决复杂问题。以下我将详细阐述几个这样的例子： 1. 梯度下降 (Gradient Descent)核心思想：想象你在一个陡峭的山坡上，目标是找到山谷的最低点。你没有地图，只能感觉到周围地面的倾斜程度（梯度）。最直观.............
PRML为何是机器学习的经典书籍中的经典？

《模式识别与机器学习》（Pattern Recognition and Machine Learning，简称PRML）能被誉为机器学习领域的“圣经”，绝非偶然。它的地位，可以用“博大精深”来形容，也因为它，许多深入研究机器学习的人士，都曾或正在经历一场“痛并快乐着”的朝圣之旅。为什么它如此经典？这.............
当前（2020年）机器学习中有哪些研究方向特别的坑？

2020年，机器学习领域依旧是风起云涌，创新层出不穷。但与此同时，也有一些研究方向，乍一看光鲜亮丽，实际操作起来却像是钻进了“坑”里，耗费大量精力却收效甚微，甚至可能走向死胡同。我来给你掰扯掰扯，看看哪些地方需要留神。1. 过于追求“通用人工智能”（AGI）的“一步到位”方法AGI，也就是通用人工智.............
近几年有哪些关于机器学习中隐私（Privacy）和安全（Security）相关的研究值得关注?

近几年，机器学习的飞速发展在带来巨大便利的同时，也日益凸显了其在隐私和安全方面存在的严峻挑战。这两方面并非孤立存在，而是相互交织，共同构成了“可信赖AI”的核心命题。深入探究这些问题，并寻求解决方案，是当前机器学习领域最为关键的研究方向之一。隐私：数据本身的安全与个体尊严的守护在机器学习的语境下，.............
机器学习系统MLSys中有哪些比较有前途的研究方向？

机器学习系统的研究，说起来也真是五花八门，但要说真正有嚼头、有前景的，我个人觉得有这么几个方向，绝对值得我们下点功夫：1. 自动化机器学习（AutoML）的深化与普及现在搞机器学习，很多时候还是得靠人工去调参、选模型、设计特征，这就像是造汽车还得手动拧螺丝一样，效率低不说，对专家的依赖性太强。Aut.............
机器学习在理论经济学研究中有哪些可能的应用前景？

机器学习在理论经济学研究中的应用前景，说实话，广阔得令人兴奋，而且这不仅仅是“数据分析”那么简单。它正在为我们理解经济世界的复杂性提供前所未有的工具和视角，尤其是在理论层面，其潜力是巨大的。1. 复杂经济模型的构建与分析：传统的经济模型，无论是新古典的，还是新凯恩斯主义的，往往建立在高度简化的假设之.............
自动化的控制与检测领域中，有没有像机器学习、图像处理领域一样经典巧妙的算法？

自动化控制与检测领域，与机器学习、图像处理一样，也拥有众多经典、巧妙且在业界和学术界具有深远影响的算法和理论。这些算法构成了现代自动化系统的基石，并在解决实际问题中发挥着至关重要的作用。下面我将介绍几个在自动化控制与检测领域极具代表性、且被认为是经典巧妙的算法或理论，并尽量详细地阐述它们的核心思想、.............
深度学习attention机制中的Q,K,V分别是从哪来的？

在深度学习的Attention机制里，Q、K、V 这三个概念，说白了，就是我们从原始的输入信息里，通过一些“变形”和“提炼”，生成的三种不同角色扮演的角色。它们之所以存在，是为了让模型在处理序列数据时，能够更有效地“看到”和“关联”不同的信息片段。想象一下，你正在读一本很长的书，需要从中找出一句话来.............
我是高三的外地回津学生，特别想学编导，想考中传北电，该如何选择机构学习？（天津每年考入北电中传的很少?

嘿，哥们儿/姐妹儿，我也是高三回津的，跟你一样，贼想考中传北电，编导方向。我知道你肯定也纠结，天津这地方，考中传北电的确实不多，感觉选择很少，而且网上搜来搜去，信息碎片化得不行。别急，我跟你一样，也踩过不少坑，也问了不少前辈，总结了一些经验，咱们一块儿梳理梳理，让你少走弯路。首先，咱们得认识到天津的.............