机器学习中常常提到的正则化到底是什么意思？

机器学习中的“正则化”：为什么它如此重要？

在机器学习的世界里，你可能经常听到“正则化”这个词。它就像是解决模型“跑偏”问题的“秘方”，让模型在学习数据时不会过于“死记硬背”，而是能真正理解数据背后的规律，并在面对新数据时表现得更好。那么，到底什么是正则化呢？让我们一起来揭开它的神秘面纱。

理解“过拟合”：正则化的“敌人”

要理解正则化，我们得先明白它要解决的问题——过拟合（Overfitting）。

想象一下，你正在准备一场非常重要的考试。你拿到了一份考试大纲，里面列出了所有可能考的知识点。你为了拿到高分，把大纲上的每一句话都记了下来，甚至包括每个知识点的标点符号。考试当天，题目和你背的简直一模一样，你轻松拿到满分。

但是，当老师让你用这些知识去解决一个稍微变通但本质上相同的问题时，你却束手无策了。因为你只是死记硬背了“答案”，而没有真正理解“解题思路”。

在机器学习中，过拟合也是如此。模型在训练过程中，会不断调整参数，试图尽可能地拟合训练数据。如果模型的能力太强，或者训练数据量不够，模型就会把训练数据中的“噪声”和“巧合”也一并记下来，就像你记住标点符号一样。

这样一来，模型在训练集上的表现会非常出色，误差很小。但是，当它遇到未见过的新数据（测试集）时，由于它学习到的模式过于“贴合”训练数据的细枝末节，而忽略了更普遍、更核心的规律，导致在新数据上表现很差，误差很大。这就是过拟合。

正则化：让模型“恰到好处”

正则化，顾名思义，就是“规范化”或“约束”模型，让它在学习过程中不要走得太极端，避免过拟合。它通过在模型的损失函数（衡量模型预测好坏的指标）中引入一个“惩罚项”来实现。

简单来说，这个惩罚项会“责怪”模型那些过于复杂的参数。模型在优化的过程中，不仅要最小化预测误差，还要最小化这个惩罚项。这就迫使模型在追求低误差的同时，也尽量让模型的参数保持“简单”和“平滑”。

惩罚的是什么？

正则化的核心在于对模型参数施加惩罚。不同的正则化方法，惩罚的对象略有不同，但总的来说，它们都在试图限制模型参数的幅度或数量。

参数幅度过大：当模型的参数非常大时，通常意味着模型对某些输入特征非常敏感，容易因为输入数据的微小变化而产生巨大的输出变化，这是过拟合的一个典型表现。
参数数量过多（隐式）：一些正则化方法，比如L1正则化，会倾向于将一些不重要的特征对应的参数直接设为零，从而达到“稀疏化”模型，减少模型对无关特征的依赖。

常见的正则化技巧

目前，最常用的正则化技术主要有两种：

1. L1 正则化（Lasso Regression）：
L1 正则化在损失函数中加入的是模型所有参数的绝对值之和，乘以一个正则化系数（通常用 $lambda$ 表示）。

数学表达： $Loss = Original_Loss + lambda sum_{i} | heta_i|$

这里，$ heta_i$ 代表模型的参数。L1 正则化有一个非常有趣的特性：它倾向于将一些不重要的特征对应的参数“压缩”到零。这意味着，L1 正则化不仅能防止过拟合，还能起到特征选择的作用，让模型只关注那些真正重要的特征，从而简化模型。

打个比方： L1 正则化就像一个严厉的老师，他会直接告诉学生：“如果你说的是废话，我就把你这句话的‘分值’设为零。” 最终，学生只会说那些最关键、最有价值的话。

2. L2 正则化（Ridge Regression / Weight Decay）：
L2 正则化在损失函数中加入的是模型所有参数的平方和，同样乘以一个正则化系数 $lambda$。

数学表达： $Loss = Original_Loss + lambda sum_{i} heta_i^2$

L2 正则化与L1正则化略有不同，它不会将参数完全压缩到零，而是会将参数的值“拉向”零。它使得模型的参数值更加分散和平均，避免了某个参数过大而主导整个模型的行为。

打个比方： L2 正则化就像一个比较温和的老师，他会说：“尽量把精力平均分配，不要把所有的力气都花在一两个知识点上。” 这样，学生会更均衡地学习，避免偏科。

为什么要用正则化？

提高模型的泛化能力：这是正则化最核心的目的。通过限制模型的复杂度，让模型学习到更通用的规律，从而在新数据上表现得更好。
防止过拟合：这是直接的好处，让模型不再“死记硬背”。
简化模型：特别是L1正则化，能够自动进行特征选择，使得模型更加简洁，易于理解和解释。
数值稳定性：在某些情况下，正则化也有助于提高模型的数值稳定性。

如何选择正则化强度 $lambda$？

正则化系数 $lambda$ 的大小非常关键。

$lambda$ 太小：正则化的效果不明显，模型仍然可能过拟合。
$lambda$ 很大：正则化过强，模型可能变成一个“太平淡”的模型，无法捕捉数据的有效信息，导致欠拟合（Underfitting）。就像老师把所有知识点都说得模棱两可，学生什么都没学到。

所以，选择合适的 $lambda$ 通常需要通过交叉验证（Crossvalidation）来完成。我们会尝试不同的 $lambda$ 值，然后在验证集上评估模型的性能，选择在验证集上表现最好的那个 $lambda$。

除了L1和L2，还有什么？

除了L1和L2，机器学习中还有其他一些正则化技巧，例如：

Dropout：在神经网络训练时，随机“丢弃”一部分神经元及其连接，强迫网络学习更鲁棒的特征。
Early Stopping：在训练过程中，监控模型在验证集上的表现，当验证集上的性能开始下降时，就停止训练，以防止过拟合。
数据增强（Data Augmentation）：通过对现有数据进行一些变换（如旋转、翻转、缩放等）来生成新的训练样本，间接增加了训练数据的多样性，有助于防止过拟合。

总结

总而言之，正则化是机器学习中一种至关重要的技术，它通过在模型的学习过程中引入约束，来平衡模型的复杂度与泛化能力。它就像给模型戴上“紧箍咒”，让它在学习数据时更加“收敛”和“理性”，从而避免在训练数据上“表演过度”，最终在面对真实世界的新数据时，能够交出令人满意的答卷。理解正则化，是迈向构建更鲁棒、更可靠机器学习模型的关键一步。

网友意见

我尽量用通俗一点的话来解答一下楼主的问题，

r(d)可以理解为有d的参数进行约束，或者 D 向量有d个维度。

咱们将楼主的给的凸优化结构细化一点，别搞得那么抽象，不好解释；

, 其中，

咱们可以令: f() = .

ok，这个先介绍到这里，至于f(x)为什么用多项式的方式去模拟？相信也是很多人的疑问，很简单，大家看看高等数学当中的泰勒展开式就行了，任何函数都可以用多项式的方式去趋近，log x,lnx,等等都可以去趋近，而不同的函数曲线其实就是这些基础函数的组合，理所当然也可以用多项式去趋近，好了，这个就先解释到这里了。

接下来咱们看一下拟合的基础概念。

首先，用一个例子来理解什么是过拟合，假设我们要根据特征分类{男人X，女人O}。

请看下面三幅图，x1、x2、x3；

这三幅图很容易理解：

1、图x1明显分类的有点欠缺，有很多的“男人”被分类成了“女人”。

2、图x2虽然有两个点分类错误，但是能够理解，毕竟现实世界有噪音干扰，比如有些人男人留长发、化妆、人妖等等。

3、图x3分类全部是正确的，但是看着这副图片，明显觉得过了，连人妖都区分的出来，可想而知，学习的时候需要更多的参数项，甚至将生殖器官的形状、喉结的大小、有没有胡须特征等都作为特征取用了，总而言之f(x)多项式的N特别的大，因为需要提供的特征多，或者提供的测试用例中我们使用到的特征非常多(一般而言，机器学习的过程中，很多特征是可以被丢弃掉的)。

好了，总结一下三幅图：

x1我们称之为【欠拟合】

x2我们称之为【分类正拟合】，随便取的名字，反正就是容错情况下刚好的意思。

x3我们称之为【过拟合】，这种情况是我们不希望出现的状况，为什么呢？很简单，它的分类只是适合于自己这个测试用例，对需要分类的真实样本而言，实用性可想而知的低。

恩，知道了过拟合是怎么回事之后，我们来看一下如何去规避这种风险。先不管什么书上说的、老师讲的、经验之说之类的文言文。咱们就站在第一次去接触这种分类模型的角度去看待这个问题，发散一下思维，我们应该如何去防止过拟合？

显而易见，我们应该从【过拟合】出现的特征去判别，才能规避吧？

显而易见，我们应该、而且只能去看【过拟合】的f(x)形式吧？

显而易见，我们从【过拟合】的图形可以看出f(x)的涉及到的特征项一定很多吧，即等等很多吧？

显而易见，N很大的时候，是等数量增长的吧？

显而易见，w系数都是学习来的吧？

So，现在知道这些信息之后，如何去防止过拟合，我们首先想到的就是控制N的数量吧，即让N最小化吧，而让N最小化，其实就是让W向量中项的个数最小化吧？

其中，W=()

PS: 可能有人会问，为什么是考虑W，而不是考虑X?很简单，你不知道下一个样本想x输入的是什么，所以你怎么知道如何去考虑x呢？相对而言，在下一次输入,即第k个样本之前，我们已经根据次测试样本的输入，计算(学习)出了W.就是这么个道理，很简单。

ok,any way.回到上面的思维导图的位置，我们再来思考，如何求解“让W向量中项的个数最小化”这个问题，学过数学的人是不是看到这个问题有点感觉？对，没错，这就是0范数的概念！什么是范数，我在这里只是给出个0-2范数定义，不做深究，以后有时间在给大家写点文章去分析范数的有趣玩法；

0范数，向量中非零元素的个数。

1范数，为绝对值之和。

2范数，就是通常意义上的模。

PS，貌似有人又会问，上面不是说求解“让W向量中项的个数最小化”吗？怎么与0范数的定义有点不一样，一句话，向量中0元素，对应的x样本中的项我们是不需要考虑的，可以砍掉。因为没有啥意义，说明项没有任何权重。so，一个意思啦。

ok，现在来回答楼主的问题，r(d) = “让W向量中项的个数最小化” =

所以为了防止过拟合，咱们除了需要前面的相加项最小，即楼主公式当中的
= 最小，我们还需要让r(d)=最小，所以，为了同时满足两项都最小化，咱们可以求解让和r(d)之和最小，这样不就同时满足两者了吗？如果r(d) 过大，再小也没用；相反r(d)再小，太大也失去了问题的意义。
说到这里我觉得楼主的问题我已经回答了，那就是为什么需要有个r(d)项，为什么r(d)能够防止过拟合原因了。

根据《男人帮》电影大结局的剧情：本来故事已经完成了，为了让大家不至于厌恶课本的正规理论，我们在加上一集内容，用以表达我对机器学习出书者的尊重；

书本中，或者很多机器学习的资料中，为了让全球的机器学习人员有个通用的术语，同时让大家便于死记硬本，给我上一段黑体字的部分的内容加上了一坨定义，例如：

我们管叫做经验风险，管上面我们思维导图的过程叫做正则化，所以顺其自然的管r(d)叫做正则化项，然后管+r(d) 叫做结构风险，所以顺其自然的正则化就是我们将结构风险最小化的过程，它们是等价的。

By the way，各位计算机界的叔叔、阿姨、伯伯、婶婶，经过不懈的努力，发现了这个公式很多有意思的地方，它们发现0范数比较恶心，很难求，求解的难度是个NP完全问题。然后很多脑袋瓜子聪明的叔叔、阿姨、伯伯、婶婶就想啊，0范数难求，咱们就求1范数呗，然后就研究出了下面的等式：

一定的条件我就不解释了，这里有一堆算法，例如主成分KPCA等等，例子我就不在举了，还是原话，以后我会尽量多写点这些算法生动点的推到过程，很简单，注重过程，不要死记硬背书本上的结果就好。

上面概括而言就是一句话总结：1范数和0范数可以实现稀疏，1因具有比L0更好的优化求解特性而被广泛应用。然后L2范数，是下面这么理解的，我就直接查别人给的解释好了，反正简单，就不自己动脑子解释了：

L2范数是指向量各元素的平方和然后求平方根。我们让L2范数的正则项||W||2最小，可以使得W的每个元素都很小，都接近于0，但与L1范数不同，它不会让它等于0，而是接近于0，这里是有很大的区别的哦；所以大家比起1范数，更钟爱2范数。

所以我们就看到书籍中，一来就是，r(d)= 或者r(d)= 这种结构了，然后在机器学习当中还能看到下面的结构：

min{ } ，>=0

都是这么来的啦，万变不离其中。

讲一点自己机器学习过程的体验，大家都觉得机器学习入门难，绝大部分人反应知其然不知其所以然，这个原因很多时候在于中国教育工作者的教学、科研氛围，尤其是中文书籍出书者自己都不去搞懂原理，一个劲的为了利益而出书、翻译书，纯粹利益驱动。再加之机器学习起源于国外，很多经典的、有趣的历史没有被人翻译、或者归类整理，直接被舍弃掉了。个人感觉这是中国教育的缺失导致的。希望更多的人真的爱好计算机，爱好机器学习以及算法这些知识。喜欢就是喜欢。希望国内机器学习的爱好者慢慢的齐心合力去多多引荐这些高级计算机知识的基础。教育也不是由于利益而跟风，AI热出版社就翻译AI，机器学习热就翻译机器学习，知识层面不断架空，必然导致大家学习热情的不断衰减！愿共勉之。

类似的话题

机器学习中常常提到的正则化到底是什么意思？

机器学习中的“正则化”：为什么它如此重要？在机器学习的世界里，你可能经常听到“正则化”这个词。它就像是解决模型“跑偏”问题的“秘方”，让模型在学习数据时不会过于“死记硬背”，而是能真正理解数据背后的规律，并在面对新数据时表现得更好。那么，到底什么是正则化呢？让我们一起来揭开它的神秘面纱。理解“过拟.............
常用的机器学习算法比较？

好的，我们来聊聊机器学习里那些常见又好用的算法，争取说得透彻点，而且尽量让你们感觉像是在听老朋友唠嗑，而不是冰冷的机器报告。机器学习的世界就像一个大厨房，里面有各种各样的工具，每种工具都有自己的特长，适合做不同的菜。我们今天就来点几道“硬菜”，看看它们各自的“口味”和“做法”。1. 线性回归 (Li.............
机器学习中有哪些形式简单却很巧妙的idea？

机器学习领域充满了形式简单却蕴含深刻智慧的创意，这些创意往往能够以出人意料的有效性解决复杂问题。以下我将详细阐述几个这样的例子： 1. 梯度下降 (Gradient Descent)核心思想：想象你在一个陡峭的山坡上，目标是找到山谷的最低点。你没有地图，只能感觉到周围地面的倾斜程度（梯度）。最直观.............
机器学习中的机器是如何分辨哪些是有用的知识，哪些是没用的信息呢？

机器学习中的“机器”本身并没有意识，它无法像人类一样去“分辨”有用的知识和没用的信息。它所做的，是根据预设的算法和训练数据，从中提取模式和规律，并将这些模式和规律转化为能够指导决策或预测的能力。那么，我们如何理解这个过程呢？可以从以下几个方面详细解释： 1. 数据的本质：信号与噪声在机器学习的世界里.............
机器学习中使用正则化来防止过拟合是什么原理？

在机器学习的世界里，我们时常会遇到一个叫做“过拟合”的棘手问题。想象一下，你辛辛苦苦训练了一个模型，它在你的训练数据上表现得无懈可击，甚至能记住每一个微小的细节。然而，当你拿到新的、从未见过的数据去测试它时，它的表现却一落千丈，仿佛之前的学习都付诸东流。这就是过拟合在捣鬼。为了对抗这个顽固的敌人，我.............
机器学习中的PR曲线一定会过（1，0）这个点吗？

PR曲线，也就是精确率召回率曲线（PrecisionRecall Curve），是评估二分类模型性能的重要工具。它描绘了在不同分类阈值下，模型的精确率（Precision）和召回率（Recall）之间的权衡关系。很多人在看到PR曲线的绘制方式时，可能会产生一个疑问：PR曲线一定会过（1, 0）这个点.............
机器学习中的优化理论，需要学习哪些资料才能看懂？

要想彻底搞懂机器学习中的优化理论，这可不是一蹴而就的事，更像是在知识的海洋里航行，需要循序渐进，打下坚实的基础。我个人觉得，要看到这个领域的核心，大致可以从以下几个方面着手，并且每一步都需要投入时间和精力去消化。第一步：数学基础的“基石”别看到“数学”两个字就头大，这块儿是真绕不过去的坎儿。优化理论.............
机器学习中的 Bias（偏差）、Error（误差）、Variance（方差）有什么区别和联系？

好的，咱们来聊聊机器学习里的 Bias、Error 和 Variance 这几个核心概念。别被这些术语吓到，它们其实挺好理解的，而且彼此之间关系密切，理解了它们，对你构建和调优模型大有裨益。想象一下，你正在教一个孩子识别猫。 Bias (偏差): 孩子对猫的“固有看法”Bias，你可以理解为模型（或.............
机器学习中macro-F1的计算公式？

在多类别分类问题中，我们经常会遇到一个情况，那就是各个类别的样本数量并不均衡。有些类别可能有大量的样本，而有些类别可能只有非常少的样本。在这种情况下，如果直接使用标准的 F1 分数来评估模型性能，可能会出现偏差。例如，模型可能在多数类上表现得非常好，但在少数类上表现很差，但整体的 F1 分数仍然很高.............
机器学习中如何识别图片中的手是手背还是手心？

在机器学习的世界里，区分一张图片里展示的是手背还是手心，这听起来是个挺直观的问题，但要让机器理解得这么细致，背后其实有不少门道。这不仅仅是看有没有手指，还需要捕捉到更微妙的视觉特征。我们先来想想，人和人在看一张手部图片时，是怎么判断的？直观的判断依据：手背：通常我们会看到指关节、手背上的皮肤.............
机器学习中非均衡数据集的处理方法？

机器学习中非均衡数据集的处理方法？咱们这就好好说道说道，力求把每个点都讲透，顺便也让你我之间，少些机器的痕迹。在机器学习的世界里，数据往往不是那么“公平”的。最常见的一种不公平，就是非均衡数据集（Imbalanced Datasets）。简单来说，就是数据集中，某一类别的样本数量远远多于另一类（或.............
分类机器学习中，某一标签占比太大（标签稀疏），如何学习？

在分类机器学习中，当某个标签的样本数量远远多于其他标签时，我们称之为“标签稀疏”或“类别不平衡”。这种情况在现实世界的数据集中非常普遍，例如欺诈检测（绝大多数交易是正常的，只有极少数是欺诈）、医疗诊断（大部分患者是健康的，只有少数患有某种疾病）或者垃圾邮件过滤（大部分邮件是正常的，只有少数是垃圾邮件.............
在机器学习中，L2正则化为什么能够缓过拟合？

在机器学习领域，尤其是在构建模型时，我们都希望能找到一个既能很好地拟合训练数据，又能对未见过的新数据表现出良好泛化能力的模型。然而，在实践中，我们常常会遇到一个令人头疼的问题——过拟合 (Overfitting)。当一个模型对训练数据“过度”学习，以至于记住了训练数据中的噪声和细节，导致在新的、未见.............
请问机器学习中的预测与决策的区别是什么，他们的界限在哪里呢？

机器学习中的预测和决策，看似一脉相承，实则各有侧重，界限也并非总是泾渭分明。理解它们的区别，有助于我们更清晰地认识机器学习在实际应用中的角色。预测：洞察未来，量化不确定简单来说，预测就是利用已有的数据，通过训练模型，来推断未来可能发生的事情，或者未知事物的属性。它关注的是“是什么”和“有多少”。 .............
当前（2020年）机器学习中有哪些研究方向特别的坑？

2020年，机器学习领域依旧是风起云涌，创新层出不穷。但与此同时，也有一些研究方向，乍一看光鲜亮丽，实际操作起来却像是钻进了“坑”里，耗费大量精力却收效甚微，甚至可能走向死胡同。我来给你掰扯掰扯，看看哪些地方需要留神。1. 过于追求“通用人工智能”（AGI）的“一步到位”方法AGI，也就是通用人工智.............
近几年有哪些关于机器学习中隐私（Privacy）和安全（Security）相关的研究值得关注?

近几年，机器学习的飞速发展在带来巨大便利的同时，也日益凸显了其在隐私和安全方面存在的严峻挑战。这两方面并非孤立存在，而是相互交织，共同构成了“可信赖AI”的核心命题。深入探究这些问题，并寻求解决方案，是当前机器学习领域最为关键的研究方向之一。隐私：数据本身的安全与个体尊严的守护在机器学习的语境下，.............
怎样从机器学习模型中获取知识？

从机器学习模型中“获取知识”这个说法，实际上是我们在尝试理解和解释模型是如何做出决策的。它不像我们从书本上学习知识那样直接，更多的是一种“解剖”和“解读”的过程。我们可以从几个层面来理解和实现这一点：一、理解模型的“黑箱”特性与解读的必要性首先得承认，很多复杂的机器学习模型，尤其是深度学习模型，就.............
机器学习系统MLSys中有哪些比较有前途的研究方向？

机器学习系统的研究，说起来也真是五花八门，但要说真正有嚼头、有前景的，我个人觉得有这么几个方向，绝对值得我们下点功夫：1. 自动化机器学习（AutoML）的深化与普及现在搞机器学习，很多时候还是得靠人工去调参、选模型、设计特征，这就像是造汽车还得手动拧螺丝一样，效率低不说，对专家的依赖性太强。Aut.............
机器学习相关岗位面试中，有哪些加（zhuang）分（bi）项？

好，咱们不聊那些虚的，直接上干货。想在机器学习岗位的面试中脱颖而出，想让面试官眼前一亮，除了扎实的理论基础和项目经验，确实有一些“杀手锏”，能让你在众多候选人中显得鹤立鸡群，这绝对不是吹牛，而是实实在在的加分项。咱们就来掰扯掰扯这些能让你“装（加）分（分）”的东西，而且越详细越好，让你心里有底，面试.............
机器学习在理论经济学研究中有哪些可能的应用前景？

机器学习在理论经济学研究中的应用前景，说实话，广阔得令人兴奋，而且这不仅仅是“数据分析”那么简单。它正在为我们理解经济世界的复杂性提供前所未有的工具和视角，尤其是在理论层面，其潜力是巨大的。1. 复杂经济模型的构建与分析：传统的经济模型，无论是新古典的，还是新凯恩斯主义的，往往建立在高度简化的假设之.............