在机器学习中，L2正则化为什么能够缓过拟合？第1页

hbxiong 网友的相关建议:

这是个挺有意思的问题，这里给几个常见的不同角度的解释。

1. 直观解释

看一下下面两张图像，分别是

和的图像，

有什么发现？它们拟合了相同的零点，而我们仅仅对所有的参数进行了缩放，图像变得更光滑了！

所以说，我们在目标函数加入一个正则项，其实做了一个Penalty，能够防止参数在数值上过大，使得函数非常尖锐，造成过拟合。

2. 从优化角度：

岭回归：

可以改写成：

下面这个形式是凸优化问题，可以找到拉格朗日乘子变成第一种形式。

所以说，我们优化岭回归的目标函数，可以找到对应的约束线性回归优化问题，我们对假设空间直接做了约束，使它仅仅在一个以原点为圆心的球内取值，它的假设空间显然缩小了，因此模型的复杂度也降低了。

3. 从贝叶斯估计的角度：

考虑带高斯先验分布的极大似然估计：

其中是对应的一个常数。考虑一个线性回归问题，我们可以把换成，代入去掉常数项，我们又得到了一个岭回归问题。（LASSO可以通过Laplacian分布得到，也能从侧面反应稀疏性。）

这里其实没有解释为什么能够缓解过拟合，但是因为我们人工引入了Prior，其实体现了一种Inductive Bias，也就是参数的分布应该是集中在数值较小的均值附近。也就是说，更接近均值0的参数应该可以得到更好的泛化能力。不过，跟贝叶斯学派长久以来的问题一样，为什么高斯先验好？经验告诉我们的…

4. 正则项作为稳定剂：

《Understanding ML》给了另一个视角，我们可以证明，在加入正则项后，当目标函数是凸且Lipschitz的时候，我们替换数据集的一个样本不会造成泛化性能变化过大，泛化性能优良就是防止过拟合的目标。当目标函数平滑非负的时候也有类似的结论。有这样严谨的理论结果，我们就更能确定正则可以防止过拟合。

当然，跟另一个哥们儿的答案对应起来了，我也套用一下：模型对于微小扰动的反馈差异大实际就是一个过拟合的表现。

li-yu-233 网友的相关建议:

女王:求求题主放过我，我可不敢有什么政绩。。。

aluea 网友的相关建议:

克劳备忘录也好，凯南电报也好，有两大共同点。首先，都是以现实主义的眼光去分析双方的关系。然后，给出的建议都是阳谋，并不是什么不可告人的阴谋，执行起来需要的不是鸡鸣狗盗的小聪明，而是惊人的意志力。

而美国现在战略界现实主义被边缘化，我推测，布热津斯基，基辛格那帮人应该写过不少。不过没所谓，美国能执行大战略的时代过去了。现在这一代精英上半年能管下半年就已经很了不起了。一个需要两代人以上持之以恒去完成的大战略，搞出来他们也执行不了。

冷战时期，从杜鲁门艾森豪威尔到肯尼迪尼克松，最后到李根老布什，个人性格和政治偏好差距不要太大，但是都忠实地完成了他们历史任务，沿着围堵政策做下去。这种战略定力和延续性，世间少见。在中国领导集团上能看见一些相似的东西，但是我们离得距离太近，反而看不清。但在美国精英层身上完全看不到这一点。

个人愚见。

在机器学习中，L2正则化为什么能够缓过拟合？的其他答案点击这里

前一个讨论

2020年CVPR有哪些优秀的论文？

下一个讨论

有一个三位数密码锁，如果输入的三位密码有1位是正确的，就会嘀一声响，请问最少要输入几次才一定能开锁？

在机器学习中，L2正则化为什么能够缓过拟合？第1页

1. 直观解释

2. 从优化角度：

3. 从贝叶斯估计的角度：

4. 正则项作为稳定剂：

相关话题

前一个讨论

下一个讨论

相关的话题

在机器学习中，L2正则化为什么能够缓过拟合？ 第1页

1. 直观解释

2. 从优化角度：

3. 从贝叶斯估计的角度：

4. 正则项作为稳定剂：

相关话题

前一个讨论

下一个讨论

相关的话题

在机器学习中，L2正则化为什么能够缓过拟合？第1页