这是个挺有意思的问题,这里给几个常见的不同角度的解释。
看一下下面两张图像,分别是
和 的图像,
有什么发现?它们拟合了相同的零点,而我们仅仅对所有的参数进行了缩放,图像变得更光滑了!
所以说,我们在目标函数加入一个正则项,其实做了一个Penalty,能够防止参数在数值上过大,使得函数非常尖锐,造成过拟合。
岭回归:
可以改写成:
下面这个形式是凸优化问题,可以找到拉格朗日乘子 变成第一种形式。
所以说,我们优化岭回归的目标函数,可以找到对应的约束线性回归优化问题,我们对 假设空间直接做了约束,使它仅仅在一个以原点为圆心的球内取值,它的假设空间显然缩小了,因此模型的复杂度也降低了。
考虑带高斯先验分布 的极大似然估计:
其中 是对应的一个常数。考虑一个线性回归问题,我们可以把 换成 ,代入去掉常数项,我们又得到了一个岭回归问题。(LASSO可以通过Laplacian分布得到,也能从侧面反应稀疏性。)
这里其实没有解释为什么能够缓解过拟合,但是因为我们人工引入了Prior,其实体现了一种Inductive Bias,也就是参数的分布应该是集中在数值较小的均值附近。也就是说,更接近均值0的参数应该可以得到更好的泛化能力。不过,跟贝叶斯学派长久以来的问题一样,为什么高斯先验好?经验告诉我们的…
《Understanding ML》给了另一个视角,我们可以证明,在加入正则项后,当目标函数是凸且Lipschitz的时候,我们替换数据集的一个样本不会造成泛化性能变化过大,泛化性能优良就是防止过拟合的目标。当目标函数平滑非负的时候也有类似的结论。有这样严谨的理论结果,我们就更能确定正则可以防止过拟合。
当然,跟另一个哥们儿的答案对应起来了,我也套用一下:模型对于微小扰动的反馈差异大实际就是一个过拟合的表现。
本站所有内容均为互联网搜索引擎提供的公开搜索信息,本站不存储任何数据与内容,任何内容与数据均与本站无关,如有需要请联系相关搜索引擎包括但不限于百度,google,bing,sogou 等
© 2025 tinynews.org All Rights Reserved. 百科问答小站 版权所有