在传统机器学习里,原则上,我们应该选择和问题复杂性匹配、适度大小的模型。
模型过小则欠拟合,模型过大则过拟合,这都不是我们想要的。而且在传统机器学习的实践里,这个原则也是被广泛认可的。大家在机器学习入门的时候也是这么学的。
但是这个原则在深度学习里是不对的。
深度学习里,Test Error和Model Complexity的关系是一种违背传统机器学习认识的双下降(Double Descent)曲线。
Double Descent现象被[1]在2018年揭示,然后在最近的一篇ICLR2020文章[2]里被比较全面的研究。文章[2]的实验中的Double Descent曲线长这样:
我们可以很清楚地看到,随着模型参数变多,Test Error是先下降,再上升,然后第二次下降。
虚线左侧是传统机器学习大家熟悉的Bias-Variance Tradeoff区域,而虚线右侧是绝大多数深度学习模型运转的区域。
所以,简单来说,这个问题的答案是——原则上,在成本可接受的情况下,模型越大,准确率越好。
当然,在实践中,模型训练和运行的成本也是很重要的。有的场景还需要模型足够小、足够快、能耗足够低。很多地方不是准确率至上的,这里需要需要做一些权衡。
毕竟不是谁都能训练GPT-3,也不是什么地方都能运行GPT-3。
为什么会出现模型复杂度增加,模型泛化性能反而变好的现象?
具体的理论机制还不是很清晰。但这种现象并不是局限于ResNet、Transformer等几种特定的模型结构。比较确定的是,这种现象和模型的过参数化和随机优化训练方法都有密切的关系。
最近一年也有一些统计学家发现,在简单的高维统计模型里也可以(在一些假设下)复现Double Descent现象,比如[3]。这说明Double Descent不是属于神经网络的黑魔法,其背后肯定是有很巧妙的数学原理有待探究的。
参考文献:
[1] Belkin, M., Hsu, D., Ma, S., & Mandal, S. (2018). Reconciling modern machine learning and the bias-variance trade-off.stat,1050, 28.
[2] Nakkiran, P., Kaplun, G., Bansal, Y., Yang, T., Barak, B., & Sutskever, I. (2019, September). Deep Double Descent: Where Bigger Models and More Data Hurt. InInternational Conference on Learning Representations.
[3] Hastie, T., Montanari, A., Rosset, S., & Tibshirani, R. J. (2019). Surprises in high-dimensional ridgeless least squares interpolation.arXiv preprint arXiv:1903.08560.
本站所有内容均为互联网搜索引擎提供的公开搜索信息,本站不存储任何数据与内容,任何内容与数据均与本站无关,如有需要请联系相关搜索引擎包括但不限于百度,google,bing,sogou 等
© 2025 tinynews.org All Rights Reserved. 百科问答小站 版权所有