首页

为什么在SGD中使用L1正则化很难获得稀疏性？第1页

1

menc01 网友的相关建议:

关于 L1 在实操中常不能得到真正稀疏性的原因，有一个听起来很奇怪，细品又有点道理的解释：当参数使用float方式存储时，计算机进行浮点数的四则运算很难得到完美的 0 值。

冷不丁看到，感觉离了大谱。

当我们专注于算法推导的时候，几乎没人想到这里来，但听到这个解释后，又打心眼里觉得对。这理论也是我在查阅 FTRL 资料的时候看到的，它莫名契合 FTRL 追求实际落地的出发点。

这里贴一个链接，是一个关于 L1 正则稀疏性的文章，文中有一个很不错的小小实验。这个实验排除了其他回答所说“很多问题是非凸或者复杂凸问题”的干扰因素，或能佐证这个解释。

简单介绍下实验设定：

       def genData(n, p, s):     A = np.random.normal(0, 1, (n,p))     opt_x = np.zeros(p)     random_index_list = random.sample(range(p), s)     for i in random_index_list:  opt_x[i] = np.random.normal(0,10)     e = np.random.normal(0,1,n)     b = np.dot(A,opt_x.T) + e.T     return A, b  A, b = genData(100, 50, 20)

使用如上代码，随机生成了一个小的有冗余的线性 dataset，其中非 0 参数 30 维， 0 参数 20 维。
对这个凸的数据集使用 L1 训练。

结论如下：

加了 L1 后，模型参数确实比只有 L2 更接近 0 了；
使用 subgradient 的 L1 并未达到理论上的稀疏性，很多预期为 0 的参数学习到的参数值在 1e-7 数量级上下，很接近 0 了，但不是 0 -- 各大机器学习框架对 L1 正则的实现，基本都基于 subgradient；
使用近端梯度下降代替 subgradient 后，参数达到理想中的稀疏性。近端梯度下降和 subgradient based L1 相比，具体实现上的区别是加入了软阈值，当 ω < λt 时，ω 会被置零。

关于近端梯度下降，可参考这里：Xinyu Chen：机器学习 | 近端梯度下降法 (proximal gradient descent)

为什么在SGD中使用L1正则化很难获得稀疏性？的其他答案点击这里

1

相关话题

  2021 年了，TensorFlow 和 PyTorch 两个深度学习框架地位又有什么变化吗？
  机器学习能否用于综合评价？具体怎么操作？
  在NLP当中，不同的评价指标，BLEU, METEOR, ROUGE和CIDEr的逻辑意义？
  为什么图形学的会议siggraph的论文代码很少会开源？好像视觉如CVPR、ICCV开源的更多一些。
  算法工程师的落地能力具体指的是什么？
  要研究深度学习的可解释性（Interpretability），应从哪几个方面着手？
  2020-2021年NLP有什么核心技术的更迭吗？或者有什么推动领域发展的paper吗？
  如何评价Google提出的MLP-Mixer：只需要MLP就可以在ImageNet上达到SOTA？
  如何看待Hinton的论文《Dynamic Routing Between Capsules》？
  神经网络能否代替决策树算法？

前一个讨论

隐私计算/多方安全计算/联邦学习问题？

下一个讨论

有哪些能吊打大牌的国货护肤品？

相关的话题

  如何看UCBerkeley RISELab即将问世的Ray，replacement of Spark？
  人工智能可以解决人类难题吗？
  你见过最差的算法工程师能差到什么程度？
  机器学习初学者该如何选读适合自己水平的论文？
  机器学习算法进行分类时，样本极度不平衡，评估模型要看哪些指标？
  主动学习（Active Learning）近几年的研究有哪些进展，现在有哪些代表性成果？
  如何看待Yoav Goldberg 怒怼来自MILA的GAN for NLG的paper?
  谈谈机器学习在网络安全领域的局限性，以及是否乐观？
  我应该从计算机视觉回到做FPGA 吗？
  三位物理学家与陶哲轩发现的特征向量全新求解公式，会给机器学习领域带来怎样的变化？
  如何看待SQuAD比赛中，阿里、MSRA机器阅读理解准确率超越人类？
  请问有没有基于实例的迁移学习的数据？
  如何看待比 iPad 还大的史上最大芯片问世？功耗比电磁炉还高有什么用？
  从应用的角度来看，深度学习怎样快速入门？
  如何看待「机器学习不需要数学，很多算法封装好了，调个包就行」这种说法？
  为什么读论文最好打印出来读？
  如何评价剑桥，腾讯， DeepMind以及港大团队新作 SimCTG ?
  深度学习（机器学习）的下一步如何发展？
  简单解释一下sparse autoencoder, sparse coding和restricted boltzmann machine的关系？
  如何看待 Google 既可以作 Inference，又可以作 Training 的新一代 TPU？
  如果有第谷的数据，现在的机器学习，深度学习有办法学出开普勒三定律吗？
  TVM 最新发布版本 0.3 有哪些亮点？
  UCLA 的朱松纯教授是一个什么样的人？
  如何看待 Nervana 被 Intel 收购？
  如何评价 2018 年度图灵奖颁发给三位深度学习之父？
  要研究深度学习的可解释性（Interpretability），应从哪几个方面着手？
  如何理解深度学习中的deconvolution networks？
  GAN:固定训练好的判别器网络，去指导训练生成器为什么不可以？
  相比于时下流行的机器学习方法（联接主义），传统的人工智能方法（符号主义）有什么独一无二的优势？
  有什么算法能对一个长短不一的时间序列进行分类预测?

© 2025-05-23 - tinynew.org. All Rights Reserved.
© 2025-05-23 - tinynew.org. 保留所有权利