首页

为什么softmax很少会出现[0.5，0.5]？第1页

1

wang-feng-98-82 网友的相关建议:

因为训练的时候你没有跟网络说什么样的东西应该不确定。

你只给了确定的label，要么是[0,1]要么是[1,0]，那网络就只会出接近这两个值的输出。

-----------------分界线------------------

当然这背后是有数学原理的，二分类的softmax其实等价于sigmoid，如果一直给one-hot的标签，在训练集几乎都能分正确的前提下，网络趋向于将feature的norm无限拉长，sigmoid越来越接近0-1的阶跃函数，几乎所有样本的输出就都在接近0和接近1的位置，中间态几乎没有。

注意这里引入了一个假设，即“训练集几乎都能分正确”。如果你的训练集拟合得不好，你会发现输出0.3、0.5之类的样本的机会会大大增加。

-----------------分界线------------------

怎么告诉网络不确定性呢？

有两种方式：一种是soft label，即你直接就给部分样本[0.5, 0.5]的label；一种是noise label，就是你觉得不确定的东西，一会给0的label，一会给1的label。

这两种方式都可以起作用，当然第一种效果更好一些，网络有比较明确的目标，第二种方式在batch training下其实也是有效的，只是看起来比较奇怪。

为什么softmax很少会出现[0.5，0.5]？的其他答案点击这里

1

相关话题

  为什么CV能做到让一幅人脸图动了笑了，而NLP的text-style-transfer进展貌似一般？
  如何看待NIPS2017图灵奖得主贝叶斯网络之父Judea Pearl讲座无人问津？
  神经网络中如果一个重要特征C等于特征A+特征B（算数意义上的相加），选特征的时候还有必要选特征C吗?
  如何评价deepmind最新在nature上发表的论文《在人工网络中用网格样表征进行基于向量的导航》？
  能否对卷积神经网络工作原理做一个直观的解释？
  奇异值分解（SVD）有哪些很厉害的应用？
  如何评价浪潮发布的2457亿参数源1.0智能大模型？与GPT-3相比如何？处于AI模型领域什么水平？
  如何看待Hinton的论文《Dynamic Routing Between Capsules》？
  时间序列和回归分析有什么本质区别？
  请问人工神经网络中的activation function的作用具体是什么？为什么ReLu要好过于tanh和sigmoid function?

前一个讨论

目前 AI 在疾病的诊断和治疗上，有哪些成功的应用？

下一个讨论

一位合格的博士生需要有哪些条件和素质？

相关的话题

  如何用简单易懂的例子解释条件随机场（CRF）模型？它和HMM有什么区别？
  究竟什么是损失函数 loss function?
  人脑有海量的神经元（参数），那么人脑有没有「过拟合」行为？
  如何判断两个Deep Learning 数据集的数据分布是否一致？
  Resnet到底在解决一个什么问题呢？
  目前，人工智能语音在说中文时的语气感觉上还比较机械，怎样使人工智能语音的语气更自然一些？
  究竟什么是损失函数 loss function?
  GAN的生成器是怎么产生图片的？
  有哪些LSTM(Long Short Term Memory)和RNN(Recurrent)网络的教程？
  如何理解 Swin Transformer 和 Vision Transformer不同任务上的差异？
  国内 top2 高校研一在读，为什么感觉深度学习越学越懵?
  在与 AlphaGo（包括 Master）的对局中是否出现了一些人类历史上从未想到过的着法、技巧？
  深度学习工作站中使用AMD的CPU会有问题吗？
  想问下专业人士 OpenCv会被深度学习进一步取代吗进一步取代吗？
  为什么说股票不能通过机器学习来预测？
  2021 年了，机器/深度学习还有哪些坑比较好挖？
  为什么说深度学习没有理论基础?
  Deep Learning 的专家如此急缺，它难在何处？
  神经网络中 warmup 策略为什么有效；有什么理论解释么？
  人工智能就业前景越来越严峻了，你还在坚持吗？
  神经网络的损失函数为什么是非凸的?
  人脑有海量的神经元（参数），那么人脑有没有「过拟合」行为？
  机器学习最好的课程是什么？
  如果人工智能迎来下一个寒冬，你认为会是卡在什么问题上？
  如何评价 DeepMind 公布的可生成算法竞赛解题代码的 AlphaCode？
  领域自适应需要用到测试集数据，这样的方法有啥意义呢？
  如何比较Keras, TensorLayer, TFLearn ？
  什么是人工智能？人工智能、机器学习、深度学习三者之间有什么关系吗？
  凸分析和凸优化有什么推荐的教材吗？
  求通俗解释下bandit老虎机到底是个什么东西？

© 2024-06-02 - tinynew.org. All Rights Reserved.
© 2024-06-02 - tinynew.org. 保留所有权利