百科问答小站 logo
百科问答小站 font logo



什么是蒙特卡罗 Dropout(Monte-Carlo Dropout)? 第1页

  

user avatar   pu-lu-shi-lan-88-4 网友的相关建议: 
      

Monte-Carlo Dropout(蒙特卡罗 dropout),简称 MC dropout,是一种从贝叶斯理论出发的 Dropout 理解方式,将 Dropout 解释为高斯过程的贝叶斯近似。

云里雾里的,理论证明看起来挺复杂,有兴趣可以参考论文:Dropout as a Bayesian Approximation: Representing Model Uncertainty in Deep Learning. 以及这篇论文的 Appendix

但其实,MC dropout 用起来就简单了,不需要修改现有的神经网络模型,只需要神经网络模型中带 dropout 层,无论是标准的 dropout 还是其变种,如 drop-connect,都是可以的。

在训练的时候,MC dropout 表现形式和 dropout 没有什么区别,按照正常模型训练方式训练即可。

在测试的时候,在前向传播过程,神经网络的 dropout 是不能关闭的。这就是和平常使用的唯一的区别。

MC dropout 的 MC 体现在我们需要对同一个输入进行多次前向传播过程,这样在 dropout 的加持下可以得到“不同网络结构”的输出,将这些输出进行平均和统计方差,即可得到模型的预测结果及 uncertainty。而且,这个过程是可以并行的,所以在时间上可以等于进行一次前向传播。

神经网络产生的 softmax 概率不能表示 uncertainty?

其实我们在很多时候都拿了 softmax 的概率计算 uncertainty,比如主动学习查询策略中的 least confident、margin、entropy。在 entropy 策略下,softmax 的概率越均匀熵越大,我们就认为 uncertainty 越大;反之,在 softmax 某一维接近 1,其它都接近 0 时,uncertainty 最小。

但是,softmax 值并不能反应该样本分类结果的可靠程度。A model can be uncertain in its predictions even with a high softmax output. [1]

以 MNIST 分类为例,当模型在验证集上面效果很烂的时候,将一张图片输入到神经网络,我们仍然可以得到很高的 softmax 值,这个时候分类结果并不可靠;当模型在验证集上效果很好了,在测试集上甚至都很好,这个时候,我们将一张图片加入一些噪声,或者手写一个数字拍成照片,输入到网络中,这个时候得到一个较高的 softmax 值,我们就认为结果可靠吗?我们这个时候可以理解为,在已知的信息中,模型认为自己做的挺好,而模型本身并不能泛化到所有样本空间中去,对于它没有见过的数据,它的泛化能力可能不是那么强,这个时候模型仍然是以已知的信息对这个没有见过的数据有很强的判断(softmax 某一维值很大),当然有时候判断很好,但有时候判断可能就有误,而模型并不能给出对这个判断有多少 confidence。

而 MC dropout 可以给出一个预测值,并给出对这个预测值的 confidence,这也就是贝叶斯深度学习的优势所在。

MC dropout 示例代码

import tensorflow as tf

mnist = tf.keras.datasets.mnist


(x_train, y_train),(x_test, y_test) = mnist.load_data()

x_train, x_test = x_train / 255.0, x_test / 255.0


inp = tf.keras.layers.Input(shape=(28, 28))

x = tf.keras.layers.Flatten()(inp)

x = tf.keras.layers.Dense(512, activation=tf.nn.relu)(x)

x = tf.keras.layers.Dropout(0.5)(x, training=True) # dropout 在训练和测试时都将开着

out = tf.keras.layers.Dense(10, activation=tf.nn.softmax)(x)

model = tf.keras.Model(inp, out)


model.compile(optimizer='adam',

loss='sparse_categorical_crossentropy',

metrics=['accuracy'])


model.fit(x_train, y_train, epochs=3)

# 在测试过程,dropout 也是打开的,得到的结果将会有波动,而不是完全一致

for _ in range(10):

print(model.predict(x_test[:1]))

dropout 层一直处于打开的状态,测试过程重复进行多次。

References

[1] Gal, Y., & Ghahramani, Z. (2015). Dropout as a Bayesian Approximation: Representing Model Uncertainty in Deep Learning. Retrieved from http://arxiv.org/abs/1506.02142
[2] Gal, Y., & Ghahramani, Z. (2015). Dropout as a Bayesian Approximation: Appendix. Retrieved from arxiv.org/abs/1506.0215

【实验笔记】深度学习中的两种不确定性(上)-- 张子杨
Dropout的前世与今生 -- 机器之心
Deep Bayesian Neural Networks. -- Stefano Cosentino




  

相关话题

  抓到硅胶面具的人干坏事是一种怎样的体验? 
  薄膜硅光伏电池光吸收率达 65% 创新纪录,这对相关行业意味着什么? 
  知乎是否对于人工智能过于警惕,而对于转基因技术过于自信,被提出潜在风险大多被认为是杞人忧天? 
  怎么评价三星终于召回国行 Note 7 手机? 
  时间序列和回归分析有什么本质区别? 
  如果现在有一个全知的神出现在地球,人类可以问神一个问题,请问问什么问题对人类科技的发展帮助最大? 
  腾讯本周或正式宣布合并搜狗,计划整合进「腾讯看点」团队,此次布局是否为最优解?腾讯有哪些战略考量? 
  Rokid 提问:家里的电器会说话是怎样一种体验? 
  有哪些可以自学机器学习、深度学习、人工智能的网站? 
  生活中有哪些技术是由凝聚态物理的研究成果转化而来的? 

前一个讨论
为什么人会怕某些特殊声音?
下一个讨论
什么是时间晶体?





© 2024-12-22 - tinynew.org. All Rights Reserved.
© 2024-12-22 - tinynew.org. 保留所有权利