问题

贝叶斯深度学习是什么,和传统神经网络有何不同?

回答
好的,咱们就来聊聊贝叶斯深度学习这个话题,它和我们熟悉的传统神经网络比起来,有哪些特别之处。尽量讲得透彻些,也去掉那些“AI味”十足的陈词滥调。

先来说说我们熟悉的“传统”神经网络

我们平时接触到的深度学习模型,比如卷积神经网络(CNN)用于图像识别,循环神经网络(RNN)或者Transformer用于处理序列数据,它们的核心都是由一层层复杂的函数(即神经网络层)堆叠而成。这些函数内部包含着大量的权重(weights)和偏置(biases),这些参数决定了网络如何将输入数据转化为输出。

训练神经网络的过程,就好比是在一个巨大的“参数空间”里寻找一个“最佳”的参数组合。我们通过反向传播(backpropagation)算法,根据模型预测结果与真实标签之间的误差,一点点地调整这些权重和偏置,直到误差降到足够低。一旦训练完成,我们就得到了一个确定的模型,输出也是确定的。

举个例子: 假设我们用一个传统神经网络来预测明天的气温。训练好之后,我们输入今天的气温、湿度等信息,它会给我们一个具体的数字,比如“25.5摄氏度”。这个“25.5”就是模型根据它学到的固定参数计算出来的结果。

那么,贝叶斯深度学习又是何方神圣?

贝叶斯深度学习,顾名思义,是把概率论中的贝叶斯思想融入到了深度学习的框架中。这带来的最核心的一个变化,就是它看待神经网络的“参数”的方式。

在传统深度学习里,我们把权重和偏置看作是固定的、但未知的值。我们通过训练试图找到一个最有可能的“点”来代表它们。

而在贝叶斯深度学习里,我们不再把权重和偏置视为固定的数值,而是将它们看作是不确定的、服从某种概率分布的随机变量。这意味着,我们训练的不再是寻找一个“最佳参数点”,而是要估计出这些参数的概率分布。

这中间的“换挡”非常关键,它带来了什么?

1. 不确定性量化 (Uncertainty Quantification): 这是贝叶斯深度学习最突出的优势。
传统神经网络: 就像前面说的,给一个确定的输出。比如,识别一张猫的图片,它会输出“猫,98%置信度”。但这个“98%”更多的是一种“信心”的表达,而不是对自身预测的不确定性的真实反映。当遇到训练数据中没见过或者很模糊的情况时,它可能依然会给出一个很高的置信度,但实际上它可能犯错。
贝叶斯深度学习: 它输出的不是一个确定的值,而是一个概率分布。比如,预测明天的气温,它可能输出“平均25.5摄氏度,但有10%的可能性在2224摄氏度之间,有50%的可能性在2426摄氏度之间,有40%的可能性在2628摄氏度之间”。这种输出直接告诉你模型对预测结果有多“不确定”。
何为“不确定性”? 贝叶斯深度学习通常能区分两种不确定性:
模型不确定性 (Epistemic Uncertainty): 这是由于模型本身对数据分布不够了解而产生的不确定性。例如,模型只在白天数据上训练,突然给你一个夜晚的输入,它对预测结果肯定不确定。这种不确定性可以通过增加更多、更多样化的数据来减少。
数据不确定性 (Aleatoric Uncertainty): 这是数据本身固有的噪声或随机性造成的。比如,同一个病人,在不同时间测量同一项生理指标,结果会有微小的波动,这就是数据不确定性。即使模型再好,也无法完全消除这种不确定性。

2. 更稳健的决策:
传统神经网络: 可能会在不确定的区域做出“盲目”的预测,导致决策错误。
贝叶斯深度学习: 能够根据预测的不确定性来调整决策。比如,在自动驾驶场景中,如果模型对某个障碍物的识别非常不确定(例如,传感器受到干扰,或者场景非常复杂),贝叶斯模型会更倾向于发出警告或采取更保守的行动,而不是鲁莽地预测“没有障碍物”。

3. 正则化作用 (Regularization):
传统神经网络: 为了防止过拟合,我们通常会使用Dropout、L1/L2正则化等技术。这些技术在某种程度上模拟了“丢弃”一些参数,从而让模型不那么依赖于特定的权重。
贝叶斯深度学习: 将参数视为概率分布本身就具有内禀的正则化效果。想象一下,如果一个参数的分布很宽泛,意味着它对输入数据的变化不那么敏感,这天然地降低了过拟合的风险。尤其是那些“后验分布”能够被良好地约束的参数,即使它们在训练数据上表现良好,在新的数据上也能有更好的泛化能力。

4. 模型的“成长”与“学习”:
传统神经网络: 训练完成后,模型就“定型”了。如果想用新数据改进模型,就需要重新从头训练或者进行微调。
贝叶斯深度学习: 它的训练过程更像是在不断“更新信念”。当有新数据到来时,我们可以用贝叶斯更新的方式,将新的观测信息融入到现有的参数分布中,从而得到一个更新后的、更好的参数分布。这使得模型能够更灵活地适应数据变化,实现“在线学习”或“持续学习”。

贝叶斯深度学习是如何实现的?

这是实际操作中最具挑战性的一点。直接计算神经网络中所有权重的完整后验分布,通常在数学上是极其困难甚至不可能的。因此,研究人员开发了各种近似方法:

变分推断 (Variational Inference VI): 这是最流行的方法之一。它不是直接计算真实的后验分布,而是试图找到一个“简单”的概率分布(例如,高斯分布),使得它与真实的后验分布“尽可能接近”。我们可以通过定义一个“变分目标函数”来衡量这种接近程度,然后优化这个函数来得到近似的参数分布。
马尔可夫链蒙特卡洛 (Markov Chain Monte Carlo MCMC): 这是一个更精确但计算量更大的方法。它通过构建一个马尔可夫链,然后让这个链“跑”足够长的时间,使得链的状态能够收敛到后验分布。我们可以从这个链的状态中采样,从而得到对后验分布的近似。
蒙特卡洛 Dropout (Monte Carlo Dropout): 这是在实践中非常流行且相对容易实现的一种方法。它利用了Dropout本身可以看作是一种近似贝叶斯推断的方式。在预测阶段,我们不是只进行一次前向传播,而是多次应用Dropout,然后将多次的输出结果进行统计,以此来估计预测的分布和不确定性。这就像是“训练一次,预测多次,每次都随机丢掉一些连接”一样。

总结一下,贝叶斯深度学习和传统神经网络的主要区别就在于:

| 特征 | 传统神经网络 (点估计) | 贝叶斯深度学习 (分布估计) |
| : | : | : |
| 参数表示 | 固定的、最优的数值 | 服从概率分布的随机变量 |
| 输出 | 确定的数值或类别 | 预测的概率分布,包含不确定性信息 |
| 不确定性 | 仅通过置信度等间接表达,通常不够准确 | 直接量化,能区分模型不确定性和数据不确定性 |
| 鲁棒性/决策 | 可能在不确定区域表现脆弱 | 能够根据不确定性做出更稳健、更安全的决策 |
| 正则化 | 需额外引入Dropout、L1/L2等技巧 | 内禀的正则化效果,参数分布的“平坦”有益于泛化 |
| 训练目标 | 最小化损失函数,找到最优参数点 | 估计参数的后验分布,或者找到其近似分布 |
| 新数据适应 | 通常需要重新训练或微调 | 可通过贝叶斯更新灵活融入新信息 |
| 计算复杂性 | 相对较低,训练一次,预测一次 | 较高,需要近似推断方法,预测阶段可能需要多次采样/迭代 |

什么时候会选择贝叶斯深度学习?

虽然计算成本更高,但在一些对可靠性、安全性、可解释性要求极高的场景,贝叶斯深度学习的优势就非常明显了:

医疗诊断: 医生需要知道模型对诊断结果有多确定,尤其是在罕见病的情况下。
自动驾驶: 车辆需要知道对周围环境的感知有多“把握”,以便做出安全的驾驶决策。
金融风控: 预测模型的不确定性对于风险评估至关重要。
科学研究: 比如在物理实验中,准确量化测量误差对结果推断至关重要。
需要少样本学习 (Fewshot Learning) 的场景: 当数据量很少时,贝叶斯方法可以更好地利用先验知识,并量化预测的不确定性。

总而言之,贝叶斯深度学习不是要“取代”传统神经网络,而是在对不确定性有更高要求的应用场景下,提供了一种更深层次、更符合概率直觉的模型理解和构建方式。 它让我们能更“诚实”地面对模型的不确定性,并据此做出更明智的判断。

网友意见

user avatar

利益相关∶深度学习(D.L)运动预测开发者

本文用最浅显易懂的方式,介绍下贝叶斯深度学习(bayesian deep learning),希望对您有所帮助。

让我们回顾一下贝叶斯公式

后验概率(posterior)= likelihood * prior/evidence

看一个简单神经元网络结构的图

如上图,深度学习中的w(1...n)和b的值都是确定的常数,例如w1=1,b=0.5。而梯度下降更新wi后,仍然无法改变wi和b都是确定的值。

而将wi和b由确定的值变成分布,就是贝叶斯深度学习的核心

即权重(weight)和偏置(bias)都并非确定的值,而应该是一个分布

上图是结构为 4x3x1 的典型的贝叶斯神经网络。

(其中输入层神经元个数为 4,中间隐含层神经元个数为 3,输出层神经元个数为 1。)

贝叶斯神经网络和贝叶斯网络?

这两者不能混为一谈。

贝叶斯网络又称信念网络,是一种概率图型模型。

而贝叶斯神经网络,是贝叶斯和神经网络的结合,概念上和贝叶斯深度学习是一回事。

贝叶斯深度学习如何改善预测

通过对贝叶斯神经网络的权重和偏置进行采样,得到一组参数,然后像非贝叶斯神经网络那样用,同时可以实现前向传播(feed-forward)

优势在于可以对权重和偏置的分布,多次采样得到参数组合,从而观察参数细微改变对模型结果的影响程度,使得到的结果更robust

其次贝叶斯深度学习可以提供不确定性,非 softmax 生成的概率。


参考文献

Eric J. Ma - An Attempt At Demystifying Bayesian Deep Learning

Deep Bayesian Neural Networks. -- Stefano Cosentino

Edward -- A library for probabilistic modeling, inference, and criticism.

Deep Learning Is Not Good Enough, We Need Bayesian Deep Learning for Safe AI

贝叶斯网络 -- 百度百科


感谢观看

花了半小时填补了下知乎的科普空白

让人不禁感叹,

user avatar

看到知乎上有这个问题,非常感动。有兴趣的同学可以瞄一眼我们最近发表在ACM Computing Surveys上的文章“A Survey on Bayesian Deep Learning” [1](链接:wanghao.in/paper/CSUR20)。 @普鲁士蓝@方轩固@北野寺僧人 同学的回答很好地介绍了贝叶斯深度学习相关的一些概念,这里我接着做一些系统的、详细的介绍。


在survey里面,我们将贝叶斯深度学习(或者叫Bayesian Deep Learning,以下简称BDL)分成广义BDL和狭义BDL。


广义的BDL,指的是将深度神经网络概率化后作为“感知模块”(perception component),然后把它和用概率图模型作为“任务模块”(task-specific component)统一在同一个概率框架下,进行end-to-end的学习和推断(如下图)。这个“感知模块”可以是神经网络的贝叶斯版本(即Bayesian Neural Network)[3],也可以是Bayesian Neural Network的简化版本。



狭义的BDL,指的就是上面提到的Bayesian Neural Network本身。所以可以把狭义BDL看成是广义BDL的一个子模块(“感知模块”)。而Bayesian Neural Network,其实已然是一个古老的topic。最早可能要源于David MacKay的一篇1992年的文章 [3],当时概率图模型还没出生呢,所以自然跟我们广义的BDL不一样。下文我们说的BDL,默认指的是广义的BDL。


那么问题来了:BDL为什么同时需要神经网络和概率图呢?为什么单单有神经网络是不够的?这是因为神经网络没法原生地支持(1)条件概率的推断,(2)因果推理,(3)逻辑演绎,以及(4)对不确定性建模。(说到概率图,此处还应艾特一下原教旨贝叶斯 @陈默 )注意我们这里说的是“没法原生地支持”,而不是“没法支持”。神经网络说到底就是一个(可微分的)函数,那么我们自然可以借鉴概率图,设计一个“精妙”的网络结构,来实现上面所说的四种功能的子集,然后claim“神经网络也可以支持blablabla”,但是其背后的原理依然是来自于概率图或者其他理论。相反,BDL的目的就是想让提供一个统一的深度学习理论框架,尽可能地做到“原生地支持”上面所说的四种功能。


我们从2014年开始一直在做的Collaborative Deep Learning [2](CDL),其实就是一个BDL应用到推荐系统上的一个特例(此处应 @Naiyan Wang )。在CDL里面,“感知模块”利用神经网络来快速处理高维数据(文本或者图像),而“任务模块”则负责用概率图来表示“用户”、“产品”、“评分”之间的条件概率关系(如下图)。



在提出CDL之后,我们在15年开始把他推广成上文描述的“广义的BDL” [9]。6年过去了,我们发现很多各个领域的model都可以放在BDL的框架下面,先上大表格(如下)。



BDL的精髓在于“一个框架、两个模块、三种变量”。这里重点讲下“两个模块”。在最新的Survey里面,我们又仔细地总结了各种可以用作BDL的“感知模块”和“任务模块”数学工具:


1. “感知模块”可以用Restricted Boltzmann Machine(RBM)、Probabilistic Autoencoder [2]、VAE [4]、Natural-Parameter Network [5] 等等各种概率化的神经网络。


2. “任务模块”则可以用传统的贝叶斯网络(Bayesian Network)、深度贝叶斯网络 [6]、甚至随机过程 [7]。有趣的是所谓的随机过程,其实可以看成是一种动态的贝叶斯网络(Dynamic Bayesian Network)[8],而传统的贝叶斯网络则是一种静态的“浅”贝叶斯网络。


至于我们survey中定义的“三种变量”,指的就是:


1. “感知变量”(perception variable)指的是“感知模块”里面的变量(见上图5的红色框内的变量),这种变量一般是从比较简单的分布(比如dirac delta分布或者高斯分布)里面采样出来,而且连接图比较简单,这样可以保证计算的复杂度不会太高,否则多层的“感知变量”会消耗巨大的计算量。


2. “中枢变量”(hinge variable)指的是“任务模块”里面和“感知模块”有直接连接的变量(比如上图5中的H)。这种变量主要是连接两大模块,为两者提供双向、快速的通信。


3. “任务变量”(task variable)指的是“任务模块”里面和“感知模块”没有直接连接的变量(比如上图5中的A-D)。这种变量和“感知变量”恰恰相反,它可以从各种千奇百怪的分布中采样出来,而且连接图会比较复杂,这样其实是为了能够更好地刻画变量之间复杂的条件概率关系。


以上就是BDL的整体框架。其实大家从描述中可以看出来,这个框架可以有非常广泛的应用。在survey中我们就举了几个例子,介绍了BDL在(1)监督学习(以推荐系统为例),(2)无监督学习(以主题模型为例),以及(3)通用的表征学习(representation learning,以控制为例)这个三个机器学习范式中的具体模型设计及其应用。上面的表格1则是按照各个应用整理了各种BDL的模型供大家参考。有兴趣的同学还可以看看我们的不定时更新的project page(github.com/js05212/Baye)。


虽然我们在survey过程中已经尽量做到全面,但是如果有不小心遗漏哪些reference,也欢迎大家联系我:)我们会及时更新project page和arxiv。


论文:wanghao.in/paper/CSUR20

英文版blog:wanghao.in/BDL.html

Github页面(论文列表持续更新):js05212/BayesianDeepLearning-Survey

arXiv版本:A Survey on Bayesian Deep Learning


References


[1] A survey on Bayesian deep learning. Hao Wang, Dit-Yan Yeung. ACM Computing Surveys (CSUR), to appear, 2020.


[2] Collaborative deep learning for recommender systems. Hao Wang, Naiyan Wang, Dit-Yan Yeung. KDD, 2015.


[3] David MacKay. A practical Bayesian framework for backprop networks. Neural computation, 1992.


[4] Auto-encoding variational Bayes. Diederik P. Kingma, Max Welling, ArXiv, 2014.


[5] Natural parameter networks: A class of probabilistic neural networks. Hao Wang, Xingjian Shi, Dit-Yan Yeung. NIPS, 2016.


[6] Bidirectional inference networks: A class of deep Bayesian networks for health profiling. Hao Wang, Chengzhi Mao, Hao He, Mingmin Zhao, Tommi S. Jaakkola, Dina Katabi. AAAI, 2019.


[7] Deep graph random process for relational-thinking-based speech recognition. Huang Hengguan, Fuzhao Xue, Hao Wang, Ye Wang. ICML, 2020.


[8] Machine learning: A probabilistic perspective. Kevin P Murphy. MIT press, 2012.


[9] Towards Bayesian deep learning: A framework and some existing methods. Hao Wang, Dit-Yan Yeung. TKDE, 2016.

类似的话题

  • 回答
    好的,咱们就来聊聊贝叶斯深度学习这个话题,它和我们熟悉的传统神经网络比起来,有哪些特别之处。尽量讲得透彻些,也去掉那些“AI味”十足的陈词滥调。先来说说我们熟悉的“传统”神经网络我们平时接触到的深度学习模型,比如卷积神经网络(CNN)用于图像识别,循环神经网络(RNN)或者Transformer用于.............
  • 回答
    OSIRISREx 探测器在小行星贝努(Bennu)的首次采样行动,绝对是近年太空探索中的一件大事,充满了值得细细品味的亮点。这不仅仅是把探测器送上去碰一下,而是进行了一系列高难度、前所未有的操作,其背后凝聚了无数科学家的智慧和工程技术的结晶。让我带你深入了解一下这次采样行动到底有哪些看点,保证不是.............
  • 回答
    深圳,这座年轻而充满活力的城市,总是不乏令人惊叹的雄心壮志。最近,关于一项堪称“石破天惊”的城市规划再度引发了广泛关注——深圳将在罗湖区的湖贝村,打造一座名为“湖贝塔”的摩天大楼,目标直指世界第一高楼的宝座。想象一下,当这座巨塔巍然耸立于深圳的天际线之上,它将不仅仅是一栋建筑,更是一座城市的宣言,一.............
  • 回答
    贝叶斯定理,这个名字听起来就带着几分神秘和力量。它不是什么新奇的魔法咒语,而是一种基于概率的思维方式,一种在信息不断涌现的时代里,帮助我们拨开迷雾、做出更明智判断的利器。如果你问我它到底厉害在哪里,我会说,它的厉害之处在于它能让我们在“不确定性”的游戏中,不断“学习”和“进步”。想象一下,我们生活在.............
  • 回答
    在贝叶斯统计的世界里,先验分布的选取,就好比给我们的模型披上了一层基于过往经验和领域知识的“外衣”。它不是凭空捏造,而是一个需要深思熟虑、多方考量的过程。我们不是在“求”一个固定的先验分布,更准确地说,我们是在“选择”或“构建”一个合适的先验分布。这个过程,就像侦探在收集线索,力求在证据不那么充分时.............
  • 回答
    在机器学习和贝叶斯统计领域,我们经常会遇到一些棘手的积分问题,尤其是在计算后验分布的归一化常数(也称为模型证据)或者进行边缘化以获得预测分布时。这些积分往往无法解析求解,我们称之为“难以处理的积分”(intractable integrals)。为了解决这些问题,我们不得不依赖一系列的近似算法。虽然.............
  • 回答
    在马尔可夫链蒙特卡洛(MCMC)方法,尤其是贝叶斯推断的语境下,我们之所以能够“最大化后验概率”,其实是一种对核心目标函数的优化理解,但需要更精确地描述其本质和方法。MCMC 的核心目标并非直接找到后验概率的最大值点(MAP估计),而是对整个后验分布进行采样,从而理解其形状、中心趋势、不确定性等信息.............
  • 回答
    好的,咱们就用大白话聊聊“贝叶斯决策理论”这东西,保证让你听得懂,而且不像是机器讲的。想象一下,你生活中经常会遇到需要做选择的情况,对吧?是去楼下那家经常去的包子铺吃早餐,还是去隔壁新开的那家网红店试试?是现在就去买股票,还是等一等再看?这些都是决策。那什么叫“贝叶斯决策理论”呢?说白了,它就是一种.............
  • 回答
    好的,为了帮助你系统地掌握贝叶斯推理,我为你梳理了一些非常值得入门的书籍。这些书各有侧重,但都清晰地讲解了贝叶斯思想的核心,并提供了实践的指导。我会尽可能详细地介绍它们,让你知道哪一本更适合你的口味和需求。理解贝叶斯推理的起点:不仅仅是公式在开始推荐书籍之前,我想先强调一下,贝叶斯推理的核心是“信念.............
  • 回答
    贝叶斯统计,在我看来,它不仅仅是一种统计方法,更是一种思维方式,一种看待数据和世界的方式。它最核心的魅力,在于它允许我们把“已知”的东西(先验知识)和“新发现”的东西(数据)有机地结合起来,从而不断更新和 refining 我们的认知。核心思想:先验与后验的交织贝叶斯统计的基石是贝叶斯定理。听起来有.............
  • 回答
    变分贝叶斯(Variational Bayesian,简称VB)是处理复杂概率模型中的一种强大的近似推断技术。它的核心目标是找到一个更简单的概率分布来近似一个难以直接计算的复杂后验分布。为了让你能更清晰地理解变分贝叶斯,我们将从以下几个方面进行详细阐述:一、 回顾贝叶斯推断的基础在深入VB之前,我们.............
  • 回答
    Judea Pearl,图灵奖得主,贝叶斯网络的奠基人,在AI领域无疑是泰斗级的人物。如果他在一个公开场合的讲座真的出现“无人问津”的情况,那绝对是一个值得深入探讨的现象,因为这背后可能隐藏着一些关于AI领域发展趋势、学术界沟通方式乃至技术传播的深层原因。以下是我对这种情况的详细分析和看法,尽量展开.............
  • 回答
    想象一下,你是一名侦探,正在调查一起盗窃案。你的目标是找出谁是那个小偷。核心思想:我们如何根据新的证据更新我们对某个可能性的看法?这听起来很普通,但这就是贝叶斯定理的精髓。它就像一个超级聪明的侦探工具箱里的工具,可以帮助我们更理智地思考,尤其是在信息不完整或者我们一开始就有一些“感觉”的情况下。咱们.............
  • 回答
    好的,我们来聊聊为什么有向图模型也常被称为贝叶斯网络,并且我会尽量把它讲得透彻、自然,没有 AI 的痕迹。首先,我们得知道“贝叶斯网络”这个名字是怎么来的。它的核心在于“贝叶斯”这三个字,以及它所描绘的“网络”结构。“贝叶斯”:基于概率推理的基石“贝叶斯”这个词,很容易让人联想到“贝叶斯定理”。这可.............
  • 回答
    想象一下,你和你的朋友正在玩一个简单的石头剪刀布游戏。你知道石头赢剪刀,剪刀赢布,布赢石头。现在,你不是随意出拳,而是想出一个策略,让你更有可能赢。什么是“均衡”?在博弈论里,“均衡”就像是一个双方都觉得“挺好”的约定,即使他们不能事先商量。在这个石头剪刀布游戏里,一个最基本的均衡是一方总是出石头,.............
  • 回答
    好的,我们来详细介绍一下各种经典机器学习算法的应用场景。理解这些算法的特性和适用范围是选择合适模型解决问题的关键。在深入介绍之前,先明确几个基本概念: 监督学习 (Supervised Learning): 算法从带有标签的数据(输入输出对)中学习,用于预测未知数据的标签。 分类 (.............
  • 回答
    .......
  • 回答
    .......
  • 回答
    .......
  • 回答
    听贝斯音,然后推测出和弦,这可不是件容易事,尤其是在没有其他乐器伴奏的情况下。但如果你真的想练就这门“绝技”,那得多花点时间和功夫,关键在于“听”和“想”的结合,以及对音乐理论的理解。第一步:磨练你的耳朵,培养“大局观”很多人听到贝斯,脑子里可能就只剩下那个低沉的线条。但要听出和弦,你得把耳朵伸出去.............

本站所有内容均为互联网搜索引擎提供的公开搜索信息,本站不存储任何数据与内容,任何内容与数据均与本站无关,如有需要请联系相关搜索引擎包括但不限于百度google,bing,sogou

© 2025 tinynews.org All Rights Reserved. 百科问答小站 版权所有