首页

如何通俗的解释交叉熵与相对熵？第1页

1

xing-xiao-xiao-33 网友的相关建议:

仅从机器学习的角度讨论这个问题。

相对熵（relative entropy）就是KL散度（Kullback–Leibler divergence），用于衡量两个概率分布之间的差异。

对于两个概率分布和，其相对熵的计算公式为：

注意：由于和在公式中的地位不是相等的，所以.

相对熵的特点，是只有时，其值为0。若和略有差异，其值就会大于0。其证明利用了负对数函数（）是严格凸函数（strictly convex function）的性质。具体可以参考PRML 1.6.1 Relative entropy and mutual information.

相对熵公式的前半部分就是交叉熵（cross entropy）。

若是数据的真实概率分布，是由数据计算得到的概率分布。机器学习的目的就是希望尽可能地逼近甚至等于，从而使得相对熵接近最小值0. 由于真实的概率分布是固定的，相对熵公式的后半部分就成了一个常数。那么相对熵达到最小值的时候，也意味着交叉熵达到了最小值。对的优化就等效于求交叉熵的最小值。另外，对交叉熵求最小值，也等效于求最大似然估计（maximum likelihood estimation）。具体可以参考Deep Learning 5.5 Maximum Likelihood Estimation.

如何通俗的解释交叉熵与相对熵？的其他答案点击这里

1

相关话题

  什么是累积投票制度？
  数学界有哪些未解之谜？
  [-5e^(2i*π)+1*3]/2=1*4这一串有什么特殊意义吗？
  求解一道关于级数的问题怎么证明？
  有什么办法可以喜欢上数学？主要是不想以一种强迫的方式去学它了。？
  为何中国的中小学数学教育如此轻视统计和概率？
  数学思维是什么？如何培养？
  张益唐九几年在美国过得那么苦逼为何不选择回国拿当时高达几百块RMB的月薪，回国没有更好的研究条件吗？
  医学生学习机器学习该如何入门？
  在哪里排队最有可能中奖？

前一个讨论

看到你的高考成绩，你想到了什么？

下一个讨论

pytorch dataloader数据加载占用了大部分时间，各位大佬都是怎么解决的？

相关的话题

  这个相关系数背景的证明题如何做？
  数学证明费了这么大劲把这些东西证明出来，对一个人的人生、对我们身处其中的这个世界，到底有什么影响呢？
  这种类型的排列有没有什么数学名字？
  在初等数学范围内，是否所有拥有递推公式的数列都可求对应的通项公式？
  数学好的人去搞生物是种怎样的体验？
  反馈控制理论在优化、机器学习等领域有哪些应用？
  如何看待 arXiv2111.02792 对黎曼猜想的证明？
  怎么通俗地理解张量？
  数学中，远小于符号 ≪ 有没有明确的定义？
  是否可以用纯数学手段配平化学反应式？
  如何理解主成分分析中的协方差矩阵的特征值的几何含义？
  自然数 n 的因数个数的数量级估计？
  「剪刀石头布」游戏还有其它变种吗？
  如何证明单位圆周上n个点两两距离乘积的平方当且仅当各点均匀分布时取到最大值nⁿ?
  如何证明 1²+2²+…+n² 为平方数的解只有 n＝1 或 n＝24？
  以π指代圆周率是偶然的约定俗成还是特别的另有深意？
  三阶魔方公式的最大周期是多少？对应的公式是什么？
  没有视觉的生物，它们的数学和物理学会是怎样的？
  年轻人为什么要做期货？
  怎样用一个普通人能看懂的方法证明 π 是无理数？
  玩抽卡类的游戏时，如果想集齐全套卡片，应该如何估算操作成本？
  有类似二十面骰子这种可以随时拿在手里玩的精致小玩意儿吗？
  如何用数学证明中医理论的合理性？
  如何判断任意无理数的无理数次方是否为有理数或是无理数？
  谈谈机器学习在网络安全领域的局限性，以及是否乐观？
  傅里叶变换、拉普拉斯变换、Z 变换的联系是什么？为什么要进行这些变换？
  不定积分∫dx/(2 + sinx)在x = π+2kπ处，为何会这样？这是不定积分的某种“特性”吗？
  如果我们到了四维空间，会看到怎样的世界？
  有限群的群行列式因式分解后，各因式的次数是否与重数相等？
  香农的信息论之美在于什么？

© 2025-06-28 - tinynew.org. All Rights Reserved.
© 2025-06-28 - tinynew.org. 保留所有权利