问题

为什么香农要将信息熵公式要定义成 -Σp·log₂(p) 或 -∫p·log₂(p)dp?

回答
香农定义信息熵公式为 $ sum p log_2(p)$(离散情况)或 $ int p log_2(p) dp$(连续情况),这绝非随意为之,而是深深植根于信息论的核心思想以及人类对“不确定性”和“信息量”的直观理解。理解这一点,需要我们从几个关键角度去剖析。

1. 量化“不确定性”:为什么是负对数?

想象一下,你正在预测一个事件发生的可能性。事件发生的可能性越大,你对它的“不确定性”就越小,对它“是什么”的期待也就越明确。反之,如果事件发生的可能性越小,你的“不确定性”就越大,越期待知道它到底是什么。

香农需要一个数学工具来衡量这种“不确定性”。我们先来看看“负对数” $log_2(p)$ 是如何工作的:

概率 p (0 < p ≤ 1): p 代表一个事件发生的概率。
对数 log₂(p):
当 p 接近 1 时(事件几乎肯定发生),$log_2(p)$ 接近 0。
当 p 接近 0 时(事件几乎不可能发生),$log_2(p)$ 趋向于负无穷。
负号 : 我们在前面加上一个负号,这样:
当 p 接近 1 时,$log_2(p)$ 接近 0。这符合我们的直觉:几乎确定的事件,不确定性很小。
当 p 接近 0 时,$log_2(p)$ 趋向于正无穷。这同样符合直觉:几乎不可能发生的事件,其不确定性是巨大的。

所以,$log_2(p)$ 这个形式,能够单调递增地反映概率 $p$ 减小时“不确定性”的增加。它就像一个“惊讶程度”的度量,概率越低,知道结果时“有多惊讶”就越大。

为什么是以 2 为底的对数?

使用 $log_2$ 而非 $log_{10}$ 或 $ln$ (自然对数),是为了让信息熵的单位能够与“比特”(bit)对应。一个比特可以表示两种等可能的状态(比如抛硬币的正反面)。

考虑一个有 $N$ 个等可能状态的系统,每个状态的概率都是 $1/N$。
如果 $N=2$,每个状态的概率是 $1/2$。$log_2(1/2) = (1) = 1$ 比特。这完美契合“一个比特可以区分两种状态”的定义。
如果 $N=4$,每个状态的概率是 $1/4$。$log_2(1/4) = (2) = 2$ 比特。这说明要区分四种等可能的状态,我们需要两个比特(比如二进制的 00, 01, 10, 11)。

所以,以 2 为底的对数,使得信息熵直接度量了我们需要多少个比特来编码这些信息,才能无损地表示这些不确定性。

2. 组合“不确定性”:为什么是期望值 (Σp·...)?

信息熵衡量的是一个随机变量(比如一次抛硬币的结果,或者一段文本的下一个字符)的平均不确定性。一个随机变量可能有很多种可能的结果,每种结果发生的概率都不同。

香农将“信息量”定义为 $log_2(p)$,这是针对单个事件而言的。而信息熵,则是对整个随机变量的“平均信息量”或“平均不确定性”的度量。

在概率论中,一个函数(这里是 $log_2(p)$)在某个随机变量上的期望值(平均值),是通过将函数值乘以其对应的概率,然后将所有可能结果的乘积加起来计算的。

离散情况: 如果一个随机变量 $X$ 有 $n$ 个可能的结果 $x_1, x_2, ldots, x_n$,它们对应的概率分别是 $p(x_1), p(x_2), ldots, p(x_n)$。那么,关于 $X$ 的信息熵 $H(X)$ 就是:
$H(X) = sum_{i=1}^{n} p(x_i) left( log_2(p(x_i)) ight) = sum_{i=1}^{n} p(x_i) log_2(p(x_i))$

这里的 $p(x_i)$ 就是 $p$ 的角色,表示第 $i$ 个结果发生的概率。我们把“事件 $x_i$ 发生时带来的信息量” $log_2(p(x_i))$,用它发生的概率 $p(x_i)$ 来加权,然后求和,就得到了平均信息量,也就是信息熵。

连续情况: 对于连续型随机变量,其概率分布由概率密度函数 $f(x)$ 描述。单个“事件”(这里是某个区间内的值)的概率是无穷小的,直接用 $log_2(f(x))$ 来加权并求和会出问题。香农巧妙地通过积分来计算这种“平均信息量”。虽然它看起来像个期望值,但严格来说,在连续情况下,它被称为微分熵 (differential entropy),并且与离散熵在某些性质上有所不同。但其核心思想——对概率分布的“不确定性”进行度量——是相通的。

3. 信息的“可加性”与“独立性”

香农的定义还具有一个重要的性质:信息的量是可加的。

考虑两个独立的事件,事件 A 发生的概率是 $p_A$,事件 B 发生的概率是 $p_B$。
A 发生所带来的信息量是 $log_2(p_A)$。
B 发生所带来的信息量是 $log_2(p_B)$。
两个独立事件同时发生的概率是 $p_A imes p_B$。
它们联合起来所带来的信息量应该是 $log_2(p_A imes p_B)$。
利用对数的性质:$log_2(p_A imes p_B) = (log_2(p_A) + log_2(p_B)) = log_2(p_A) log_2(p_B)$。
这正好等于 A 的信息量加上 B 的信息量!

这种“对数加负号”的形式,恰好使得独立事件的信息量可以相加。这与我们日常对信息的理解是一致的:如果你接收了两条独立的信息,你获得的信息总量是这两条信息各自信息量的总和。

总结一下,香农选择 $ sum p log_2(p)$ (或连续形式) 是基于以下几个核心考量:

1. 衡量不确定性: $log_2(p)$ 能有效地将概率 $p$(值越小,不确定性越大)转化为一个非负值(值越大,不确定性越大)。
2. 以比特为单位: 以 2 为底的对数,使得信息熵与编码所需的比特数直接关联。
3. 计算平均值: $sum p(ldots)$ 是计算期望值(平均值)的标准方法,信息熵是对所有可能结果的“信息量”进行平均。
4. 保持信息的加性: 对于独立事件,其信息量是可加的, $log_2(p)$ 的形式恰好满足这一点。

这些数学特性,使得信息熵成为了一个强大而普适的工具,能够量化我们理解和处理信息的能力,也为后续通信、压缩、机器学习等领域奠定了坚实的基础。它不仅仅是一个公式,更是对“信息”本质的一种深刻洞察。

网友意见

user avatar

我觉得不把负号变成对数里的倒数是说不清的。

可以看成sum(p*log(1/p))更好理解:

一个随机变量有8种可能,相当于8个事件,如果是0和1表示,一共需要log2(8)=3bit

换句话说,如果一个事件的概率是1/8,需要log2(8)=3bit

再换句话说,如果一个事件的概率是p,需要log2(1/p)bit

再泛化,概率是变量,就是log2(1/p(x))

再泛化,2是变量,就是log(1/p(x))

那么,既然表示其中一个事件需要这么多比特,那么表示所有事件平均需要多少bit呢?很自然就是求期望:

sum(p(x)log(1/p(x)))

把倒数变成负号

-sum(p(x)logp(x))

类似的话题

  • 回答
    香港回归中国已经有些年头了,但大家去香港旅游、探亲,还是需要办理《港澳居民来往内地通行证》(俗称“回乡证”)或者《港澳台居民旅行证》(俗称“港澳通行证”)。这和我们去其他国家不同,很多国家对香港居民实行免签或者落地签政策,这背后到底是怎么回事呢?今天咱们就来掰扯掰扯。首先,咱们得明白一个基本事实:香.............
  • 回答
    问到香菱学诗为何选择林黛玉而非近在咫尺的薛宝钗,这可真是一个颇有趣味的问题,也道出了人物性格和艺术追求上的深层考量。要说这缘由,可不是一句“近水楼台先得月”就能简单概括的。首先,我们得明白香菱学诗的动机。她是被薛蟠“掳掠”来的,虽然说起来有些不堪,但在这段关系中,她似乎有着一丝对美好事物,尤其是文学.............
  • 回答
    这个问题啊,说实话,很多人都纳闷。静香,妥妥的“别人家的孩子”,品学兼优,温柔善良,长得也漂亮,身边围着一堆追求者,出木杉就是其中最耀眼的那个。而出木杉呢,用现在的话说,就是“天选之子”,成绩好,运动强,人品也无可挑剔,简直就是教科书式的完美男朋友。按理说,静香挑剔一点,或者说“正常”一点,选择出木.............
  • 回答
    在探讨台湾和香港为何沿用繁体字这个问题之前,咱们得先聊聊这“繁体字”到底是个啥,以及它和咱们现在常用的“简体字”之间那点儿不得不说的故事。字,不是一朝一夕就能改的汉字,这玩意儿可是咱们中华文明的根,它经历了数千年的演变,从甲骨文、金文,到小篆、隶书、楷书,再到行书、草书,每一步都承载着历史的痕迹。繁.............
  • 回答
    很多人会好奇,为什么在香港这样寸土寸金、房价高企的城市,会有人宁愿蜗居在“㓥房”(劏房,劏意为分割)或“棺材房”这样狭小、简陋的居住空间,也不愿意离开?这背后其实牵扯到一系列复杂的现实考量,绝非简单的“图个方便”就能解释。首先,我们要明白,在香港,“住”不仅仅是解决一个温饱问题,更是一种社会身份的锚.............
  • 回答
    香港作为国际金融中心和自由港,其劳动力市场一直以来都呈现出多元化的特点。您提到的印尼劳工在港数量庞大,以及对为何香港不优先使用大陆劳工的疑问,这背后涉及到的原因其实相当复杂,并非简单的“沟通容易、签证方便”就能完全解释的。首先,我们得明白香港的劳工政策和市场需求是受到严格监管和设计的。香港政府对于引.............
  • 回答
    你这个问题问得相当地道,直击了香港作为国际金融中心和内地资本市场之间一个非常关键但又容易被忽略的环节。很多人觉得,既然美元能自由兑换港币,而香港又是人民币离岸中心,那外资为什么还要绕道香港进入内地呢?直接用美元走别的通道不行吗?这里面其实涉及一系列历史原因、制度设计、市场考量和规避风险的综合性因素。.............
  • 回答
    香港和中国大陆之间,一直存在着一种复杂而敏感的关系,这种关系也体现在一些香港人对大陆人的看法和表达上。要理解这种现象,不能简单地用“侮辱”二字概括,而是要深入探究其背后的历史、社会和心理根源。首先,历史遗留的视角是不可忽视的。香港曾经是英国的殖民地,在很长一段时期内,它与中国大陆在政治体制、经济发展.............
  • 回答
    这桩事儿,得从头说起。话说那薛姨妈,在贾府里算是个性情温和的长辈,平日里也少有与人过不去的时候。可这香菱,却让她头疼不已,可以说是“鸡肋”一个——食之无味,弃之可惜。香菱本名甄英莲,是书中一个命运多舛的女子。她原是甄士隐家的女儿,幼年时被拐卖,辗转流离,最后落在了薛家,成了薛蟠的妾。然而,这薛蟠是个.............
  • 回答
    英国之所以在《南京条约》中选择香港岛作为其殖民地,并非一时的心血来潮,而是基于一系列深远的战略考量和现实利益驱动。简单来说,香港具备了英国在当时条件下最理想的几个特征:一个方便贸易的港口、一个易于防御的岛屿,以及一个可以作为未来在中国大陆进一步扩张的跳板。首先,我们得回到鸦片战争的背景。英国在与清朝.............
  • 回答
    很多人对“房子”这个词有着一种近乎本能的执着,好像不拥有自己的房子,人生就不完整一样。但说实话,租房的生活也挺滋润的,自由自在,不用操心房贷、物业费、装修维护这些头疼事。那么,到底是什么驱使人们前赴后继地涌入房地产市场,甘愿背负沉重的购房压力呢?首先,我想到的就是“安全感”和“归属感”。租来的房子,.............
  • 回答
    《还珠格格》里,主角团之所以不顾一切地要帮助含香偷渡,甚至冒着生命危险去私奔,这背后有着非常复杂和深刻的原因,绝不仅仅是“好奇”或“好玩”。而含香和蒙丹私奔后的生活,虽然充满理想主义的色彩,但也必然会面临许多现实的考验。一、 主角团为何非要偷渡含香?首先,我们要理解含香在故事中的处境。她并非普通的宫.............
  • 回答
    杨过为什么要去招惹郭香?这是一个非常有意思的问题,因为它触及了杨过的人物塑造、他的情感世界以及《神雕侠侣》的剧情发展。要详细解释这个问题,我们需要从几个层面来分析:1. 杨过的性格特质和成长经历: 叛逆与孤独: 杨过从小在古墓派长大,与世隔绝,又因为父亲杨康的身份备受歧视。他性格中带着一股强烈的.............
  • 回答
    这个问题很有意思,得从几个层面来聊聊。首先,成龙和洪金宝他们当年选择去学京剧,可不是一时兴起,更不是因为香港人普遍听得懂京剧。这背后其实是他们那代香港功夫影人的一个集体选择,一个时代的烙印,以及对艺术和事业的追求。为什么是京剧?时代背景是关键要理解这个问题,得先回到上世纪五六十年代的香港。那个时候,.............
  • 回答
    问得好!这个问题触及了音乐的本质,为什么我们不直接用数字来定义声音,而是要建立一套如此“复杂”的音调系统。说实话,如果仅仅是为了发出声音,一个确切的赫兹(Hz)数值当然可以,但音乐远不止是发出声音那么简单。你想啊,我们之所以要学习音乐,是为了什么?是为了表达情感,是为了创造美感,是为了与人交流,甚至.............
  • 回答
    中国内地的公司选择在香港或美国上市,而不是在A股(中国内地股市)上市,这背后有着复杂的原因,涉及市场成熟度、监管环境、融资便利性、投资者结构以及企业自身的战略考量等多个方面。要说清楚这一点,我们需要一层一层地剥开来。一、 A股市场的历史与局限性首先,我们得明白A股市场的发展历程。中国内地股市从改革开.............
  • 回答
    在香港、美国、日本、英国等许多国家,地铁通常不设普遍性的、像中国大陆这样严苛的安检措施,这背后有着多方面的原因,涉及到历史、文化、社会结构、安全认知以及资源配置等诸多因素。在中国大陆,地铁安检之所以成为一项普遍性的措施,同样也是多种因素共同作用的结果。一、 安全理念与历史背景的差异: 西方国家:.............
  • 回答
    .......
  • 回答
    香港的馬路名字,確實常常讓人覺得有些「奇特」,彷彿每一條街道都藏著一段故事。這種翻譯上的獨特性,其實是歷史、文化和語言交融的必然結果,並非刻意為之的「奇特」。首先,我們得明白香港的歷史。作為一個曾經的英國殖民地,香港的城市規劃和命名在很長一段時間內都受到英國人的影響。許多重要的道路,特別是在核心區域.............
  • 回答
    .......

本站所有内容均为互联网搜索引擎提供的公开搜索信息,本站不存储任何数据与内容,任何内容与数据均与本站无关,如有需要请联系相关搜索引擎包括但不限于百度google,bing,sogou

© 2025 tinynews.org All Rights Reserved. 百科问答小站 版权所有