先放一个差强人意的wikipedia的词条:Entropy in thermodynamics and information theory 其中关键的一段:
Theoretical relationship
...
However, a connection can be made between the two. If the probabilities in question are the thermodynamic probabilities pi:, the (reduced) Gibbs entropy
σ can then be seen as simply the amount of Shannon information needed
to define the detailed microscopic state of the system, given its
macroscopic description. Or, in the words of G. N. Lewis
writing about chemical entropy in 1930, "Gain in entropy always means
loss of information, and nothing more". To be more concrete, in the
discrete case using base two logarithms, the reduced Gibbs entropy is
equal to the minimum number of yes/no questions needed to be answered in
order to fully specify the microstate, given that we know the
macrostate.
...
我的解释:
1. 热力学熵的玻尔兹曼形式和信息熵的基本意义完全一样,都是『(拥有某种观测能力的观测者)描述一个系统所需的信息量』。
对于一个具有i个状态,每个状态出现概率为的系统来说,
【更正:感谢 @yourself go 董玉龙:信息熵与热力学统计物理中的熵有什么区别和联系? 】
Boltzmann Entropy 是
,
Gibbs entropy 是
当系统趋向于平衡态时,吉布斯熵退化为玻尔兹曼熵。
Information Entropy 是:
吉布斯熵和信息熵形式上唯一的区别只是计算对数以e为底还是以2为底、结果以nats为单位或以bit为单位。为便于比较,本文下面计算热力学熵也以2为底。
具体演示一下:对一个有三个硬币的系统:
(a)如果硬币是可分辨的(这等价于同一个硬币按顺序抛三次、或者抛三个长相不一样的硬币、或者虽然三个硬币长相一样但我在三个可分辨的坑里分别抛...),系统一共有8种可能的状态{ HHH, HHT, HTH, HTT, THH, THT, TTH, TTT }。
问:如果我想描述这个系统处于什么状态,我需要多少信息(这是个物理问题)?如果A知道了系统处于什么状态,A想告诉B这个事实,需要用多少信息(这是个通信问题)?
计算一下:
系统的玻尔兹曼熵和信息熵一样,都是3 bits。
(b)如果我是一个能力有限的观测者,硬币对我来说是不可分辨的(这等价于抛三个全同硬币、或者同一个硬币抛三次但我不考虑顺序、或者虽然三个硬币长相不一样但我不考虑这个差异),系统一共有4种可能的状态:{ 3个T, H1T2, H2T1, 3个H }。
问:如果我想知道这个系统处于什么状态,我需要多少信息?如果A知道了系统处于什么状态,A想告诉B这个事实,需要用多少信息?
计算:
为什么不是2bits呢?因为这四个状态的概率分布是不均等的,是有偏的——『一切皆有可能,但可能性大小不同』——也就是说,当我观察这个系统之前,我不是完全不知道它会处于在状态,而是知道它会有比较大的可能处在H1T2和H2T1,所以,这个系统对我的不确定程度并没有2bits那么高。
(c)如果我是一个物理学家,硬币对我来说是可分辨的,经过研究,我宣布这个系统的物理学熵是3。这时,假设还有A和B两个观察能力有缺陷的通信工程师,他们不能分辨三个硬币的区别,而且还不识数,只能分辨三个硬币中H多还是T多。但是他们依然很勤奋,基于这个三硬币系统设计了一套通信系统,这个系统是这样的:A和B之间每次传递三个硬币,这就完成了一段信息的传输,同时A和B约定,三个硬币中如果H多则代表0,T多则代表1,这就完成了信息的编码解码。
对物理学家来说,这个系统的玻尔兹曼熵是3。对于通信工程师来说,基于这个三硬币系统构建的通信编码的信息熵是1(计算略)。
2. 描述一个系统所需的信息量(信息熵)与观测的精细程度相关,这个精细度存在物理极限,达到物理极限时,玻尔兹曼熵就是信息熵,系统的物理状态数就是这个系统包含的/携带的信息量的上限。
我的三硬币系统可能有3bits信息(情况a),也可能有1.81bits信息(情况b),也可能只有1bits信息(情况c),也可能完全不包含信息(如果我甚至不能识别硬币正反面)。对于观测能力不同的人来说,信息量是不同的。观测粒度细则信息量大,观测粒度粗则信息量小。
之所以现在人们往往不觉得信息熵和热力学熵有什么关系,是因为对物理系统的微观观测和描述早已到达了亚原子水平,而目前的信息技术对物理系统进行编码的精细程度还停留在相对粗粒度的分子/原子团水平(如微波通信、闪存芯片)。但是,如果我们生活在一个信息技术高度发达的未来世界里,所有的基本粒子都能被我们用于编码,那么很明显的,这个世界里的人迟早要面对一个可怕的『编码极限』,也就是说,当这个世界的信息量达到(或接近)这个世界本身的玻尔兹曼熵之后,就无法增长了。理论上这是真的,‘未知的世界’的‘未知程度’存在一个极限,宇宙携带的信息量也有一个极限——只不过现在人类的编码水平离这个未来世界还很远,所以现在我们编码考虑效率和容错时,编码介质的玻尔兹曼熵基本上是完全无关的一个东西。
信息技术的发展(从微观上量子计算、量子通信,到宏观上大数据对社会的细粒度干预),会使信息熵的用途越来越和统计物理趋同,所以区分这两者的差异会显得越来越没有必要。
3. 熵的理论出发点是『能量可用于做功的程度』,『混乱度』只是熵的一种引申意义
本来说完1和2这个问题就应该说解释清楚了,但是针对现在对熵的普遍的认识误区还要多说两句。『熵描述系统的混乱度』是蒸汽时代对熵的物理意义的简便理解,把这个引申意义随意引申到社会领域,这是『从哲学思辨角度对物理概念随意发挥』的无良学者对相关领域的公众认知造成的最大的(负)贡献。
在蒸汽时代,熵描述的是(处于某个温度T的)一团气体分子的热运动分布接近最概然分布的程度、也就是一团气体的『混乱度』。但是,『混乱度』并不是研究热力学的工程师和学者真正关心的——他们关心的是『不混乱的程度』、也就是这团热气包含的能量可用于做功的潜力大小。这才是熵这个概念被发明出来、被使用的原因。
物理学家不断探索微观世界,然后不断转化成工程技术的进步,使我们从『蒸汽时代』来到了『原子时代』——从使用热力学熵观察描述热机工质,让热气为我们做功,到使用玻尔兹曼熵描述原子、亚原子物质,让激光、纳米机器为我们做功,都是在利用有序的物理对象蕴含的能量/价值。从这里也能看出,『信息熵』——描述编码(信息)的有序程度、以及这种有序蕴含的利用价值——这个概念的用法和热力学熵、和玻尔兹曼熵没有任何不同,唯一不同只是观测对象从『天然』的换成了『人工』的。
掌握了这个原则,所以就可以吐槽市面上各种对熵的误用了。
批判网络鸡汤乱用物理学的熵增定律解释世间万物。
“熵增定律”视频鉴定 https://www.zhihu.com/video/1483868129289359360视频中只指出错误了,没有详细解释「热力学熵」「熵增定律」「信息熵」之间的关系,补充一下。
「热力学熵」的概念是克劳修斯最早提出的,用来描述热力学现象,能用来度量「可用来做功的能量」。
「信息熵」出现时间晚于「热力学熵」,由香农提出。
「信息熵」可理解为「热力学熵」抽离了“物理意义”后所推广出的,所描述的对象不再限于「系统的能量或粒子分布」,而是可以描述任何事物的「不确定性」,因此必须要重新指定要描述的对象。
例子:比如,描述「财富分布状态」的不确定性(信息熵),或者描述「乌俄冲突如何收尾」的不确定性(信息熵)。
例子:热力学熵也可以用信息熵的角度来理解,即「系统微观态」的「不确定性」。
也可以把「热力学熵」理解为“物理知识“,把「信息熵」理解为“数学知识“,数学知识都会剥离「具体意义」,把知识的适用范围增大。
例子:当一个人在文中提到「热力学熵」时,基本上他在描述「系统的能量或粒子分布」。但当一个人在文中提到「信息熵」时,就得再找一下,他在用信息熵描述「什么」。
类比:做个类比,「热力学熵」相当于「 1 个苹果 + 1 个苹果 = 2 个苹果」,「信息熵」相当于「1 + 1 =2」(因此要重新说明 1,1,2 分别代表什么)。
怎么理解都可以,把热力学熵和信息熵的公式用对,准确描述现象,不乱描述就行。
另外,物理学中的「混乱」不是大众所理解的“不整齐”,而是「对应可能(微观态)较多的事物(宏观态)」。
例子:比如,从一副扑克牌中随便抓两张,「对子」有「对A」「对2」...「对K」,十三种「对应可能」,而「王炸」只有「大王小王」这一种「对应可能」,此时在物理学的语境中「对子」的「混乱度」就比「王炸」的「混乱度」高,因为「对应可能」多。
孤立系统的「热力学熵」的变化规律,符合「熵增定律(热力学第二定律)」,即「孤立系统的能量或粒子」会自发地「均匀分布」到整个系统中,用熵来描述就是「热力学熵只增不减」。
例子:对应例子就是,没有外界干扰时,一杯开水的水温会慢慢变成室温,因为水杯中的能量会“扩散”到整个系统(水杯+房间)中,我们没见过“冷水自发慢慢变热(也就是熵自发降低)”现象。
但「信息熵」的变化规律,却是各式各样,根据「信息熵」所描述的对象而定,并不一定满足「熵增定律」。
例子:比如,用「财富分布方式」可以被「信息熵」描述,而「财富分布方式」并不会自发地「均匀分布」到每个人的手里,反而可能出现“两极分化”。
「信息熵」的对立概念就是「信息」,二者属于硬币的正反面。「消除信息熵」=「获取信息」,所以信息的单位和「信息熵」的单位相同。
可以将某个事情的「信息熵」理解为「信息熵一上来就是最大的(一无所知的状态)」,需要「对应的信息」和「对应的知识」来降低。
例子:比如,你从 A,B,C,D 中挑一个数字,我对于「你选的是什么」是完全不知道的,也就是说,你选择 A,B,C 的可能性在我看来,概率全都是 25%,是均匀分布。此时,我对「你选的是什么」的「信息熵最大」,除非你给我「信息」来消除这些「信息熵」。
例如:又如,有个拆弹游戏,老玩家拥有「拆弹游戏的知识」,可以利用知识,得出「红白蓝三根线该剪哪一条才不会爆炸」的「信息」,但对于没有「拆弹游戏的知识」的人来说,则得不出。
「人体的热力学熵」确实会增大,但与人体热力学熵对抗的是我们身体的细胞,只要好好用脑细胞,别喝假酒什么的,身体的其他细胞就对抗着热力学熵,不用脑子来操这份心,脑子应该想想怎么对抗各种信息熵,怎么解决各种问题,多学习解决各种问题所需要的「知识」。
总体上,我们可以说「人始终都在对抗信息熵」。但对抗的时候,一定要使用「对应的信息」或「对应的知识」,而不是用「开放系统」这种废话。
尽管「信息」可以用于描述「想象中」的任何东西的「不确定性」,可「信息的存在」必须依赖于某个「物质」,也叫「载体」。「信息无法脱离于物质而存在」,即使是在我们脑中的信息,也都是依附于神经细胞而存在的。
当我们想要写入一个「信息」,比如「我刚才投掷硬币后的正反面结果」时,必然要通过改动「载体」来实现存储。那么就必然会改变该「载体」的「能量或粒子状态分布」,也就是改变「载体」的「热力学熵」,同时消耗能量。
不管我们采用什么「载体」,所改变的「热力学熵」都不会低于 kln2 J/K,所消耗的能量也都不会低于kTln2 J。这个极限也叫做「兰道尔极限」。
例子:假如我们用「信息熵A」来描述「我刚才投掷硬币后的正反面结果」,并存到两个「载体」中,一个是「u盘」,一个是「窗户(开窗表示正面,关窗表示反面)」。
在写入「信息熵A」的时候,必然会改变「u盘+环境」的「热力学熵」和「窗户+环境」的「热力学熵」,并且消耗「能量」,不过「窗户」消耗的能量更多。但不论是写入「u盘」还是「窗户」,所消耗的能量都不会低于 kTln2 焦耳。
这是这些天看到的各种提案里面难得的我无条件支持的。
非常好。