百科问答小站 logo
百科问答小站 font logo



一段文字的包含的信息量能不能衡量? 第1页

  

user avatar   jianchichen 网友的相关建议: 
      

信息量的严格数学定义就是 log(1/p),其中p是该文本在所有可能出现的文本中的概率,简单的说就是文本越罕见,信息量就越大。打个比方说,“我爷爷活了九十三”,和“我昨天吃了一泡屎”比起来,虽然字数相同,但是后者的信息量无疑大很多。

你可以把信息量简单想象为在你知道全空间真实分布的情况下,对某个样本进行霍夫曼编码压缩后所需的比特数(此处的霍夫曼编码未必是逐字节的)。当然,我们是不可能知道所有文本的概率分布的,所以要靠段落、句子、短语、词的分布来近似。(log(1/(p1*p2))=log(1/p1)+log(1/p2))

比如虽然大多数人的名字是三个字,可是有个人的名字,却可以压缩成"他",信息量就比较小。




  

相关话题

  问个傻问题,∵0÷1=0,∴0÷0=1,∵0÷2=0,∴0÷0=2,∴1=2?是因为n÷0没意义吗? 
  如何评价「花总」悬赏十万寻信息泄露源,称不满涉事酒店回应、忍无可忍? 
  从信息编码学的角度看DNA碱基对对应特定胺基酸,有哪些独特的感受? 
  能不能用简明的语言解释什么是非参数(nonparametric)模型? 
  正规数中是否包含了宇宙中的所有信息? 
  根据策梅洛定理,中国象棋是不是应该红方必胜或必和棋(看补充)? 
  如何分配砝码使天平尽可能平衡? 
  怎样理解平面向量的数量积是一个实数呢?方向乘方向怎么会有意义? 
  如何证明下面这个式子 ? 
  关于数学有什么有趣的笑话? 

前一个讨论
一种菜的学名?
下一个讨论
为什么有些人觉得死宅恶心?





© 2025-05-03 - tinynew.org. All Rights Reserved.
© 2025-05-03 - tinynew.org. 保留所有权利