百科问答小站 logo
百科问答小站 font logo



一段文字的包含的信息量能不能衡量? 第1页

  

user avatar   jianchichen 网友的相关建议: 
      

信息量的严格数学定义就是 log(1/p),其中p是该文本在所有可能出现的文本中的概率,简单的说就是文本越罕见,信息量就越大。打个比方说,“我爷爷活了九十三”,和“我昨天吃了一泡屎”比起来,虽然字数相同,但是后者的信息量无疑大很多。

你可以把信息量简单想象为在你知道全空间真实分布的情况下,对某个样本进行霍夫曼编码压缩后所需的比特数(此处的霍夫曼编码未必是逐字节的)。当然,我们是不可能知道所有文本的概率分布的,所以要靠段落、句子、短语、词的分布来近似。(log(1/(p1*p2))=log(1/p1)+log(1/p2))

比如虽然大多数人的名字是三个字,可是有个人的名字,却可以压缩成"他",信息量就比较小。




  

相关话题

  数学上一共有多少维度? 
  一个天资平平,数学基础非常差的高一学生,打算日后进行纯数研究,是否应该对其进行劝退? 
  数学专业,老师发了个自己的论文要看,基本上看不懂,有么有大佬看看要什么知识基础? 
  量子力学和概率学有什么关系吗? 
  如何评价姜新文老师提出的NP=P这篇文章? 
  如何评价陈天权《数学分析讲义》? 
  没有视觉的生物,它们的数学和物理学会是怎样的? 
  数值分析中割线法的收敛阶是如何证明的? 
  在游戏中暴击率90,十次攻击会暴击九次吗,如果80暴击率的对手反而十次全部暴击,暴击率的意义是什么? 
  如何用数学知识解答「在进行社区大规模核酸检测时,分成几人一组进行混检效率最高」? 

前一个讨论
一种菜的学名?
下一个讨论
为什么有些人觉得死宅恶心?





© 2025-01-03 - tinynew.org. All Rights Reserved.
© 2025-01-03 - tinynew.org. 保留所有权利