首页

如何理解香农第一定理? 第1页

yi-suo-yan-yu-ren 网友的相关建议:

其实香农第一定理是非常厉害的一个定理，它给出了在无损情况下，数据压缩的临界值。

不要小瞧这简简单单的一句话，正因为给出了理论上的下界，所以才会产生各式各样的编码办法。符号序列有广为流传的哈夫曼码，香农码等等。还有在图片和视频领域所广泛应用的各种编码方法，比如Golomb、游程编码、预测编码等。

在我们日常生活中接触到的图片格式JPEG、PDF、PNG以及常见的视频格式MP4等，都没有能够逃脱香农第一定理的制裁。下图列出了一些常见的图片和视频格式，有的常见，有的不常见

但无一例外，不论采用哪种格式保存一张图片或者视频，所需要的比特数都大于香农第一定理所给出的值（我这里说的是无损压缩，有损压缩请对应率失真定理）。可以说，任何压缩方法都是在这个圈子里兜兜转转，是跳不出来的。接下来，我详细说一下香农第一定理的数学化表述：

考虑序列发送系统，其中的序列都是来自于的个字符。如果序列中的每一个字符都服从分布，也就是说，它们独立同分布。

那么：

其中为每输入字符期望码字长度，因此，通过使用足够大的分组长度，可以获得一个编码，可以使其每字符期望码长任意地接近熵。

那么问题就来了，如果不是独立同分布怎么办，那岂不是凉凉？当然有解决办法，这个东西叫做熵率，而下面这个式子也是更具有普适的理论价值。

其中是联合熵。仔细观察该式子，你不会觉得很有意思吗？

对于一个随机过程而言，它给出了最简洁描述该过程所需的每字符期望比特数。而随机过程，又恰恰可以建模很多现象和发展规律。也就是说，上式是一个具有普适价值的式子，这就很难得了。

举例来说，你有一张Lena的照片，像这样

你可以从理论上给出它的下界，之后所有的压缩方法（无损情况）都只能不断地向着这个下界去斗争，去接近，但是永远也不可能得到一样。

当然了，它本身也有缺陷所在。它给出了临界值，固然很好，但是从计算的角度上看，它们往往是不切实际的，编码方案的不断升级，就是在接近香农熵的过程中，实现计算的实用性。

相关话题