哈夫曼树的应用——对文件进行解码和译码
一、 需求分析说明
随着信息时代的到来,信息越来越多,如何压缩信息已经是
重要课题。特别是多媒体技术的发展,使得信息量大的问题凸
显。
哈夫曼编码(Huffman Coding)是一种无损压缩编码方式,以
哈夫曼树—即最优二叉树,带权路径长度最小的二叉树,经常应
用于数据压缩。在计算机信息处理中,“哈夫曼编码”是一种一
致性编码法(又称"熵编码法"),用于数据的无损耗压缩。这一
术语是指使用一张特殊的编码表将源字符(例如某文件中的一个
符号)进行编码。这张编码表的特殊之处在于,它是根据每一个
源字符出现的估算概率而建立起来的(出现概率高的字符使用较
短的编码,反之出现概率低的则使用较长的编码,这便使编码之
后的字符串的平均期望长度降低,从而达到无损压缩数据的目
的)。这种方法是由 David.A.Huffman 发展起来的。例如,在英
文中,e 的出现概率很高,而 z 的出现概率则最低。当利用哈夫
曼编码对一篇英文进行压缩时,e 极有可能用一个位(bit)来表
示,而 z 则可能花去 25 个位(不是 26)。用普通的表示方法
时,每个英文字母均占用一个字节(byte),即 8 个位。二者相
比,e 使用了一般编码的 1/8 的长度,z 则使用了 3 倍多。倘若
我们能实现对于英文中各个字母出现概率的较准确的估算,就可
以大幅度提高无损压缩的比例。
当然本软件的目的不在于如何去压缩一个文件信息,而是
通过建立哈夫曼树,由哈夫曼树编得二进制码,再译码,来了解
哈夫曼树编码实现过程。(庞大的翻译内容会进行报错)