哈夫曼(Huffman)编码

zoukankan html css js c++ java

哈夫曼(Huffman)编码
哈夫曼编码（Huffman Coding）是一种非常经典的编码方式，属于可变字长编码(VLC)的一种，通过构造带权路径长度最小的最优二叉树以达到数据压缩的目的。
哈弗曼编码实现起来也非常简单，在实际的笔试面试过程中有可能会遇到，本文主要介绍具体的编码原理，以及使用STL的优先队列进行实现。

一编码原理

哈夫曼编码是一种可变长的编码，它依据字符出现的概率来决定字符编码的长度，使得出现概率大的字符编码长度短，出现概率小的字符的编码长度长，于是可以减少整体的编码的长度。

哈弗曼编码时首先根据待编码的文本统计出每个字符出现的概率，组成初始的节点。然后每次取出概率最小的两个节点，新建一个节点，使得新建节点的左右儿子为选取的两个节点，并且其概率是两个节点概率之和，把新建的节点再放进所有节点中重新选择最小的两个节点。重复此过程直到只剩一个节点，这个就是哈夫曼树的根节点。

以下以字符串"aaaaaabbbbccddd"为例进行说明，为了方便，以字符出现的频数来代替频率（实际中通常使用的是频率，二者效果上是一样的），经过统计，可以知道每个字符出现的频数为

a b c d

6 4 2 3

具体建树过程如下：
1. 首先节点权值为6、4、2、3，选择最小的2和3，组成一个根节点为5的组合节点。
2. 当前节点权值为6、4、5，选择最小的4和5，组成一个根节点为9的组合节点。
3. 当前节点权值为6、9，选择最小的6和9，组成一个根节点为15的组合节点。
4. 当前节点权值为15，只有一个节点，哈夫曼树建立完成。
图示如下：

要从哈夫曼树得到每个字符的编码，只要在哈夫曼树中从根节点遍历到该字符节点，每次向左走时加一个0，向右走时加一个1，最终得到的字符串即为该字符的编码字符串。

如从上图可以看到，a的编码为0，b的编码为10，c的编码为110，d的编码为111。

当遇到一个新的字符串时，比如说"abcd"，要对其编码，只需要把其中的每个字符相应地替换成其编码字符串即可。

当已知一个编码后的字符串，比如说"010110111"，要对其解码时，只需从左到右依次扫描该编码串，当读到的串在哈弗曼编码表里有对应的字符时即解码为该字符，然后继续扫描。

在这个例子中，读到第一个0时即可解码为a，读到10时可以解码为b，以此类推，最终得到解码后的结果为abcd。

哈夫曼编码之所以可以这样解码，是因为它是一种前缀编码，任何一个字符的编码都不会是另一个字符编码的前缀。于是给定一个编码后的串，其解码的结果是唯一的。
查看全文

相关阅读:
Linux部署springboot项目创建守护进程
 实现数据库安全性控制的方法和主要技术。
推荐一些学习MySQL的资源
 带你解析MySQL binlog
一文解决MySQL时区相关问题
 手把手教你看MySQL官方文档
 MySQL关于日期为零值的处理
 关于日期及时间字段的查询
 是时候学习Linux了
 MySQL分区表最佳实践

原文地址：https://www.cnblogs.com/sunflower627/p/4838896.html

哈夫曼(Huffman)编码

一 编码原理

一编码原理