哈夫曼编码的理解(Huffman Coding) - 走看看

zoukankan html css js c++ java

哈夫曼编码的理解(Huffman Coding)

哈夫曼编码(Huffman Coding)，又称霍夫曼编码，是一种编码方式，可变字长编码(VLC)的一种。Huffman于1952年提出一种编码方法，该方法完全依据字符出现概率来构造异字头的平均长度最短的码字，有时称之为最佳编码，一般就叫做Huffman编码（有时也称为霍夫曼编码）。

哈夫曼编码，主要目的是根据使用频率来最大化节省字符（编码）的存储空间。

简易的理解就是，假如我有A,B,C,D,E五个字符，出现的频率（即权值）分别为5,4,3,2,1,那么我们第一步先取两个最小权值作为左右子树构造一个新树，即取1，2构成新树，其结点为1+2=3，如图：

虚线为新生成的结点，第二步再把新生成的权值为3的结点放到剩下的集合中，所以集合变成{5,4,3,3}，再根据第二步，取最小的两个权值构成新树，如图：

再依次建立哈夫曼树，如下图：

其中各个权值替换对应的字符即为下图：

所以各字符对应的编码为：A->11,B->10,C->00,D->011,E->010

霍夫曼编码是一种无前缀编码。解码时不会混淆。其主要应用在数据压缩，加密解密等场合。

如果考虑到进一步节省存储空间，就应该将出现概率大（占比多）的字符用尽量少的0-1进行编码，也就是更靠近根（节点少），这也就是最优二叉树-哈夫曼树。

查看全文

相关阅读:
洛谷P2522 [HAOI2011]Problem b（莫比乌斯反演）
洛谷P3327 [SDOI2015]约数个数和（莫比乌斯反演）
Informatica PowerCenter 常用转换组件一览表
 Informatica_(3)组件
 Informatica_(2)第一个例子
 Informatica_(1)安装
 InformaticaPowerCenter调用存储过程
 Informatica 9.5.1 安装配置
 Linux字符集的查看及修改
 Redis-3.2.9集群配置（redis cluster）

原文地址：https://www.cnblogs.com/linhaostudy/p/12190270.html

Copyright © 2011-2022 走看看