zoukankan html css js c++ java

信息熵（Entropy）究竟是用来衡量什么的？

——与Philip ZHANG商榷

思明

　　Philip ZHANG先生在反驳彭小明的时候，提出一个观点，他说：“ 就语言文

字来说，总体效率不是用民族主义来衡量的，而是用信息熵（Entropy）来衡量

的。”

　　张先生介绍说：

　　计算文字效率的基本公式是：

　　H＝－log2（P）

　　H 为信息熵的值（或叫信息量），单位是比特（bit）。

在这基点上，他依据资料引证：

　　英文的平均信息熵是 4.03 比特，

　　法文的平均信息熵是3.98，

　　西班牙文的是 4.01，

　　德文的是 4.10，

　　俄文的是 4.8，

　　而中文的平均信息熵是 9.65比特

　　于是，“汉字是落后的，不管是简体还是繁体”就成了他轻松得到的结论。

　　事实上，要反驳他的结论是一点也不困难的，甚至能够说是很轻松的——仅仅要

知道什么是一种文字的“平均信息熵”。

　　仅仅可惜，张先生把方向正好弄错了180度。

　　公式是有的，叫做平均信息熵也确实。可是根本就不是文字效率的基本公式，

而是在通讯中编码的码长的效率！提出这公式，申农是用以研究信息编码的。说得

通俗一点，就是要（在可能有噪音的情况下）把已方（信息源）的信息进行标准化

编码（比方，0－1化），然后传送出去，对方接收，解码，恢复成原来的信息。

　　研究的重点，是多长的一组码为合理——假设太短，无法正确还原，假设太

长，就有冗余。

　　在接下去谈曾经，先要强调，是码长的节约或冗余，不是信息本身的节约或冗

余。例如说，假设拿尽用分币买东西，分币已经多得非常，钱却不一定够。这是两回

事。

　　以英语为例，信息源集合大体是26个字母加上一个空格，这是基本集合。要传

送给不论什么对方（比方用莫尔斯电码），码长要几位“0－1”？满打满算，是五位。

　　要是用“平均信息的观点”来研究处理，会发现：有些字母出现得常常，另外

一些比較不经经常使用，所以信息源是有点特征的，这特征就是信息含量不“饱满”。

通俗地说，假设英文字母中仅仅有一部分经常使用，其它罕用，通过巧妙编码能够把码长

缩为4个多一点点。实际上因为眼下通讯瓶颈已经不像半世纪曾经那样重要，电脑

里的正规编码方案全是冗余方案，并无人真正採用紧缩方案，连考虑的价值也没

有。

　　那么如何计算信息量又是怎么回事呢？

　　以电脑的0－1编码方法为例，假设“0”和“1”以均等机会出现，P就是1/2，

对数就是－1，H就是1。因此它的信息含量就是1个比特（bit）。假设出现得不均

匀（比方说基本是“0”出现，偶尔才有“1”出现），那么“0”的P值接近于1，

其对数自然接近于0；另外的“1”的P值接近于0，对数就接近于负无穷，经过加权

平均，（这样的无穷乘以0的极限，自然能够用（数学上的计算）方法求出）信息比1

个比特（bit）更小。

　　因此，不论什么一组码的元素（比方英文字母），在最有效使用的情况下，能够传

达的信息量最大，等于log2（N）（以源代码的元数为N，比如英文的满荷值为4.75；

俄文为5.08；依照中文的字数，小字库为12多，大字库为14多。等等）。

　　大家知道，英文字母平均信息熵是 4.03 比特，说明它有一点“浪费”（由于

2的4次方是16，这仅仅相当于均匀使用了16个字母）。假设英文的“平均信息量”少

到1或者2，就相当于仅仅有两个或者四个字母了。所以张先生对英文的表扬可真的一

点意义没有。

　　那么，如果我们的祖先造的汉字仅仅用了非常少的部分，平均信息熵就会非常小，比

如，要是仅仅用“是，不”二字而其它文字统统不用，那就仅仅要有一个比特就够。

　　张先生以为“平均信息熵”越少越好，是犯了一个“方向的错误”。可见，张

先生在信息科学上的知识是多么脆弱，多么不精确！用这种东西作为“证据”，

要我们信改革有几千年历史的汉字非常是必要，太不负责！

　　张先生又引用说：

　　本世纪四十年代，申农和霍夫曼等科学家提出了信息熵理论和方法，基本定理

是：在一种非扩展的无记忆信息源中，字符编码的长度不能小于信息源的熵。这个

定理适合全部的语言文字，是计算机和网络通讯的科学技术基础和project设计的基本

根据。

　　这句话全对。不知道张先生是哪里引用来的，可是张先生显然不理解其含义。

这话说明的是什么？原来，这只是是说，由于英文的平均信息熵是4多一点，因此

作为通讯用的英文字符集的有用长度也至少要有那么长。德文和俄文的字母比英文

多几个，它们多含一点信息量是正常的。德国人之不修改字母，绝对不是由于信息

量多还是少的缘故。多更不是坏事。事实上，大家知道在电脑里英文字母、德文、俄

文统统用的是8位（8比特）。8位的满存储是256个字符，大家相聚在一起，谁多用

谁少用，不会去斤斤计较。德国人也读英文，俄国人也用德文，更没有人用它来比

较“语言的优劣”。

　　中文，一開始是用了双字节的（即16比特），满存储是6万多，如今中文用了

约1/3（当然其它文种还要用）。这和中文的效率并无直接的联系。假设，用一个

汉字表达的“意思”的量，假设（平均起来）和一个英文字母一样多，那汉字就真

太落后了！

　　真是这样？我们的汉字真会这么落后？比方“我”是两个字节，“I”是一

个字节。这就是中文不如英文的“唯一样例”了。可是“人、是、起、而、日、

月、用、无、……”这几百成千个单字（严格说全部汉字）英文里都仅仅要一个字母

吗？不是。英文的字母仅仅有26个，充其量仅仅能有这26个比中文好——可惜英文的单

字母词仅仅有一个“I”，一个“a”（意义太简单，还无独立使用权）其它的（比如

of，on，to，we，me，go，……）能和汉字打平就好。请注意，在用26个字母构成

的676种二字母组合中，有意义的少之又少（比方aa，ab，ac，ad，ae，……就几

乎全无意义）。所以，假设有人用汉字对照英文（在相同意义的词汇）的byte数，

十有八九汉字要“节约”得多！

　　自然英文通过制造缩写的办法攻克了不少问题——UN，USA，WTO，所以说汉字

绝对优越也要慎重。

　　最最可笑的是，假设要依照“用拼音”的建议把中文翻译成拼音（即使那声调

的符号省去、词汇连写等方法全用上），那byte数要大大添加了，尽管那“平均信

息熵”或许还减少了（总不超过5）。打个例如，改用拼音的张先生能够告诉别

人，我的平均信息量已经减少到4多一点（就是说‘我如今最终仅仅要用一分的硬币

买东西了，尽管我每年的开支因此添加了三倍，我才不在乎！’）。由于拼音里除

了a、e以外，是不许单独字母成字的，就是a、e，还留空格。所以假设说要用拼音

作文字，在浪费字节上是天下第一的“文字”——看不易懂还暂且不说！在这个意

义上说，“从一九八九年開始，《人民日报》等报刊就用相同的手法抨击中文改

革，连续发表文章鼓吹‘汉字优越’，说中文改革是盲目西化和导致中国文化传统

消亡，等等。”真是做得对极了，好极了！

　　张先生又说：

　　中文的平均信息熵是 9.65比特，在计算机信息作业的时候，汉字的每一个字符

需》要两个字节的空间，因而中文的信息处理和传递的总体效率比英文等拼音文字

的效率要低得多。

　　这是全然违背基本常识的。套用他的汽车比喻，这好像是说：“独轮车无疑比

12轮大卡车节省10倍，走的路仅仅有1/10”；又好比说“用一元钱的钞票买东西比用

五角钱的贵一倍”；等等……

　　虽然我们已经说明汉字实际上比英文和其它拼音文字仅仅简不冗（从占用字节数

的角度看），语言学上的问题仍然相当复杂，谁简谁繁似乎也还难以成为一种语言

优劣的绝对定论。比方世界语、数学语言、电脑的汇编，显然都极简单并且规范，

但是要取代自然的生活语言明明是不行的。这个问题我们暂且不讨论。

　　张先生的文章还存在很多其他问题，比方他说：

　　无论谁在使用和在哪里使用，也无论使用者的民族感情怎样，这些文字的信息

熵还是它们的信息熵。

　　他根本就不知道，除了整个“民族”的平均信息熵以外，人人的语言都有其独

特的信息熵。比方“不高兴”先生，碰到事情一般都是不高兴；总说“喳”的太

监，他们的语言中的平均信息熵都非常小。相同的字符集而熵小，这绝对不是什么先

进，是贫乏。

　　附带说一句，张先生犯的这个错误，国内某一派的“著名语言学家”在十多年

前已经犯过，也被人尖刻批评过。他们既无法理解（大概对于数学绝缘）也不吱

声，以至于十年过去后，他们的文改信徒还不断反复这错误。可悲又可叹，若把语

言文字工作交给这等“既不内行又不热心”的人！

[中国研究/zgyj1999/xiamian.htm]

查看全文

相关阅读:
【jekins】jenkins构建触发
 【Autoit】Autoit 使用
 docker 网络和/etc/docker/daemon.json文件详情
 kubernetes(k8s)集群安全机制RBAC
linux文件目录颜色及特殊权限对应的颜色
 Python 爬取各大代理IP网站(元类封装)
K8S 容器之间通讯方式
 kubernetes Pod的升级与回滚
 lvs+keepalived+mariadb集群
 kubernetes（k8s）Pod污点与容忍

原文地址：https://www.cnblogs.com/gcczhongduan/p/4063617.html