在信息论中,熵表示的是平均不确定性的量度。信息论的创始人香农在其著作《通信的数学理论》中提出了建立在概率统计模型上的信息度量。他把信息定义为“用来消除不确定性的东西”。
熵在信息论中的定义如下:
如果有一个系统
内存在多个事件
, 每个事件的机率分布
,则每个事件本身提供的信息量为
称为自信息。




(若对数函数以2为底,单位是比特(bit);若对数函数以e为底,单位为奈特(nat);若对数函数以10为底,单位为哈特(hartly)。)
如英语有26个字母,假如每个字母在文章中出现次数平均的话,每个字母的信息量为

而汉字常用的有2500个,假如每个汉字在文章中出现次数平均的话,每个汉字的信息量为

这些事件的自信息的均值:

称为熵。
则,所有字母的平均信息量为


这个平均消息量就是消息熵。因为和热力学中描述热力学熵的玻耳兹曼公式形式一样,所以也称为“熵”。
如果两个系统具有同样大的消息量,如一篇用不同文字写的同一文章,由于是所有元素消息量的加和,那么中文文章应用的汉字就比英文文章使用的字母要少。所以汉字印刷的文章要比其他应用总体数量少的字母印刷的文章要短。即使一个汉字占用两个字母的空间,汉字印刷的文章也要比英文字母印刷的用纸少。
实际上每个字母和每个汉字在文章中出现的次数并不平均,因此实际数值并不如同上述,但上述计算是一个总体概念。