信息论基础

zoukankan html css js c++ java

信息论基础
1. 信息熵

熵度量了事物的不确定性，越不确定的事物，它的熵就越大。在没有外部环境的作用下，事物总是向着熵增大的方向发展，所以熵越大，可能性也越大。

[H(X)=-sum_{i=1}^np_{(i)}logp_{(i)} ]
2. 条件熵

X确定时，Y的不确定性度量。
在X发生是前提下，Y发生新带来的熵。

[H(Y|X)=H(X,Y)-H(X)=-sum_{x,y}p(x,y)logp(y|x) ]
3. 联合熵

（X,Y）在一起时的不确定性度量

[H(X,Y)=-sum_{x,y}p(x,y)logp(x,y) ]
4. 互信息（信息增益）

表示两个变量X与Y是否有关系，以及关系的强弱。

[I(X,Y)=∫_X∫_YP(X,Y)logfrac{P(X,Y)}{P(X)P(Y)} ]
[I(X,Y)=H(Y)-H(Y|X) ]
[I(X,Y)=H(Y)+H(X)-H(X,Y) ]
可以看出，I(X,Y)可以解释为由X引入而使Y的不确定度减小的量，这个减小的量为H(Y|X)。所以，如果X,Y关系越密切，I(X,Y)就越大，X,Y完全不相关，I(X,Y)为0，所以互信息越大，代表这个特征的分类效果越好。

5. 相对熵

p与q不相似的度量

[KL(p||q)=-sum_{x}p(x)logfrac{q(x)}{p(x)} ]
6. 交叉熵

衡量p与q的相似性，常常用在深度学习中的分类的损失函数（深度学习中回归任务的损失主要是最小二乘法）。p是真实概率，q是预测概率

[H(p,q)=-sum_{x}p(x)logq(x) ]
[KL(p||q)=H(p,q)-H(p) ]
7. 小结
1. 信息熵是衡量随机变量分布的混乱程度，是随机分布各事件发生的信息量的期望值，随机变量的取值个数越多，状态数也就越多，信息熵就越大，混乱程度就越大。当随机分布为均匀分布时，熵最大；信息熵推广到多维领域，则可得到联合信息熵；条件熵表示的是在 X 给定条件下，Y 的条件概率分布的熵对 X的期望。
2. 相对熵可以用来衡量两个概率分布之间的差异。
3. 交叉熵可以来衡量在给定的真实分布下，使用非真实分布所指定的策略消除系统的不确定性所需要付出的努力的大小。
查看全文

相关阅读:
SpringBoot 集成Hystrix熔断
 windows10 个性化启动Python，cmd窗口显示启动名称
 Web前端 table去掉td边框大小及颜色
 Windows 10 运行.bat文件启动Jar项目
 SpringBoot Feign接口方式调用服务
 SpringBoot Ribbon负载均衡策略配置
 SpringBoot Eureka集群配置
 SpringBoot集成Eureka
面试题 16.01. 交换数字
 1476. 子矩形查询

原文地址：https://www.cnblogs.com/huangyc/p/9734719.html

1. 信息熵

2. 条件熵

3. 联合熵

4. 互信息（信息增益）

5. 相对熵

6. 交叉熵

7. 小结