机器学习中的数学系列-信息论

zoukankan html css js c++ java

机器学习中的数学系列-信息论

1,信息

( i(x)=-log(p(x)) )

事件x不确定性的度量，不确定性越大，信息量越大。

从信息编码角度，这是编码这一信息所需要的最小比特数(log以2为底，以e为底的叫做奈特)。

2,熵

( H(X) = sum_x{-p(x)log(p(x))} )

随机变量X不确定的度量，信息的期望，不确定性越大，熵越大。

从信息编码角度讲，熵是对信息进行编码所需要的平均比特长度的最低值。

3，联合熵

( H(X,Y) = sum_{x,y}{-p(x,y)logp(x,y)})

4，条件熵

( H(X|Y) = H(X,Y) - H(Y) )

( = -sum_{x,y}p(x,y)logp(x,y)+sum_yp(y)logp(y) )

( = -sum_{x,y}p(x,y)logp(x,y)+sum_ysum_xp(x,y)logp(y) ) #边缘概率

( = -sum_{x,y}p(x,y)logfrac{p(x,y)}{p(y)} )

( = -sum_{x,y}{p(x,y)logp(x|y)})

熵，联合熵，条件熵的关系

5，互信息

描述事件x发生后，对事件y不确定性的消除

i(y,x) = i(y)-i(y|x) = log(p(y|x)/p(y)) = log(后验概率/先验概率)

对称性:i(y,x)=i(x,y)

6，平均互信息

( I(X;Y)= sum_{x,y}{p(x,y)i(x,y)}= sum_{x,y}{p(x,y)logfrac{p(y|x)}{p(y)}}= sum_{x,y}{p(x,y)logfrac{p(x,y)}{p(x)p(y)}} )

= H(X)-H(X|Y) ----信息增益

= H(Y)-H(Y|X)

=H(X)+H(Y)-H(X,Y)

=H(X,Y)-H(X|Y)-H(Y|X)

=D(p(x,y)||p(x)p(y))

在有些文章里，会把平均互信息叫做互信息。

熵、联合熵、交叉熵、互信息的关系

V(X,Y)，variation of information is the information which isn’t shared between the variables.

V(X,Y)=H(X,Y)−I(X,Y)

7，交叉熵

衡量两个分布的差异性

(H(p|q)=-sum_x{p(x)logq(x)})

可以认为p为真实分布，q为近似分布。

8，相对熵(KL散度)

Kullback-Leible散度,也是用于衡量两个分布的差异性

( KL(p||q) = sum_x{p(x)logfrac{p(x)}{q(x)}} )

很容易推导得到KL(p||q)=H(p|q)-H(p)

H(p)用来表示编码的期望长度，H(p|q)表示用近似分布编码的期望长度。我们将由q得到的平均编码长度比由p得到的平均编码长度多出的bit数称为“相对熵”，也就是KL散度。

比如TD-IDF算法就可以理解为相对熵的应用：词频在整个语料库的分布与词频在具体文档中分布之间的差异性。

交叉熵和KL的关系

总结：

参考1：http://colah.github.io/posts/2015-09-Visual-Information/

参考2：https://www.zhihu.com/question/41252833

查看全文

相关阅读:
怎么洗掉衣服上的水粉颜料、丙烯颜料、水彩颜料、油画颜料
 HDU 2844 Coins(多重背包)
oracle知识点
 java实现第六届蓝桥杯奇怪的数列
 java实现第六届蓝桥杯奇怪的数列
 java实现第六届蓝桥杯奇怪的数列
 java实现第六届蓝桥杯奇怪的数列
 java实现第六届蓝桥杯空心菱形
 java实现第六届蓝桥杯空心菱形
 java实现第六届蓝桥杯空心菱形

原文地址：https://www.cnblogs.com/naniJser/p/5701142.html