条件熵定义的最原始形式
[H(Y|X)=sum_{xin X} p(x)H(Y|X=x)
]
或者写成这样
[H(Y|X)=sum_{i=1}^{n} p(x_i)H(Y|X=x_i)
]
这里 (n) 表示随机变量 (X) 取值的个数,不管是条件熵还是熵,都是计算 (Y) (可以理解为因变量)的熵,(H(Y|X)) 可以理解为在已知一些信息的情况下,因变量 (Y) 的不纯度,即在
(X) 的划分下,(Y) 被分割越来越“纯”的程度,即信息的加入可以降低熵。
这里又假设随机变量 (Y) 有 (m) 个取值,将 (H(Y|X=x_i)) 用定义式
[H(Y|X=x_i) = - sum_{j=1}^{m} p(y_j|X=x_i)log p(y_j|X=x_i)$$ 代入上式,得
]
egin{equation}egin{split}
H(Y|X)&=sum_{i=1}^{n} p(x_i)H(Y|X=x_i)
&=sum_{i=1}^{n} p(x_i)left(- sum_{j=1}^{m} p(y_j|X=x_i) log p(y_j|X=x_i)
ight)
&=-sum_{i=1}^{n}p(x_i) sum_{j=1}^{m} p(y_j|x_i) log p(y_j|x_i)
end{split}end{equation}
[
即
]
H(Y|X)=sum_{i=1}^{n} p(x_i)H(Y|X=x_i) =-sum_{i=1}^{n}p(x_i) sum_{j=1}^{m} p(y_j|x_i) log p(y_j|x_i)
[
+ 条件熵表示在已知随机变量 $X$ 的条件下,$Y$ 的**条件概率分布**的熵**对随机变量 $X$**的数学期望。
+ 熵是数学期望(信息量的数学期望),条件熵也是数学期望,是数学期望的数学期望,有点拗口,不妨把定义多看几遍,就清楚了。]