信息量_熵_条件熵_相对熵_交叉熵_互信息_信息增益_信息增益比

zoukankan html css js c++ java

信息量_熵_条件熵_相对熵_交叉熵_互信息_信息增益_信息增益比

python机器学习-乳腺癌细胞挖掘（博主亲自录制视频）

https://study.163.com/course/courseMain.htm?courseId=1005269003&share=2&shareId=400000000398149&utm_source=cp-400000000398149&utm_medium=share&utm_campaign=commission&_trace_c_p_k2_=9aac1f5966a142039175c5fc7c7de13e

转载：https://blog.csdn.net/xg123321123/article/details/52864830

熵与信息增益

在决策树算法中，决定特征优先级时，需要用到熵的概念，先挖个坑

1 信息量

信息量是用来衡量一个事件的不确定性的；一个事件发生的概率越大，不确定性越小，则它所携带的信息量就越小。

假设X是一个离散型随机变量，其取值集合为 $X$
$I (x 0) = - l o g (p (x 0))$ 当 $p (x_{0}) = 1$
举个例子，小明考试经常不及格，而小王则经常得满分，所以我们可以做如下假设：
事件A：小明考试及格
概率为
$P (x A) = 0.1$ $p (x_{0}) = 1$ $I (x A) = - l o g (0.1) = 3.3219$ $p (x_{0}) = 1$ $P (x B) = 0.999$ $p (x_{0}) = 1$ $I (x B) = - l o g (0.999) = 0.0014$ $p (x_{0}) = 1$
这跟《黑天鹅》一书中强调的“黑天鹅事件往往有重大影响”有异曲同工之妙。

2 熵

熵是用来衡量一个系统的混乱程度的，代表一个系统中信息量的总和；信息量总和越大，表明这个系统不确定性就越大。

假设小明的考试结果是一个0-1分布 $X_{A}$

在上面章节，我们可以分别得到小明和小王考试及格对应的信息量。
而如果我们想要进一步度量小明考试结果的不确定度，就要借助于熵的概念。

信息量用来衡量一个事件的不确定度，熵则用来衡量一个系统（也就是所有事件）的不确定度。

那如何度量系统中所有事件的不确定度？期望。

我们对所有可能事件所带来的信息量求期望，其结果就能衡量小明考试的不确定度：
$H A (x) = - [p (x A) l o g (p (x A)) + (1 - p (x A)) l o g (1 - p (x$
与之对应地，小王的熵：
$H B (x) = - [p (x B) l o g (p (x B)) + (1 - p (x B)) l o g (1 - p (x$ $p (x_{0}) = 1$
再假设一个成绩相对普通的学生小东，他及格的概率是 $P (x_{C}) = 0.5$
$H C (x) = - [p (x C) l o g (p (x C)) + (1 - p (x C)) l o g (1 - p (x$
小东考试结果的不确定度比前边两位同学要高很多，在成绩公布之前，很难准确猜测出他的考试结果。

从上面可以看出，熵是信息量的期望值，它是一个随机变量的确定性的度量。
熵越大，变量的取值越不确定；反之，熵越小，变量取值就越确定。

对于一个随机变量X，它所有可能取值的信息量的期望 $E [I (x)]$
$H (X) = E p log 1 p ( x ) = - \sum x \in X p ( x ) log p ( x )$ $p (x_{0}) = 1$ $H (X) = - \int x \in X p (x) log p (x) d x$ $p (x_{0}) = 1$
假如X为0-1分布，当两种取值的可能性相等时（p=0.5），不确定度最大（此时没有任何先验知识）；当p=0或1时，熵为0，即此时X完全确定。
熵与概率p的关系如下图：

注：熵的单位随着公式中log运算的底数而变化，当底数为2时，单位为“比特”(bit)，底数为e时，单位为“奈特”。

3 条件熵

在随机变量X发生的前提下，随机变量Y发生所新带来的熵定义为Y的条件熵，用 $H (Y | X)$

如果这样说显得空洞，那么可以进行转换:
$H (Y | X) = H (X, Y) - H (X)$ $p (x_{0}) = 1$

4 相对熵

相对熵(relative entropy)又称为KL散度(Kullback-Leibler divergence)，KL距离，是两个随机分布间距离的度量。
记为 $D_{K L} (p | | q)$
$D K L (p | | q) = E p [l o g p ( x ) q ( x ) ] = \sum x \in χ$ $p (x_{0}) = 1$ $= \sum x \in χ [p (x) l o g p (x) - p (x) l o g q (x)]$ $p (x_{0}) = 1$ $= \sum x \in χ p (x) l o g p (x) - \sum x \in χ p (x) l o g q (x)$ $p (x_{0}) = 1$ $= - H (p) - \sum x \in χ p (x) l o g q (x)$ $p (x_{0}) = 1$ $= - H (p) + E p [- l o g q (x)]$ $p (x_{0}) = 1$ $= H p (q) - H (p)$
并且为了保证连续性，做如下约定：
$0 l o g \frac{0}{0} = 0 ， 0 l o g \frac{0}{q} = 0 ， p l o g \frac{p}{0} = \infty$

5 交叉熵

交叉熵容易跟相对熵搞混，二者有所区别。
假设有两个分布p，q，它们在给定样本集上的交叉熵定义如下：
$C E H (p, q) = E p [- l o g q] = - \sum x \in χ p (x) l o g q (x) = H (p) +$ $p (x_{0}) = 1$
在logistic regression中，
p:真实样本分布，服从参数为p的0-1分布，即X∼B(1,p)
q:待估计的模型，服从参数为q的0-1分布，即X∼B(1,q)
两者的交叉熵为：
$C E H (p, q) = - \sum x \in χ p (x) l o g q (x)$ $p (x_{0}) = 1$ $= - [P p (x = 1) l o g P q (x = 1) + P p (x = 0) l o g P q (x = 0)]$ $p (x_{0}) = 1$ $= - [p l o g q + (1 - p) l o g (1 - q)]$ $p (x_{0}) = 1$ $= - [y l o g h θ (x) + (1 - y) l o g (1 - h θ (x))]$ $p (x_{0}) = 1$ $- 1 m \sum i m = 1 m [ y ( i ) l o g h θ ( x ( i ) ) + ( 1 - y ( i$ $p (x_{0}) = 1$
6 信息增益

在决策树ID3算法中，使用信息增益来选择最佳的特征作为决策点。

信息增益表示得知特征X的信息而使得类Y的信息不确定性减少的程度，即用来衡量特征X区分数据集的能力。
当新增一个属性X时，信息熵 $H (Y)$
$I (Y | X) = H (Y) - H (Y | X)$
7 互信息

两个随机变量X，Y的互信息定义为X，Y的联合分布和各自独立分布乘积的相对熵，用I(X,Y)表示：

而一般来说，熵 $H (Y)$

所以在决策树算法中，信息增益等价于训练数据集中类和特征的互信息。

8

在决策树C4.5算法中，使用信息增益比来选择最佳的特征作为决策点。

特征A对训练数据集D的信息增益比 $g_{R} (D | A)$
$g R (D | A) = I ( D | A ) H A ( D )$
这之中
$H A (D) = - \sum i = 1 n | D i | | D | l o g 2 |$

本篇博客主要参考自：
《信息量、熵、最大熵、联合熵、条件熵、相对熵、互信息》
《交叉熵（Cross-Entropy）》
《最大熵模型中的数学推导》
《我们为什么需要信息增益比，而不是信息增益？》

python信用评分卡建模（附代码，博主录制）

https://study.163.com/course/introduction.htm?courseId=1005214003&utm_campaign=commission&utm_source=cp-400000000398149&utm_medium=share

欢迎关注博主主页，学习python视频资源

查看全文

相关阅读:
java时间戳与Date相互转换、日期格式化、给日期加上指定时长、判断两时间点是否为同一天
 notepad++去掉红色波浪线
 发生异常Address already in use: bind
SecureCRT背景颜色
 linux查看实时日志命令
 idel上传代码到github时遇到的Push rejected: Push to origin/master was rejected
git解决error: The following untracked working tree files would be overwritten by checkout
使用SecureCRT工具上传、下载文件的两种方法
 Windows下Zookeeper启动zkServer.cmd闪退问题的解决方案
 Maven的Snapshot版本与Release版本