zoukankan      html  css  js  c++  java
  • 数学基础03-信息论基础(信息熵、条件熵、互信息/信息增益、联合熵、相对熵/KL散度、交叉熵)

    机器学习中,信息论中的各种熵在多次出现(最大熵模型、CRF、广义线性模型中以及分类问题中损失中的交叉熵,t-SNE、GAN中使用的KL散度等),这里做一个简单总结。

    1、信息量

    定义

    单个事件的不确定性的大小。

    数学形式

    $logfrac{1}{p(x)}=-logp(x)$

    特点

    不确定性越大,信息量越大。

    2、信息熵

    定义

    信息量的期望

    数学形式

    $H(x)=-sum p(x)logp(x)$

    物理含义

    一种解释是,信息熵表示最短的平均编码长度。

    性质

    不确定性越大,信息熵越大。

    3、联合熵

    定义

    两个事件同时发生的不确定性。

    数学形式

    $H(X,Y)=-sum p(x,y)logp(x,y)$

    4、条件熵

    定义

    已知条件下的,事件的不确定性的大小。

    数学形式

    $H(Y|X) = sum p(x) H(Y|X=x) = -sum p(x) sum p(y|x)logp(y|x)$

    性质

    熵、条件熵、联合熵满足:$H(X,Y)=H(X)+H(Y|X)=H(Y)+H(X|Y)$

    5、互信息/信息增益

    定义

    在没有任何条件时,不确定性最高;在给定一个条件后,不确定性可能减少。互信息就是不确定性减少的度量。

    数学形式

    $I(X,Y)=H(X)-H(X|Y)$

    性质

    $I(X,Y)=H(X)-H(X|Y)=H(Y)-H(Y|X)$

    tips:

    根据以上信息,我们可以得出信息熵、联合熵、条件熵、互信息/信息增益的关系,如下韦恩图:

    6、交叉熵

    定义

    这个定义我也不知道怎么下了!!!

    数学形式

    $H_c(p, q) = - sum p(x)logq(x)$

    物理含义

    可以理解为,使用一种编码,来记录另一个数据分布,需要的平均编码长度。

     

    7、相对熵/KL散度

    数学形式

    $KL(p, q) = sum p(x)logfrac{p(x)}{q(x)} = H(p, q)-H(p)$

    物理含义

    使用另一种编码,来编码自身分布,需要额外增加的编码长度。

    如果发现文中有问题,敬请联系作者批评指正,真诚欢迎您的指教,谢谢!

    微信: legelsr0808

    邮箱: legelsr0808@163.com

  • 相关阅读:
    phpexcel 相关知识
    php 相关的设置
    linux md5sum 常用用法
    mysql 修改group_concat的限制(row 20000 was cut by group_concat())
    mysql设置最大连接数 max_connections
    Mysql 需要修改的一些配置
    mysql设置远程访问,解决不能通过ip登录的问题(MySQL Error Number 2003,Can't connect to MySQL server )
    mysql 用户权限管理的粗略认识
    文字图片在wps中清晰化方法
    Linux 如何释放Hugepage 占用的内存
  • 原文地址:https://www.cnblogs.com/ai1024/p/6158617.html
Copyright © 2011-2022 走看看