zoukankan      html  css  js  c++  java
  • 信息论小记

    一、首先考虑一个离散的随机变量x;当我们观测到这个随机变量的某一个具体值的时候,我们需要考虑这个值给予了我们多少信息,这个信息的量可以看成是在学习x的值的时候的“惊讶程度”(degree of surprise)。如果我们知道事件A一定会发生,那么我们就不会收到关于该事件的信息;如果一件相当不可能的事情发生了,我们将接收到很多信息。、

      显然,我们对于信息内容的度量将依赖于概率分布p(x),因此我们要找到一个函数h(x),它是p(x)的单调递增函数,表示信息的内容,概率学给出了这个公式:

    负号确保信息一定是非负数,低概率事件x对应于高的信息量。下面给出的是平均信息量的计算公式:

    这个量就是著名的“熵”,对数取2为底数的话熵的单位是bit.条件熵公式如下,即给定x,y的条件熵:

      

      如下图所示,如果概率分布p(x)集中于几个值,那么熵就会比较低,如果分布比较均匀,则熵值会比较高,如果有某一个值使得p(x)=1,则熵值为0.

      

    二、相对熵;

      考虑某个未知的分布p(x),假定我们已经使用一个近似的分布q(x)对它进行了建模。如果我们使用q(x)来建立一个编码体系,用来把x的值传给接收者,那么,由于我们使用了q(x)而不是真实分布p(x),因此在具体化x的值时,我们需要一些附加的信息。我们需要的平均的附加信息量(单位是nat,底数为e)为:

    这被称为分布p(x)和分布q(x)之间的相对熵(relative entropy) 或者Kullback-Leibler散度,值恒为非负数。

    三、互信息;

      相对熵表示两个随机分布之间距离的度量,或者说是两者之间的差异。互信息是随机变量包含另一个随机变量信息量的度量。互信息也是在给定另一个随机变量情况下,原随机变量不确定度的缩减量:

      

    四、相对熵和互信息的关系;

      

    因此我们可以把互信息看成由于知道y值而造成的x的不确定性的减小(反之亦然)。从贝叶斯的观点来看,我们可以把p(x)看成x的先验概率分布,把p(x|y)看成我们观察到新数据y之后的后验概率分布。因此互信息表式一个新的观测y造成的x的不确定性的减小。

      

  • 相关阅读:
    [计算机网络-传输层] 无连接传输:UDP
    [BinaryTree] 最大堆的类实现
    [OS] 生产者-消费者问题(有限缓冲问题)
    [剑指Offer] 64.滑动窗口的最大值
    [剑指Offer] 63.数据流中的中位数
    [剑指Offer] 62.二叉搜索树的第k个结点
    [OS] CPU调度
    [剑指Offer] 60.把二叉树打印成多行
    MySQL数据库实验二:单表查询
    数据库实验:基本表的定义与修改
  • 原文地址:https://www.cnblogs.com/decade-dnbc66/p/5928338.html
Copyright © 2011-2022 走看看