zoukankan      html  css  js  c++  java
  • 信息论

    熵和自信息

    1. 自信息I(x)是变量X=x时的信息量或编码长度

    [I(x) =  - log (p(x))]

    2. 熵是用来衡量一个随机事件的不确定性

    3. 熵是一个随机变量的平均编码长度,即自信息的数学期望(均值)。熵越高,则随机变量的信息越多;熵越低,则信息越少。

    互信息

    1. 互信息是衡量一个变量时,另一个变量不确定性的减少程度。两个离散随机变量X和Y的互信息含义为

    [I(X;Y) = sumlimits_{x in chi } {} sumlimits_{y in Y} {p(x,y)} log frac{{p(x,y)}}{{p(x)p(y)}}]

    2. 互信息的其中一个性质为

    [egin{array}{l}
    I(X;Y) = H(X) - H(X|Y)\
    I(X;Y) = H(Y) - H(Y|X)
    end{array}]

    3. 如果X和Y相互独立,即X不对Y提供任何信息,反之亦然,因此他们的互信息为0

     

    交叉熵

    对应分布为p(x)的随机变量,熵H(p)表示其最优编码长度。交叉熵(Cross Entropy)是按照概率分布q 的最优编码对真实分布为p 的信息进行编码的长度,定义为

    [egin{array}{l}
    H(p,q) = {E_p}[ - log q(x)]\
    H(p,q) = - sumlimits_x {p(x)} log q(x)
    end{array}]

    在给定p的情况下,如果q和p越接近,交叉熵越小;如果q和p越远,交叉熵就越大

    KL散度

    也叫相对熵,是用概率分布q来近似p时所造成的信息损失量。KL散度是按照概率分布q的最优编码对真实分布为p的信息进行编码,其平均编码长度H(p, q)p的最优平均编码长度H(p) 之间的差异

    [egin{array}{l}
    {D_{KL}}(p||q) = H(p,q) - H(p)\
    {D_{KL}}(p||q) = sumlimits_x {p(x)log frac{{p(x)}}{{q(x)}}}
    end{array}]

    KL散度可以是衡量两个概率分布之间的距离。KL散度总是非负的,DKL(p∥q) ≥0。只有当p = q 时,DKL(p∥q) = 0。如果两个分布越接近,KL散度越小;如果两个分布越远,KL散度就越大。但KL散度并不是一个真正的度量或距离,一是KL散度不满足距离的对称性,二是KL散度不满足距离的三角不等式性质。

    JS散度

    一种对称的衡量两个分布相似度的度量方式,定义为

    [egin{array}{l}
    {D_{JS}}(p||q) = frac{1}{2}{D_{KL}}(p||m) + frac{1}{2}{D_{KL}}(q||m)\
    m = frac{1}{2}(p + q)
    end{array}]

    JS 散度是KL散度一种改进。但两种散度有存在一个问题,即如果两个分布p, q 个分布没有重叠或者重叠非常少时,KL散度和JS 散度都很难衡量两个分布的距离。

    Wasserstein 距离

    用于衡量两个分布之间的距离。对于两个分布q1, q2,pth-Wasserstein 距离定义为

    [{W_p}({q_1},{q_2}) = {(mathop {inf }limits_{gamma (x,y) in Gamma ({q_1},{q_2})} {E_{(x,y)~gamma (x,y)}}[d{(x,y)^p}])^{frac{1}{p}}}]

    其中Γ(q1, q2) 是边际分布为q1 和q2 的所有可能的联合分布集合,d(x, y) 为x 和y 的距离,比如ℓp 距离等。

    如果将两个分布看作是两个土堆,联合分布γ(x, y) 看作是从土堆q1 的位置x 到土堆q2 的位置y 的搬运土的数量,并有

    [egin{array}{l}
    sumlimits_x {gamma (x,y) = {q_2}(y)} \
    sumlimits_y {gamma (x,y) = {q_1}(x)}
    end{array}]

    q1 和q2 为γ(x, y) 的两个边际分布。

    E(x,y)∼γ(x,y)[d(x, y)p] 可以理解为在联合分布γ(x, y) 下把形状为q1 的土堆搬运到形状为q2 的土堆所需的工作量

    [{E_{(x,y)~gamma (x,y)}}[d{(x,y)^p} = sumlimits_{(x,y)} {gamma (x,y)d{{(x,y)}^p}} ]

    其中从土堆q1 中的点x 到土堆q2 中的点y 的移动土的数量和距离分别为γ(x, y)和d(x, y)p。因此,Wasserstein 距离可以理解为搬运土堆的最小工作量,也称为推土机距离

    Wasserstein 距离相比KL散度和JS 散度的优势在于:即使两个分布没有重叠或者重叠非常少,Wasserstein 距离仍然能反映两个分布的远近。

  • 相关阅读:
    ObjectiveC语法快速参考
    IIS网站全部显示无权访问需要登录
    如何让自己的网站尽快收录绍兴114导航
    asp.net的运行原理
    WPF学习视频资料
    Asp.net MVC3 自定义HtmlHelper控件
    Unity3D中C#和JS的方法互相調用
    对于冒泡算法的思考,大牛可一笑而过~~
    2013年年前瞻望与计划
    使用vs2010编辑Unity脚本,配置方法
  • 原文地址:https://www.cnblogs.com/callyblog/p/11310210.html
Copyright © 2011-2022 走看看