zoukankan      html  css  js  c++  java
  • Maximum Entropy Model

    熵是对随机变量不确定性的度量,是对所有可能发生的事件产生的信息量的期望,没有外部能量输入的情况下,封闭系统趋向熵增。

    信息熵指离散随机事件的出现概率:(X={x_1,x_2,...,x_n})(P(X=x_i)=p_i)

    [H(X)=-sum_{i=1}^{n}p(x_i)log p(x_i) ]

    Joint Entropy

    [H(X,Y)=-sum_{i=1}^{n}sum_{j=1}^{m}p(i,j)log p(i,j) ]

    [H(X|y_j)=-sum_{i=1}^{n}p(x_i|y_j)log p(x_i|y_j) ]

    按照(Y)的各种情况进行加权平均,得条件熵(H(X|Y))

    [H(X|Y)=-sum_{i=1}^{n}sum_{j=1}^{m}p(y_j)p(x_i|y_j)log p(x_i|y_j)=-sum_{i=1}^{n}sum_{j=1}^{m}p(x_i,y_j)log p(x_i|y_j) ]

    易证(H(X|Y)=H(X,Y)-H(Y))

    交叉熵,(P(X))(Q(X))(X)的两个概率分布

    [D_{KL}(P || Q)=sum_xP(x)logfrac{P(x)}{Q(x)} ]

    互信息

    [I(X,Y)=sum_xsum_yp(x,y)logfrac{p(x,y)}{p(x)p(y)} ]

    互信息就是联合分布(P(X,Y))和独立分布乘积(P(X)P(Y))的交叉熵。
    易证(I(X,Y)=H(X)+H(Y)-H(X,Y))

    直观上看:在已知部分知识的前提下,对于未知分布最合理的推断就是符合已知且最不确定的推断,整个系统趋向于无序,熵最大。
    在一定约束条件下,使得(H(X|Y))最大。

    [p^*={underset {pin P}{operatorname {arg\,max} }}\,-sum_{i=1}^{n}sum_{j=1}^{m}ar p(y_j)p(x_i|y_j)log p(x_i|y_j) ]

    约束条件:

    [sum_xp(x|y)=1 \ ... ]

    又可以通过拉格朗日乘数法变为对偶问题求解。

    由于无法求得解析解,只能用迭代法求数值解:

    [p^*(x|y)=cfrac{1}{Z_lambda(y)}e^{sum_ilambda_if_i(x,y)} \ Z_lambda(y)=sum_xe^{sum_ilambda_if_i(x,y)} ]

  • 相关阅读:
    Java学习-sgg-day09-20200425
    Java学习-sgg-day08-20200423
    C#集合
    C#类型转换
    HTML+CSS注意知识点
    easyUI学习(1)
    sort方法根据数组中对象的某一个属性值进行排序
    Vue Router 知识点梳理(二)
    Vue Router 知识点梳理
    浏览器加载、解析、渲染的过程
  • 原文地址:https://www.cnblogs.com/EIMadrigal/p/14310153.html
Copyright © 2011-2022 走看看