zoukankan      html  css  js  c++  java
  • 概率图模型课堂笔记:1.3 马尔科夫网络

    第三节 CRF

    CRF主要解决输入变量$X_i$之间的互相依赖问题。大多数情况下,$X_i$是有互相影响的,但是我们在建模的时候,很难把它们之间的关系用有向图或者无向图描述清楚。如果强行假设它们之间互相独立,训练出来的模型往往会有问题,类似朴素贝叶斯(具体例子待研究)。

    所幸大部分情况下,我们并不在意输入输入变量之间的关系,我们在乎的是$oldsymbol{X}$作为一个整体和$Y$的关系。所以我们用$P_phi(Y|oldsymbol{X})$来描述一个CRF(Condictional Random Field)。

    常见的CRF之一就是Logistic Model:$phi_i(X_i,Y)=exp(w_imathbf{1}{X_i=1,Y=1})$

    每个$X_i=1,Y=1$贡献各自的的$e^{w_i}$

    我们可以注意到,这里并不是一个整体的$phi(Y,X_1,X_2,cdots,X_n)$。马尔科夫网可以用分开的factor来描述一个非独立的影响关系。这点BN做不到。

    $P(X,Y=1)=exp(sum_i(w_iX_i))$

    $P(X,Y=0)=1$

    $P(Y=1|X)=frac{P(X,Y=1)}{P(X,Y=0)+P(X,Y=1)}=frac{exp(sum_i(w_iX_i))}{1+exp(sum_i(w_iX_i))}$

    第六节 Log线性模型

    6.1 一般描述

    定义$scope{phi}$为$phi$中涉及的变量,例如$scope{phi(A,B)}={A,B}$

    考虑一个马尔科夫的因子乘积的形式:

    $ ilde{P}=prod_{i}phi_i(D_i)$

    我们放宽限制,允许不同的i拥有相同的$D_i$ (scope)。为方便,可以看成是多个sub factor的点乘。

    取$phi_i=exp(-w_jf_j(D_j))$,有

    $ ilde{P}=prod_{i}phi_i(D_i)=exp(-sum_jw_jf_j(D_j))$

    $f$我们称之为feature。下面几个模型都是用不同的feature集来描述的:

    6.2 Table Model

    用这个形式可以用来描述最常见的table factors,例如,对$phi(X_1,X_2)$来说,把它拆成四个sub factor的点积:

    $phi(X_1,X_2)=left[egin{array}{ccc}a_{00}&a_{01}\a_{10}&a_{11}end{array} ight]=left[egin{array}{ccc}a_{00}&1\1&1end{array} ight]cdotleft[egin{array}{ccc}1&a_{01}\1&1end{array} ight]cdotleft[egin{array}{ccc}1&1\a_{10}&1end{array} ight]cdotleft[egin{array}{ccc}1&1\1&a_{10}end{array} ight]$

    令$f_{12}^{00}=oldsymbol{1}{X_1=0,X_2=0}=left[egin{array}{ccc}1&0\0&0end{array} ight]$

    再令$phi_{00}(X_1,X_2)=exp(-w_{00}f_{12}^{00}(X_1,X_2))$,其中$w_{00}=-log a_{00}$,

    则有$phi_{00}(X_1,X_2)=exp(-(-log a_{00})f_{12}^{00}(X_1,X_2))$,刚好就是上面分拆式的第一个矩阵。

    对于后面三个矩阵,也可以用相类似的方式来表示。

    6.3 Ising Model

    电子方向问题,$x_iin{-1,+1}$。

    取$f_{i,j}(Xi,Xj)=X_iX_j, f_i(X_i,X_j)=X_i$。它们都是特征函数。组成一个Log Linear模型后的表达式为:

    $ ilde{P}(oldsymbol{X})=exp(-frac{1}{T}E(oldsymbol{X}))=exp(frac{1}{T}sum_{i<j}w_{i,j}x_ix_j+sum_iu_ix_i)=sqrt[T]{exp(sum_{i<j}w_{i,j}x_ix_j+sum_iu_ix_i))}$

    也可以拆成一系列$phi$的乘积。一部分是$f_{i,j}$,一部分$f_i$。这里省略。

    我们看出,当对给定的$x_1,...,x_n$, 如果$x_ix_j=-1$的对越多,那么函数值越小,也就是“概率”越小。

    但是,随着T越大,那么$ ilde{P}$的各个值越平均,小的不再那么小,大的也不再那么大。那么对相反电子排布的容忍度也就越高。

    6.4 Metric MRFs

    定义$f_{ij}(X_i,X_j)=mu(X_i,X_j)=dist(X_i,X_j)$

    我们有$ ilde{P}(X_1,X_2,...,X_n)=exp(sum_{i<j}w_{i,j}x_ix_j), w_{ij}>0$

    对于整个系统来说,距离和越大,$ ilde{P}$值越小,概率越小。这点和6.3 Ising Model相反。注意它们的系数,6.3中的两个负号相互抵消了。

    距离函数$mu$有很多不同的模型,比如step模型,绝对差值模型,限制绝对差值模型,等等。

    第七节 权重共享

    很多情况下,不同Feature的系数(权重)是可以共享的,对6.3 Ising Model来说,每个边对应的相邻点对都有一个feature$f_{ij}$, 它的scope就是${X_i,X_j}$。可以发现,对不同临边对来说,虽然它们feature不一样,但是却有着相同的关系,可以共享相同的系数。

    进而,我们可以把共享系数的这些feature归为一个feature,只是它们的应用到不同的scope上而已。

  • 相关阅读:
    正则表达式--断言
    ie6兼容性处理
    git log 高级用法
    html-文件上传设置accept类型延时问题
    sublime text3 -- JavaScript Completions
    Git进行fork后如何与原仓库同步
    Redis的数据结构及应用场景
    PHP手册-函数参考-日期与时间相关扩展
    什么是缓存
    MySQL的连接方式、事务、性能优化
  • 原文地址:https://www.cnblogs.com/milaohu/p/6246347.html
Copyright © 2011-2022 走看看