概率图模型课堂笔记：1.3 马尔科夫网络

zoukankan html css js c++ java

概率图模型课堂笔记：1.3 马尔科夫网络

第三节 CRF

CRF主要解决输入变量$X_i$之间的互相依赖问题。大多数情况下，$X_i$是有互相影响的，但是我们在建模的时候，很难把它们之间的关系用有向图或者无向图描述清楚。如果强行假设它们之间互相独立，训练出来的模型往往会有问题，类似朴素贝叶斯（具体例子待研究）。

所幸大部分情况下，我们并不在意输入输入变量之间的关系，我们在乎的是$oldsymbol{X}$作为一个整体和$Y$的关系。所以我们用$P_phi(Y|oldsymbol{X})$来描述一个CRF(Condictional Random Field)。

常见的CRF之一就是Logistic Model：$phi_i(X_i,Y)=exp(w_imathbf{1}{X_i=1,Y=1})$

每个$X_i=1,Y=1$贡献各自的的$e^{w_i}$

我们可以注意到，这里并不是一个整体的$phi(Y,X_1,X_2,cdots,X_n)$。马尔科夫网可以用分开的factor来描述一个非独立的影响关系。这点BN做不到。

$P(X,Y=1)=exp(sum_i(w_iX_i))$

$P(X,Y=0)=1$

$P(Y=1|X)=frac{P(X,Y=1)}{P(X,Y=0)+P(X,Y=1)}=frac{exp(sum_i(w_iX_i))}{1+exp(sum_i(w_iX_i))}$

第六节 Log线性模型

6.1 一般描述

定义$scope{phi}$为$phi$中涉及的变量，例如$scope{phi(A,B)}={A,B}$

考虑一个马尔科夫的因子乘积的形式：

$ ilde{P}=prod_{i}phi_i(D_i)$

我们放宽限制，允许不同的i拥有相同的$D_i$ (scope)。为方便，可以看成是多个sub factor的点乘。

取$phi_i=exp(-w_jf_j(D_j))$，有

$ ilde{P}=prod_{i}phi_i(D_i)=exp(-sum_jw_jf_j(D_j))$

$f$我们称之为feature。下面几个模型都是用不同的feature集来描述的：

6.2 Table Model

用这个形式可以用来描述最常见的table factors，例如，对$phi(X_1,X_2)$来说，把它拆成四个sub factor的点积：

$phi(X_1,X_2)=left[egin{array}{ccc}a_{00}&a_{01}\a_{10}&a_{11}end{array} ight]=left[egin{array}{ccc}a_{00}&1\1&1end{array} ight]cdotleft[egin{array}{ccc}1&a_{01}\1&1end{array} ight]cdotleft[egin{array}{ccc}1&1\a_{10}&1end{array} ight]cdotleft[egin{array}{ccc}1&1\1&a_{10}end{array} ight]$

令$f_{12}^{00}=oldsymbol{1}{X_1=0,X_2=0}=left[egin{array}{ccc}1&0\0&0end{array} ight]$

再令$phi_{00}(X_1,X_2)=exp(-w_{00}f_{12}^{00}(X_1,X_2))$，其中$w_{00}=-log a_{00}$，

则有$phi_{00}(X_1,X_2)=exp(-(-log a_{00})f_{12}^{00}(X_1,X_2))$，刚好就是上面分拆式的第一个矩阵。

对于后面三个矩阵，也可以用相类似的方式来表示。

6.3 Ising Model

电子方向问题，$x_iin{-1,+1}$。

取$f_{i,j}(Xi,Xj)=X_iX_j, f_i(X_i,X_j)=X_i$。它们都是特征函数。组成一个Log Linear模型后的表达式为：

$ ilde{P}(oldsymbol{X})=exp(-frac{1}{T}E(oldsymbol{X}))=exp(frac{1}{T}sum_{i<j}w_{i,j}x_ix_j+sum_iu_ix_i)=sqrt[T]{exp(sum_{i<j}w_{i,j}x_ix_j+sum_iu_ix_i))}$

也可以拆成一系列$phi$的乘积。一部分是$f_{i,j}$，一部分$f_i$。这里省略。

我们看出，当对给定的$x_1,...,x_n$, 如果$x_ix_j=-1$的对越多，那么函数值越小，也就是“概率”越小。

但是，随着T越大，那么$ ilde{P}$的各个值越平均，小的不再那么小，大的也不再那么大。那么对相反电子排布的容忍度也就越高。

6.4 Metric MRFs

定义$f_{ij}(X_i,X_j)=mu(X_i,X_j)=dist(X_i,X_j)$

我们有$ ilde{P}(X_1,X_2,...,X_n)=exp(sum_{i<j}w_{i,j}x_ix_j), w_{ij}>0$

对于整个系统来说，距离和越大，$ ilde{P}$值越小，概率越小。这点和6.3 Ising Model相反。注意它们的系数，6.3中的两个负号相互抵消了。

距离函数$mu$有很多不同的模型，比如step模型，绝对差值模型，限制绝对差值模型，等等。

第七节权重共享

很多情况下，不同Feature的系数（权重）是可以共享的，对6.3 Ising Model来说，每个边对应的相邻点对都有一个feature$f_{ij}$, 它的scope就是${X_i,X_j}$。可以发现，对不同临边对来说，虽然它们feature不一样，但是却有着相同的关系，可以共享相同的系数。

进而，我们可以把共享系数的这些feature归为一个feature，只是它们的应用到不同的scope上而已。

查看全文

相关阅读:
Java +安卓定时任务
 android动画解析（初级）
语义化版本 2.0.0
团队中的 Git 实践
 Spring和SpringBoot比较，解惑区别
 Spring boot 拦截器和过滤器
 [ERROR] Failed to execute goal org.apache.maven.plugins:maven-install-plugin:2.4:install (default-cli) on project kircp-js-plan-resource: The packaging for this project did not assign a file to the bu
Java函数优雅之道
 在springMVC的controller中获取request，response对象的一个方法
 Kotlin 数据类型(数值类型)

原文地址：https://www.cnblogs.com/milaohu/p/6246347.html