第三节 CRF
CRF主要解决输入变量$X_i$之间的互相依赖问题。大多数情况下,$X_i$是有互相影响的,但是我们在建模的时候,很难把它们之间的关系用有向图或者无向图描述清楚。如果强行假设它们之间互相独立,训练出来的模型往往会有问题,类似朴素贝叶斯(具体例子待研究)。
所幸大部分情况下,我们并不在意输入输入变量之间的关系,我们在乎的是$oldsymbol{X}$作为一个整体和$Y$的关系。所以我们用$P_phi(Y|oldsymbol{X})$来描述一个CRF(Condictional Random Field)。
常见的CRF之一就是Logistic Model:$phi_i(X_i,Y)=exp(w_imathbf{1}{X_i=1,Y=1})$
每个$X_i=1,Y=1$贡献各自的的$e^{w_i}$
我们可以注意到,这里并不是一个整体的$phi(Y,X_1,X_2,cdots,X_n)$。马尔科夫网可以用分开的factor来描述一个非独立的影响关系。这点BN做不到。
$P(X,Y=1)=exp(sum_i(w_iX_i))$
$P(X,Y=0)=1$
$P(Y=1|X)=frac{P(X,Y=1)}{P(X,Y=0)+P(X,Y=1)}=frac{exp(sum_i(w_iX_i))}{1+exp(sum_i(w_iX_i))}$
第六节 Log线性模型
6.1 一般描述
定义$scope{phi}$为$phi$中涉及的变量,例如$scope{phi(A,B)}={A,B}$
考虑一个马尔科夫的因子乘积的形式:
$ ilde{P}=prod_{i}phi_i(D_i)$
我们放宽限制,允许不同的i拥有相同的$D_i$ (scope)。为方便,可以看成是多个sub factor的点乘。
取$phi_i=exp(-w_jf_j(D_j))$,有
$ ilde{P}=prod_{i}phi_i(D_i)=exp(-sum_jw_jf_j(D_j))$
$f$我们称之为feature。下面几个模型都是用不同的feature集来描述的:
6.2 Table Model
用这个形式可以用来描述最常见的table factors,例如,对$phi(X_1,X_2)$来说,把它拆成四个sub factor的点积:
$phi(X_1,X_2)=left[egin{array}{ccc}a_{00}&a_{01}\a_{10}&a_{11}end{array} ight]=left[egin{array}{ccc}a_{00}&1\1&1end{array} ight]cdotleft[egin{array}{ccc}1&a_{01}\1&1end{array} ight]cdotleft[egin{array}{ccc}1&1\a_{10}&1end{array} ight]cdotleft[egin{array}{ccc}1&1\1&a_{10}end{array} ight]$
令$f_{12}^{00}=oldsymbol{1}{X_1=0,X_2=0}=left[egin{array}{ccc}1&0\0&0end{array} ight]$
再令$phi_{00}(X_1,X_2)=exp(-w_{00}f_{12}^{00}(X_1,X_2))$,其中$w_{00}=-log a_{00}$,
则有$phi_{00}(X_1,X_2)=exp(-(-log a_{00})f_{12}^{00}(X_1,X_2))$,刚好就是上面分拆式的第一个矩阵。
对于后面三个矩阵,也可以用相类似的方式来表示。
6.3 Ising Model
电子方向问题,$x_iin{-1,+1}$。
取$f_{i,j}(Xi,Xj)=X_iX_j, f_i(X_i,X_j)=X_i$。它们都是特征函数。组成一个Log Linear模型后的表达式为:
$ ilde{P}(oldsymbol{X})=exp(-frac{1}{T}E(oldsymbol{X}))=exp(frac{1}{T}sum_{i<j}w_{i,j}x_ix_j+sum_iu_ix_i)=sqrt[T]{exp(sum_{i<j}w_{i,j}x_ix_j+sum_iu_ix_i))}$
也可以拆成一系列$phi$的乘积。一部分是$f_{i,j}$,一部分$f_i$。这里省略。
我们看出,当对给定的$x_1,...,x_n$, 如果$x_ix_j=-1$的对越多,那么函数值越小,也就是“概率”越小。
但是,随着T越大,那么$ ilde{P}$的各个值越平均,小的不再那么小,大的也不再那么大。那么对相反电子排布的容忍度也就越高。
6.4 Metric MRFs
定义$f_{ij}(X_i,X_j)=mu(X_i,X_j)=dist(X_i,X_j)$
我们有$ ilde{P}(X_1,X_2,...,X_n)=exp(sum_{i<j}w_{i,j}x_ix_j), w_{ij}>0$
对于整个系统来说,距离和越大,$ ilde{P}$值越小,概率越小。这点和6.3 Ising Model相反。注意它们的系数,6.3中的两个负号相互抵消了。
距离函数$mu$有很多不同的模型,比如step模型,绝对差值模型,限制绝对差值模型,等等。
第七节 权重共享
很多情况下,不同Feature的系数(权重)是可以共享的,对6.3 Ising Model来说,每个边对应的相邻点对都有一个feature$f_{ij}$, 它的scope就是${X_i,X_j}$。可以发现,对不同临边对来说,虽然它们feature不一样,但是却有着相同的关系,可以共享相同的系数。
进而,我们可以把共享系数的这些feature归为一个feature,只是它们的应用到不同的scope上而已。