LDA涉及到的先验知识有:二项分布、Gamma函数、Beta分布、多项分布、Dirichlet分布、马尔科夫链、MCMC、Gibbs Sampling、EM算法等。
二项分布
二项分布是N重伯努利分布,即为X ~ B(n, p). 概率密度公式为:
多项分布
多项分布,是二项分布扩展到多维的情况. 多项分布是指单次试验中的随机变量的取值不再是0-1的,而是有多种离散值可能(1,2,3…,k).概率密度函数为:
Gamma函数
Gamma函数的定义:
分部积分后,可以发现Gamma函数如有这样的性质:
Gamma函数可以看成是阶乘在实数集上的延拓,具有如下性质:
Beta 分布
Beta分布的定义:对于参数,取值范围为[0, 1]的随机变量x的概率密度函数为:
其中,
Dirichlet 分布
Dirichlet的概率密度函数为:
其中,
根据Beta分布、二项分布、Dirichlet分布、多项式分布的公式,我们可以得到结论–Beta分布是二项式分布的共轭先验分布,而狄利克雷(Dirichlet)分布是多项式分布的共轭分布。
2.8 Beta/Dirichlet分布的一个性质
如果 ,则
上式右边的积分对应到概率分布
,对于这个分布,有
把上式带入E(p)的计算式,得到
这说明,对于Beta分布的随机变量,其均值可以来估计。Dirichlet分布也有类似的结论,如果,同样可以证明:
这两个结论非常重要,后面的LDA数学推导过程会使用这个结论。
www.52nlp.com中有关于LDA-math的很好的数学推导。