zoukankan      html  css  js  c++  java
  • LDA中的先验知识

    LDA涉及到的先验知识有:二项分布、Gamma函数、Beta分布、多项分布、Dirichlet分布、马尔科夫链、MCMC、Gibbs Sampling、EM算法等。

    二项分布

    二项分布是N重伯努利分布,即为X ~ B(n, p). 概率密度公式为:

    多项分布

    多项分布,是二项分布扩展到多维的情况. 多项分布是指单次试验中的随机变量的取值不再是0-1的,而是有多种离散值可能(1,2,3…,k).概率密度函数为:

    Gamma函数

    Gamma函数的定义:

    分部积分后,可以发现Gamma函数如有这样的性质:

    Gamma函数可以看成是阶乘在实数集上的延拓,具有如下性质:

    Beta 分布

    Beta分布的定义:对于参数,取值范围为[0, 1]的随机变量x的概率密度函数为:

    其中,

    Dirichlet 分布

    Dirichlet的概率密度函数为:

    其中,

    根据Beta分布、二项分布、Dirichlet分布、多项式分布的公式,我们可以得到结论–Beta分布是二项式分布的共轭先验分布,而狄利克雷(Dirichlet)分布是多项式分布的共轭分布。

    2.8 Beta/Dirichlet分布的一个性质

    如果 ,则

    上式右边的积分对应到概率分布

    ,对于这个分布,有

    把上式带入E(p)的计算式,得到

    这说明,对于Beta分布的随机变量,其均值可以来估计。Dirichlet分布也有类似的结论,如果,同样可以证明:

    这两个结论非常重要,后面的LDA数学推导过程会使用这个结论。


    www.52nlp.com中有关于LDA-math的很好的数学推导。

  • 相关阅读:
    POJ 3255 Roadblocks
    KMP算法的前缀next数组最通俗的解释
    HDU 1829 A Bug's Life
    HDU 1879 继续畅通工程
    课程设计:学生管理系统(c++)
    HDU 1016 Prime Ring Problem
    HDU 4310 Hero
    素数筛选法<单向链表实现>
    【未完】训练赛20190304:KMP+树状数组+线段树+优先队列
    畅通工程:并查集入门裸题
  • 原文地址:https://www.cnblogs.com/yifdu25/p/8138327.html
Copyright © 2011-2022 走看看