zoukankan      html  css  js  c++  java
  • 【自然语言处理(三)】主题模型

    什么是LDA?(latent dirichlet allocation)

    • 是一种无监督的贝叶斯模型
    • 是一种主题模型;
    • 是一种典型的词袋模型;

    什么是贝叶斯模型?(事件θ和y同时发生的概率=θ发生的概率*在θ发生的情况下y发生的概率=y发生的概率*在y发生的情况下θ发生的概率)

    • 用概率作为可信度
    • 每次有新数据,就更新可信度;
    • 需要一个模型解释数据的生成;

    要想理解LDA,分为以下五个步骤:

    • 一个函数:gamma函数
    • 四个分布:二项分布、多项分布、beta分布、dirichlet分布
    • 一个概念和一个理念:共轭先验和贝叶斯框架;
    • 两个模型:pLSA、LDA
    • 一个采样:Gibbs采样

    (1)gamma函数

    参考了不少资料gamma函数是什么,有点复杂呀,这里给出我觉得不错的几篇文章:

    http://www.360doc.com/content/19/0611/08/46986705_841682327.shtml

    https://www.jianshu.com/p/387ab7b9998b

    https://wenku.baidu.com/view/d8d7e161f242336c1fb95e17.html

    看完这三篇,基本上对gamma函数就有所了解了

    然后直接贴出它的公式吧:

    (2)二项分布、多项分布、beta分布、dirichlet分布
      概率密度函数:描述随机变量的输出值,在某个确定的取值点附近的可能性的函数。而随机变量的取值落在某个区域之内的概率则为概率密度函数在这个区域上的积分。当概率密度函数存在的时候,累积分布函数是概率密度函数的积分。概率密度函数一般以小写标记。

      分布函数:随机变量最重要的概率特征,分布函数可以完整地描述随机变量的统计规律,并且决定随机变量的一切其他概率特征。分布函数一般以大写标记。
      贝叶斯统计中,如果后验分布先验分布属于同类,则先验分布与后验分布被称为共轭分布,而先验分布被称为似然函数的共轭先验

      这里其中P(Y),P(Y|X)叫作Y的先验概率,后验概率,P(X|Y)称为“似然”,P(X)称为X的边际概率;

    • 二项分布
      要了解二项分布,首先得了解伯努利分布。
      伯努利分布,又名两点分布,0-1分布:随机变量X每次只取0或1两个值,(并不是严格意义上的0,1,这里说的是只有两种结果,0代表失败,1代表成功),则有:


      若取q=1-p,则有X的概率密度函数:
      而二项分布是n次伯努利实验成功次数的离散概率分布。假设进行n次实验,则成功k次的概率为:

       可以将其理解为从这n次实验中选k次是成功的,每次成功的概率是p,那么k次就是,剩下的就是不成功的,典型例子:抛硬币

    • 多项分布

      多项式分布(Multinomial Distribution)是二项式分布的推广。二项式做n次伯努利实验,规定了每次试验的结果只有两个,如果现在还是做n次试验,只不过每次试验的结果可以有多m个,且m个结果发生的概率互斥且和为1,则发生其中一个结果X次的概率就是多项式分布。

      二项分布其实是多项分布的一个特例,多项分布是具有多种情况,而二项分布只有两种情况。多项分布概率密度函数为:

    • beta分布 

      贝塔分布(Beta Distribution) 是一个作为伯努利分布和二项式分布的共轭先验分布的密度函数,也称为B分布,是指一组定义在区间的连续概率分布其概率密度函数为:其中是gamma函数。随机变量X服从参数为的Β分布通常写作 

    • 狄利克雷分布
      Dirichlet分布是关于定义在区间[0,1]上的多个随机变量的联合概率分布。它是多项分布的共轭分布,其概率密度函数为:
    • pLSA和LDA
    • Gibbs采样

    这一篇都掌握多少知识呀,暂时写不动了,先摆在这把。

  • 相关阅读:
    游戏开发系统功能(9)
    游戏开发创建游戏世界(8)
    游戏开发沟通和开会技巧(7)
    游戏开发策划工作(6)
    游戏开发了解测试工作(4)
    Django:学习笔记(9)——用户身份认证
    Django:学习笔记(8)——视图
    Django:学习笔记(7)——模型进阶
    Django:学习笔记(6)——模型
    Django:学习笔记(5)——会话
  • 原文地址:https://www.cnblogs.com/xiximayou/p/11871063.html
Copyright © 2011-2022 走看看