zoukankan      html  css  js  c++  java
  • 自然语言处理(三)主题模型

    为了解决“一词多义”和“多词一意”的问题,引入“主题”

    LDA本质是一个三层贝叶斯网络

    1、共轭分布

    1、Beta分布是二项分布的共轭先验分布
    2、Dirichlet分布是多项分布的共轭先验分布

    Dirichlet分布的参数([alpha_{1},alpha_{2},....,alpha_{n}]),一般(alpha)都取一样的值。

    (alpha=1quad) 均匀分布
    (alpha>1quad) 主题分布相等的概率增大
    (alpha<1quad) 某一主题突出的概率增大

    2、LDA模型

    LDA模型框图如下图所示
    这里写图片描述

    流程如下:

    1、取(alpha),用(Dir(alpha))采样得到主题分布(v_{m})
    2、对(v_{m})采样得到某一主题
    3、取(eta),用(Dir(eta))对每个主题分别采样得到词分布(varphi_{k})
    4、取得到的主题的对应的词分布,
    5、在词分布中采一个词

    3、LDA问题

    LDA问题的已知是:已知词语(w)(可观测),已知先验超参数(alpha)(eta)

    LDA问题的所求是:主题z,主题分布( heta),词分布(varphi)

    4、Gibbs采样

    Gibbs采样是一个为词语标记主题的算法。其流程如下:
    1、随机为文本中每个词分配主题
    2、统计:a.每个主题z下出现词t的数量. b.每个文档m下出现主题z的数量
    3、计算(P(z_{i}|z_{i-1,},w)),返回步骤2,迭代。

  • 相关阅读:
    B
    给定二叉树先序、中序遍历序列,求后序遍历
    24点游戏dfs求解
    设计模式之单例模式
    生产者—消费者模式示例
    LeetCode(3):Longest Substring Without Repeating Characters
    LeetCode(5):Longest Palindromic Substring
    LeetCode(60):Permutation Sequence
    LeetCode(50):Pow(x,n)
    LeetCode(69):Sqrt(x)
  • 原文地址:https://www.cnblogs.com/Yolanda7171/p/7242372.html
Copyright © 2011-2022 走看看