zoukankan      html  css  js  c++  java
  • NLP传统基础(3)---潜在语义分析LSA主题模型---SVD得到降维矩阵

    https://www.jianshu.com/p/9fe0a7004560

    一、简单介绍

    LSA和传统向量空间模型(vector space model)一样使用向量来表示词(terms)和文档(documents),并通过向量间的关系(如夹角)来判断词及文档间的关系;不同的是,LSA 将词和文档映射到潜在语义空间,从而去除了原始向量空间中的一些“噪音”,提高了信息检索的精确度。

    二、文本挖掘的两个方面应用

    (1)分类:
    a.将词汇表中的字词按意思归类(比如将各种体育运动的名称都归成一类)
    b.将文本按主题归类(比如将所有介绍足球的新闻归到体育类)
    (2)检索:用户提出提问式(通常由若干个反映文本主题的词汇组成),然后系统在数据库中进行提问式和预存的文本关键词的自动匹配工作,两者相符的文本被检出。

    三、文本分类中出现的问题

    (1)一词多义
    比如bank 这个单词如果和mortgage, loans, rates 这些单词同时出现时,bank 很可能表示金融机构的意思。可是如果bank 这个单词和lures, casting, fish一起出现,那么很可能表示河岸的意思。
    (2)一义多词
    比如用户搜索“automobile”,即汽车,传统向量空间模型仅仅会返回包含“automobile”单词的页面,而实际上包含“car”单词的页面也可能是用户所需要的。

    四、LSA原理

    通过对大量的文本集进行统计分析,从中提取出词语的上下文使用含义。技术上通过SVD分解等处理,消除了同义词、多义词的影响,提高了后续处理的精度。
    流程:
    (1)分析文档集合,建立词汇-文本矩阵A。
    (2)对词汇-文本矩阵进行奇异值分解。
    (3)对SVD分解后的矩阵进行降维
    (4)使用降维后的矩阵构建潜在语义空间

    五、应用

    低维的语义空间可以用于以下几个方面:

    在低维语义空间可对文档进行比较,进而可用于文档聚类和文档分类。

    在翻译好的文档上进行训练,可以发现不同语言的相似文档,可用于跨语言检索。

    发现词与词之间的关系,可用于同义词、歧义词检测。.

    通过查询映射到语义空间,可进行信息检索。

    从语义的角度发现词语的相关性,可用于“选择题回答模型”(multi choice qustions answering model)。

    六、LSA的优点

    1)低维空间表示可以刻画同义词,同义词会对应着相同或相似的主题。
    2)降维可去除部分噪声,是特征更鲁棒。
    3)充分利用冗余数据。
    4)无监督/完全自动化。
    5)与语言无关。

    七、LSA的缺点

    1)LSA可以处理向量空间模型无法解决的一义多词(synonymy)问题,但不能解决一词多义(polysemy)问题。因为LSA将每一个词映射为潜在语义空间中的一个点,也就是说一个词的多个意思在空间中对于的是同一个点,并没有被区分。
    2)SVD的优化目标基于L-2 norm 或者 Frobenius Norm 的,这相当于隐含了对数据的高斯分布假设。而 term 出现的次数是非负的,这明显不符合 Gaussian 假设,而更接近 Multi-nomial 分布。
    3)特征向量的方向没有对应的物理解释。
    4)SVD的计算复杂度很高,而且当有新的文档来到时,若要更新模型需重新训练。
    5)没有刻画term出现次数的概率模型。
    6)对于count vectors 而言,欧式距离表达是不合适的(重建时会产生负数)。
    7)维数的选择是ad-hoc的。
    8)LSA具有词袋模型的缺点,即在一篇文章,或者一个句子中忽略词语的先后顺序。
    9)LSA的概率模型假设文档和词的分布是服从联合正态分布的,但从观测数据来看是服从泊松分布的。因此LSA算法的一个改进PLSA使用了多项分布,其效果要好于LSA。



  • 相关阅读:
    java 集合排序
    java传值和传址
    Dom4j操作xml
    JAXP操作xml
    乐观锁和悲观锁【转】
    java IO【转】
    java 可变参数
    Eclipse调试Java的10个技巧【转】
    编译JDK源代码【转】
    Access restriction: The method typeNameToClass(String) from the type ObjectHandler is not accessible due to restriction on required library
  • 原文地址:https://www.cnblogs.com/Lee-yl/p/11202964.html
Copyright © 2011-2022 走看看