bow lsa plsa

zoukankan html css js c++ java

bow lsa plsa
Bag-of-Words (BoW) 模型是NLP和IR领域中的一个基本假设。在这个模型中，一个文档(document)被表示为一组单词(word/term)的无序组合，而忽略了语法或者词序的部分。BOW在传统NLP领域取得了巨大的成功，在计算机视觉领域(Computer Vision)也开始崭露头角，但在实际应用过程中，它却有一些不可避免的缺陷，比如：
- 稀疏性(Sparseness): 对于大词典，尤其是包括了生僻字的词典，文档稀疏性不可避免；
- 多义词(Polysem): 一词多义在文档中是常见的现象，BOW模型只统计单词出现的次数，而忽略了他们之间的区别；
- 同义词(Synonym): 同样的，在不同的文档中，或者在相同的文档中，可以有多个单词表示同一个意思；
从同义词和多义词问题我们可以看到，单词也许不是文档的最基本组成元素，在单词与文档之间还有一层隐含的关系，我们称之为主题(Topic)。我们在写文章时，首先想到的是文章的主题，然后才根据主题选择合适的单词来表达自己的观点。在BOW模型中引入Topic的因素，成为了大家研究的方向，这就是我们要讲的Latent Semantic Analysis (LSA) 和 probabilitistic Latent Semantic Analysis (pLSA)，至于更复杂的LDA和众多其他的Topic Models，以后再详细研究。

LSA简介

LSA的基本思想就是，将document从稀疏的高维Vocabulary空间映射到一个低维的向量空间，我们称之为隐含语义空间(Latent Semantic Space).

http://blog.csdn.net/zhoubl668/article/details/7881318
查看全文

相关阅读:
基于FPGA的ARP协议实现
 Modelsim 仿真错误集锦
 基于FPGA的IIC驱动设计
 状态机跑飞的解决办法
 基于FPGA的检测时钟脉冲的高电平及低电平的中点标志位设计
 基于FPGA的UART实现
 基于FPGA的数字秒表设计
 Matlab的常用调试方法
 基于FPGA的花样流水灯
 **time_limited.sof文件

原文地址：https://www.cnblogs.com/charlesblc/p/6629556.html

LSA简介