语义相似度计算——VSM和LSA - 走看看

zoukankan html css js c++ java

语义相似度计算——VSM和LSA
向量空间模型VSM

VSM是基于bag-of-words的文档匹配算法。首先分词、去除停用词，留下来的词就是特征词，而所有文档留下来的词组成特征词典(V)，此时每个文档都可以表示为一个特征向量(old{x})，其长度等于特征词典的大小(|V|)。在向量任何一个分量(old{x}_i)的取值为：如果该文档包含特征词(V_i)，取该特征词的tf-idf值，否则取0.

于是通过任意两个文档的特征向量的余弦相似度即可得到数据集中最相似的两个文档。

该模型也可以用在检索上，匹配query和语料库的每个doc的相似度，返回最高的那个。

局限和不足：
1. 没有考虑词的多语义。“苹果”一词在不同上下文下，有不同的含义。
2. 没有考虑词序信息。
潜在语义分析 LSA，Latent Semantic Analysis

待补充。
查看全文

相关阅读:
关于总线的总结
 我已经理解了并发和并行的区别
 关于CPU的一些基本知识总结
 shell生成指定长度的随机数
 进程、线程、协程、例程、过程的区别是什么？
Perl输出带颜色行号或普通输出行
 Ruby数组(2)：数组方法详细整理
 Linux find常用用法示例
 MariaDB官方手册翻译
 Ruby中to_s和to_str、to_i和to_int、to_a和to_ary、to_h和to_hash的解释说明

原文地址：https://www.cnblogs.com/YoungF/p/14509998.html

Copyright © 2011-2022 走看看