zoukankan      html  css  js  c++  java
  • LSI note

    Latent semantic indexing是一项基于SVD分解的语义级别的文本索引技术。

    具体步骤如下:

    一、创建矩阵

    X 的行为词,列为文档,X[ i, j ]为第i个词在第j篇文档之中出现的次数。对X进行SVD分解。得到

    clip_image002

    T和D都是正交向量,S是奇异值的对角阵。

    clip_image004

    得到T和D之后,就可以对原坐标进行变换,将较大奇异值所对应的特征向量保留下来。使T’和D’对原坐标进行变换,得到语义空间的坐标。提供三种比较,

    1. 词与词之间的比较

    clip_image006

    2. 文档与文档之间的比较

    clip_image008

    3. 词与文档之间的比较

    clip_image010

    二、检索

    例如,我们新输入一串关键词(在这里我们看作是小型的文档)。我们的目标是找出与我们输入的关键词语义相近的一系列文档。对关键词建立矩阵Xq

    clip_image012

    然后,Dq就可以像D的行向量一样,用来乘以S1/2或者S,来和TS1/2或者DS的行做cos比较了。

    参考照料为:indexing by latent semantic analysis 1990

  • 相关阅读:
    循环排序总结
    # 区间合并总结
    快慢指针
    #双指针总结
    滑动窗口总结
    leetcode 第 221 场周赛
    剑指 Offer 07. 重建二叉树
    leetcode 406. 根据身高重建队列
    [JLOI2014]松鼠的新家 T22 D71
    软件包管理器 T21 D71
  • 原文地址:https://www.cnblogs.com/hengli/p/2519234.html
Copyright © 2011-2022 走看看