zoukankan      html  css  js  c++  java
  • 向量空间搜索引擎基本理论

      向量空间搜索引擎所运用的简单技术源自矩阵代数,它基于字符在文件中出现的频率来比较文件。向量空间搜索引擎中第一个重要的元素是项空间(term space)的概念,简而言之,一个项空间由文件中出现的每个独立的词组成.
      向量空间搜索引擎中第二个重要的元素是项数(termcounts)。项数就是文件中每个字符出现的次数,通常可由表的形式列出,通过将项空间作为坐标空间,项数作为项空间中的坐标,我们可为每个文件生成一个向量。

      为了了解怎样生成这些向量,我们看一个简单例子.大家可能对笛卡尔坐标比较熟悉,点的刻画沿X,Y,Z轴.类似的,在我们的例子中一个项空间由三个独立项组成,我们把它们分别称作项1轴,项2轴,项3轴.(在向量空间搜索引擎理论中这些轴通常被称作维数.)通过计算文件中各项出现的次数,并沿各项轴画出坐标,我们就可确定出与文件所对应的项空间中的点.由这些点则可生成该文件的向量.一旦在项空间中画出该文件的向量,我们就可计算向量的大小.我们把大小看作是原点(我们的例子中是坐标(0,0,0)点)到当前文件点之间连线的距离.这样就可运用向量的长度通过计算夹角的余旋来比较不同的文件.例如,相同的文件夹角余旋为1,文件中含有类似项的夹角余旋会是正小数,文件中含有截然不同项的夹角余旋会是0.

  • 相关阅读:
    树莓派开机启动
    树莓派连接18b20测温度
    树莓派VNC
    树莓派python 控制GPIO
    树莓派笔记
    用nohup执行python程序时,print无法输出
    mysql 函数应用
    mysql 正则表达式判断是否数字
    mysql select into 不支持
    tushare
  • 原文地址:https://www.cnblogs.com/sunfie/p/6679069.html
Copyright © 2011-2022 走看看