zoukankan      html  css  js  c++  java
  • 25.TF&IDF算法以及向量空间模型算法

    主要知识点:

    • boolean model
    • IF/IDF
    • vector space model

       

    一、boolean model

       

    在es做各种搜索进行打分排序时,会先用boolean model 进行初步的筛选,boolean model类似and这种逻辑操作符,先过滤出包含指定termdocmust/must not/should(过滤、包含、不包含 、可能包含)这几种情况,这一步不会对各个doc进行打分,只分过滤,为下一步的IF/IDF算法筛选数据。

       

    二、TF/IDF

       

    这一步就是esboolean model过滤出来的doc进行打分,但是这一步也只是单个termdoc中的分数。现假如:

       

    query: hello world

    doc1: java is my favourite programming language, hello world !!!

    doc2: hello java, you are very good, oh hello world!!!

       

    hellodoc1的评分

       

    TF: term frequency

       

    找到hellodoc1中出现了几次,1次,会根据出现的次数给个分数

    一个term在一个doc中,出现的次数越多,那么最后给的相关度评分就会越高

       

    IDFinversed document frequency

       

    找到hello在所有的doc中出现的次数,3

    一个term在所有的doc中,出现的次数越多,那么最后给的相关度评分就会越低

       

    length norm

       

    hello搜索的那个field的长度,field长度越长,给的相关度评分越低; field长度越短,给的相关度评分越高

       

    最后,会将hello这个term,对doc1的分数,综合TFIDFlength norm,计算出来一个综合性的分数

       

    3vector space model

       

    我们在做搜索时,搜索条件中可能会有多个term,es出来的分数结果也是对多个term的综合分数,多个term对一个doc的总分数的计算,在es中使用的是vector space model(空间向量模型),这个模型的算法很复杂,我们在使用es时不需要知道这种算法,只需要知道综合分数是由灾这种模型计算得出的就行。

  • 相关阅读:
    关于本博客
    洛谷P3387 【模板】缩点 题解
    spfa学习笔记
    Google Chrome Download
    Kosaraju算法学习
    fhq treap 学习笔记
    OIerChat
    python request.get(h.html),用xpath获取数据为空
    k8s 用ingress暴露集群环境中的服务。
    harbor push 报received unexpected HTTP status: 500 Internal Server Error
  • 原文地址:https://www.cnblogs.com/liuqianli/p/8527702.html
Copyright © 2011-2022 走看看