zoukankan      html  css  js  c++  java
  • 17.使用原生cross-fiels技术解决搜索弊端

    主要知识点:

    原生cross-fiels的用法

    原生cross-fiels解决三个弊端

       

    一、原生cross-fiels的用法

       

    GET /forum/article/_search

    {

    "query": {

    "multi_match": {

    "query": "Peter Smith",

    "type": "cross_fields",

    "operator": "and",

    "fields": ["author_first_name", "author_last_name"]

    }

    }

    }

       

    二、原生cross-fiels解决三个弊端

    问题1:只是找到尽可能多的field匹配的doc,而不是某个field完全匹配的doc --> 解决,要求每个term都必须在任何一个field中出现才行,也就是说匹配的field必须匹配一个字段,

    比如:PeterSmith

    要求Peter必须在author_first_nameauthor_last_name中出现

    要求Smith必须在author_first_nameauthor_last_name中出现

    Peter Smith可能是横跨在多个field中的,所以必须要求每个term都在某个field中出现,组合起来才能组成我们想要的标识,完整的人名。也就是说返回的结果的各个field中必须包含全部字段。

    对比原来most_fiels,可能像Smith Williams也可能会出现,因为most_fields要求只是任何一个field匹配了就可以,匹配的field越多,分数越高

       

    对于问题2most_fields,没办法用minimum_should_match去掉长尾数据,就是匹配的特别少的结果 --> 解决办法,既然每个term都要求出现,长尾肯定被去除掉了

    比如有的document,只有一个field中包含一个字段,那这个doc就是不结果,作为长尾就没有被返回作为结果

       

    问题3TF/IDF算法,比如Peter SmithSmith Williams,搜索Peter Smith的时候,由于first_name中很少有Smith的,所以query在所有document中的频率很低,得到的分数很高,可能Smith Williams反而会排在Peter Smith前面 ,计算IDF的时候,将每个query在每个field中的IDF都取出来,取最小值,就不会出现极端情况下的极大值了。

  • 相关阅读:
    Linux 模块管理
    python 调试方法
    LFS(Linux From Scratch)学习
    Vim完全教程
    OpenSSL基础知识
    关于jiffies回绕以及time_after,time_before
    十分简便的APK反编译(Mac 版本号 具体解释)
    亚马逊是怎样颠覆商业软件高昂价格这座”柏林墙”的
    Android自己定义控件
    Android基础新手教程——4.1.1 Activity初学乍练
  • 原文地址:https://www.cnblogs.com/liuqianli/p/8526453.html
Copyright © 2011-2022 走看看