zoukankan      html  css  js  c++  java
  • 029 ElasticSearch----全文检索技术04---基础知识详解02-查询

    1.查询

    (1)基本查询

    基本语法:

    GET /索引库名/_search
    {
        "query":{
            "查询类型":{
                "查询条件":"查询条件值"
            }
        }
    }

    这里的query代表一个查询对象,里面可以有不同的查询属性

    • 查询类型:

      • 例如:match_all, matchterm , range 等等

    • 查询条件:查询条件会根据类型的不同,写法也有差异,后面详细讲解

    <1>查询所有(match_all)

    使用postman工具:

    postman的响应栏中显示:

    {
        "took": 7,
        "timed_out": false,
        "_shards": {
            "total": 1,
            "successful": 1,
            "skipped": 0,
            "failed": 0
        },
        "hits": {
            "total": 1,
            "max_score": 1.0,
            "hits": [
                {
                    "_index": "heima",
                    "_type": "goods",
                    "_id": "iMWEbW0BGbukEcUFLzZ1",
                    "_score": 1.0,
                    "_source": {
                        "title": "小米手机",
                        "images": "http://image.leyou.com/12479122.jpg",
                        "price": 2699.00
                    }
                }
            ]
        }
    }

    • took:查询花费时间,单位是毫秒

    • time_out:是否超时

    • _shards:分片信息

    • hits:搜索结果总览对象

      • total:搜索到的总条数

      • max_score:所有结果中文档得分的最高分

      • hits:搜索结果的文档对象数组,每个元素是一条搜索到的文档信息

        • _index:索引库

        • _type:文档类型

        • _id:文档id

        • _score:文档得分

        • _source:文档的源数据

    <2>匹配查询

    我们先加入一条数据,便于测试:

    PUT /heima/goods/3
    {
        "title":"小米电视4A",
        "images":"http://image.leyou.com/12479122.jpg",
        "price":3899.00
    }

    现在,索引库中有1部手机,1台电视:

    • or关系

      match类型查询,会把查询条件进行分词,然后进行查询,多个词条之间是or的关系

    语法:

    GET /heima/_search
    {
        "query":{
            "match":{
                "title":"小米电视"
            }
        }
    }

     

    结果:

    在上面的案例中,不仅会查询到电视,而且与小米相关的都会查询到,多个词之间是or的关系。

    • and关系

    某些情况下,我们需要更精确查找,我们希望这个关系变成and,可以这样做:

    GET /heima/_search
    {
        "query":{
            "match": {
              "title": {
                "query": "小米电视",
                "operator": "and"
              }
            }
        }
    }

    结果:

    本例中,只有同时包含小米电视的词条才会被搜索到。

    • or和and之间?

    orand 间二选一有点过于非黑即白。 如果用户给定的条件分词后有 5 个查询词项,想查找只包含其中 4 个词的文档,该如何处理?将 operator 操作符参数设置成 and 只会将此文档排除。

    有时候这正是我们期望的,但在全文搜索的大多数应用场景下,我们既想包含那些可能相关的文档,同时又排除那些不太相关的。换句话说,我们想要处于中间某种结果。

    match 查询支持 minimum_should_match 最小匹配参数, 这让我们可以指定必须匹配的词项数用来表示一个文档是否相关。我们可以将其设置为某个具体数字,更常用的做法是将其设置为一个百分数,因为我们无法控制用户搜索时输入的单词数量:

    GET /heima/_search
    {
        "query":{
            "match":{
                "title":{
                    "query":"小米曲面电视",
                    "minimum_should_match": "75%"
                }
            }
        }
    }

    <3>多字段查询(multi_match)

    multi_matchmatch类似,不同的是它可以在多个字段中查询

    GET /heima/_search
    {
        "query":{
            "multi_match": {
                "query":    "小米",
                "fields":   [ "title", "subTitle" ]
            }
        }
    }

    本例中,我们会在title字段和subtitle字段中查询小米这个词

    <4>词条匹配(term)

    term 查询被用于精确值匹配,这些精确值可能是数字、时间、布尔或者那些未分词的字符串

    GET /heima/_search
    {
        "query":{
            "term":{
                "price":2699.00
            }
        }
    }

    <5>多词条精确匹配(terms)

    terms 查询和 term 查询一样,但它允许你指定多值进行匹配。如果这个字段包含了指定值中的任何一个值,那么这个文档满足条件:

    GET /heima/_search
    {
        "query":{
            "terms":{
                "price":[2699.00,2899.00,3899.00]
            }
        }
    }

    (2)结果过滤

    默认情况下,elasticsearch在搜索的结果中,会把文档中保存在_source的所有字段都返回。

    如果我们只想获取其中的部分字段,我们可以添加_source的过滤

    <1>直接指定字段

    示例:

    GET /heima/_search
    {
      "_source": ["title","price"],
      "query": {
        "term": {
          "price": 2699
        }
      }
    }

    返回的结果:

    <2>指定includes和excludes

    我们也可以通过:

    • includes:来指定想要显示的字段

    • excludes:来指定不想要显示的字段

    二者都是可选的。

    实例:

    GET /heima/_search
    {
      "_source": {
        "includes":["title","price"]
      },
      "query": {
        "term": {
          "price": 2699
        }
      }
    }

    与下面的结果将是一样的:

    GET /heima/_search
    {
      "_source": {
         "excludes": ["images"]
      },
      "query": {
        "term": {
          "price": 2699
        }
      }
    }

    postman软件中测试:

    结果:

     

    (3)高级查询

    <1>布尔组合(bool)

    bool把各种其它查询通过must(与,即取交集)、must_not(非)、should(或,即取并集)的方式进行组合

    案例:

    通过查询所有,查看当前的所有信息。发现索引库中有两条信息。

    添加如下的查询条件后

    {
        "query":{
            "bool":{
                "must":     { "match": { "title": "小米" }},
                "must_not": { "match": { "title":  "电视" }},
                "should":   { "match": { "title": "手机" }}
            }
        }
    }

    结果:

    结果分析:这个案例查询出了包含小米,手机等词且不包含电视这个词的数据信息。

    <2>范围查询(range)

    range 查询找出那些落在指定区间内的数字或者时间

    案例:查询出价格在1000-2800区间里的商品数据。

    GET /heima/_search
    {
        "query":{
            "range": {
                "price": {
                    "gte":  1000.0,
                    "lt":   2800.00
                }
            }
        }
    }

    响应结果为:

    <3>模糊查询(fuzzy)

    我们先新增一个商品:

    POST /heima/goods/4
    {
        "title":"apple手机",
        "images":"http://image.leyou.com/12479122.jpg",
        "price":6899.00
    }

    通过postman提交数据:

    响应结果:

    fuzzy 查询是 term 查询(精确匹配)的模糊等价。它允许用户搜索词条与实际词条的拼写出现偏差,但是偏差的编辑距离不得超过2:

    案例:

    GET /heima/_search
    {
      "query": {
        "fuzzy": {
          "title": "appla"
        }
      }
    }

    post输入请求条件:

     

    响应结果为:

    我们可以通过fuzziness来指定允许的编辑距离

    GET /heima/_search
    {
      "query": {
        "fuzzy": {
            "title": {
                "value":"appla",
                "fuzziness":1
            }
        }
      }
    }

    案例:

    响应结果:

    结果分析:查询条件是appmy,与apple有两个字符不同,超出了给定的1个字符。

    (4)过滤(filter)

    <1>条件查询中进行过滤

    所有的查询都会影响到文档的评分及排名。如果我们需要在查询结果中进行过滤,并且不希望过滤条件影响评分,那么就不要把过滤条件作为查询条件来用。而是使用filter方式:

    GET /heima/_search
    {
        "query":{
            "bool":{
                "must":{ "match": { "title": "小米手机" }},
                "filter":{
                    "range":{"price":{"gt":2000.00,"lt":3800.00}}
                }
            }
        }
    }

    <2>无查询条件,直接过滤

    如果一次查询只有过滤,没有查询条件,不希望进行评分,我们可以使用constant_score取代只有 filter 语句的 bool 查询。在性能上是完全相同的,但对于提高查询简洁性和清晰度有很大帮助。

    GET /heima/_search
    {
        "query":{
            "constant_score":   {
                "filter": {
                     "range":{"price":{"gt":2000.00,"lt":3000.00}}
                }
            }
    }

    (5)排序

    <1>单字段排序

    sort 可以让我们按照不同的字段进行排序,并且通过order指定排序的方式

    案例:按照价格进行排序

    GET /heima/_search
    {
      "query": {
        "match": {
          "title": "小米手机"
        }
      },
      "sort": [
        {
          "price": {
            "order": "desc"
          }
        }
      ]
    }

    postman工具中测试:

    测试结果:

    <2>多字段排序

    假定我们想要结合使用 price和 _score(得分) 进行查询,并且匹配的结果首先按照价格排序,然后按照相关性得分排序:

    GET /goods/_search
    {
        "query":{
            "bool":{
                "must":{ "match": { "title": "小米手机" }},
                "filter":{
                    "range":{"price":{"gt":200000,"lt":300000}}
                }
            }
        },
        "sort": [
          { "price": { "order": "desc" }},
          { "_score": { "order": "desc" }}
        ]
    }
  • 相关阅读:
    hdu2063 匈牙利算法 二分最大匹配模版题
    经典dp 编辑距离
    新博客的第一道题 蓝桥杯 蚂蚁感冒
    cv.GaussianBlur参数选择 && contrast stretching
    大数据 week2 Hadoop and HDFS
    大数据 week2 Hadoop and HDFS
    抖音二面记录
    weight decay
    Pillow Image Filter
    UNSW CV第三课 下
  • 原文地址:https://www.cnblogs.com/luckyplj/p/11594634.html
Copyright © 2011-2022 走看看