zoukankan      html  css  js  c++  java
  • 排序与相关性(Sorting and Relevance)

    本文翻译自Elasticsearch官方指南的Sorting and Relevance一章的第一节。

    原文地址:http://www.elastic.co/guide/en/elasticsearch/guide/current/_sorting.html

    排序

    ES默认是通过相关度来对结果进行排序的,最相关的文档在最前面。在本章里,我们阐述我们所说的相关性以及它是如何计算的,但是我们先讲解sort参数及其如何使用。

    为了根据相关性进行排序,我们需要把相关性表示为一个值。在Elasticsearch里,在返回的查询结果中,我们用一个浮点数值_score来表示相关性得分,因此默认的排序是按_score降序。

    有时候,不能得到一个有意义的相关性得分。比如,下面的查询只返回了字段user_id值为1的所有的tweets:

    GET /_search
    {
        "query" : {
            "filtered" : {
                "filter" : {
                    "term" : {
                        "user_id" : 1
                    }
                }
            }
        }
    }
    过滤器与_score无关,并且不含任何条件的match_all查询对所有的文档的_score都设置为1。换句话说,所有的文档被认为是相等的相关性。

    按字段值排序

         在这种情况下,可能按tweets的时间排序是有意义的,最近的tweets在最前面。我们可以使用sort参数做到这一点:

    GET /_search
    {
        "query" : {
            "filtered" : {
                "filter" : { "term" : { "user_id" : 1 }}
            }
        },
        "sort": { "date": { "order": "desc" }}
    }
    在结果中,注意到两点:
    "hits" : {
        "total" :           6,
        "max_score" :       null, 
        "hits" : [ {
            "_index" :      "us",
            "_type" :       "tweet",
            "_id" :         "14",
            "_score" :      null, 
            "_source" :     {
                 "date":    "2014-09-24",
                 ...
            },
            "sort" :        [ 1411516800000 ] 
        },
        ...
    }

    _score没有被计算出来的,因为在排序中不被使用。

    date字段的值,被表示为从时间纪元开始的毫秒数,在sort值里返回。

    第一,每一个结果中都多了一个新的元素:sort,它包含我们用作排序的那个字段值。在这个例子中,我们按date排序,date是按着从纪元时间的毫秒数加入索引。这段长数字1411516800000与日期字符串2014-09-24 00:00:00UTC是等价的。

    第二,字段_score与max_score都是null.计算_score很花费时间,况且通常它唯一的目的就是为了排序。我们不是按照相关性排序,所以跟踪_score是没有意义的。如果你仍然还想计算_score,你可以将track_scores参数设置为true.

    TIP: 作为一个快捷方式,你可以指定要排序的字段名字:

        "sort": "number_of_children"
    字段名默认按升序排序,_score默认按降序排序。

    多级排序

    我们也许要结合_score与date进行查询,在展示所有匹配结果的时候,首先按照date排序,然后按相关度_score排序。

    GET /_search
    {
        "query" : {
            "filtered" : {
                "query":   { "match": { "tweet": "manage text search" }},
                "filter" : { "term" : { "user_id" : 2 }}
            }
        },
        "sort": [
            { "date":   { "order": "desc" }},
            { "_score": { "order": "desc" }}
        ]
    }
    顺序是很重要的。结果首先按第一个标准排序。只有当结果的第一个sort 值相同时,然后再按第二个标准排序,等等。
    多级排序不是必须含有_score字段。在脚本里,你可以使用几个不同的fields,geo-distance或者自定义值排序。

    NOTE:Query-string 查询也支持在查询字符串里使用sort参数自定义排序:

    GET /_search?sort=date:desc&sort=_score&q=search

    多值字段排序

    当排序字段有不止一个值时,请记住,这些值没有任何内部顺序;一个多值字段只是一袋值(译者注:所有值可以看做一个整体)。你选择哪个进行排序呢?
    对于数字与日期类型,你可以通过min,max,avg或者sum等排序模式,将一个多值字段减少为一个值。例如,你可以通过如下方式,在date字段值集合中的最早的那个日期进行排序:
    "sort": {
        "dates": {
            "order": "asc",
            "mode":  "min"
        }
    }
  • 相关阅读:
    HDU
    HDU
    HDU
    2016蓝桥杯省赛C/C++A组第二题 跳蚱蜢
    2016蓝桥杯决赛C/C++A组第四题 路径之谜
    【洛谷P2397】yyy loves Maths VI (mode)【模拟】
    【洛谷P2397】yyy loves Maths VI (mode)【模拟】
    【NOIP2018】【洛谷P5017】摆渡车【DP】
    【NOIP2018】【洛谷P5017】摆渡车【DP】
    2018NOIP普及组 划水记
  • 原文地址:https://www.cnblogs.com/tianjixiaoying/p/4350987.html
Copyright © 2011-2022 走看看