zoukankan      html  css  js  c++  java
  • Elasticsearch学习笔记二

    PS:上一篇已经介绍了ES的一些基础概念以及单机版ES的安装,配置,本文主要介绍ES的集群管理,CRUD以及简单聚合查询。

    集群管理

      ES的集群部署起来也很方便,将单机版SCP复制几分,修改elasticsearch.yml文件的Node.name,ip,集群ip List,并确保cluster.name一致即可,然后按照(n+1)/2的规则设置防脑裂数。这里我就不详细介绍了。

    查看集群状态

      可以通过CURL命令发送REST命令,查询集群的健康状态:

    curl 'localhost:9200/_cat/health?v'

      Localhost是主机的地址,9200是监听的端口号,ES默认监听的端口号就是9200.到的相应结果:

    epoch      timestamp cluster       status node.total node.data shards pri relo init unassign
    1394735289 14:28:09  my_cluster   green           1         1      0   0    0    0        0

    可以看到集群的名字为“my_cluster”,集群的状态时"green"。

    对于集群的statua简单介绍一下吧:

    • 绿色,最健康的状态,代表所有的分片包括副本都可用
    • 黄色,基本的分片可用,但是备份不可用(也可能是没有副本)
    • 红色,部分的分片可用,表明分片有一部分损坏。此时执行查询部分数据仍然可以查到,遇到这种情况,还是赶快解决比较好。

    上面的结果还可以看到,目前有一个节点,但是没有分片,这是因为我们的ES中还没有数据,一次也就没有分片。

    查询节点列表

    curl 'localhost:9200/_cat/nodes?v'

    得到的结果如下:

    curl 'localhost:9200/_cat/nodes?v'
    host         ip        heap.percent  ram.percent  load  node.role  master name
    contos    127.0.1.1            8           4 0.00  d         *      New Goblin

    查看所有的索引

    在ES中索引有两个意思:

    1 动词的索引,表示把数据存储到ES中,提供搜索的过程;这期间可能正在执行一个创建搜索的过程。

    2 名字的索引,它是ES中的一个存储类型,与数据库类似,内部包含type字段,type中包含各种文档。

    通过下面的命令可以查看所有的索引:

    curl 'localhost:9200/_cat/indices?v'

    得到的结果如下:

    curl 'localhost:9200/_cat/indices?v'
    health index pri rep docs.count docs.deleted store.size pri.store.size

    由于集群中没有任何的数据,上面的结果中也就只包含列的信息了。

    CRUD

    新增记录

    向指定的 /Index/Type 发送 PUT 请求,就可以在 Index 里面新增一条记录。比如,向/accounts/person发送请求,就可以新增一条人员记录。

    
    $ curl -X PUT 'localhost:9200/accounts/person/1' -d '
    {
      "user": "张三",
      "title": "Java工程师",
      "desc": "Java开发"
    }' 
    

    服务器返回的 JSON 对象,会给出 Index、Type、Id、Version 等信息。

    
    {
      "_index":"accounts",
      "_type":"person",
      "_id":"1",
      "_version":1,
      "result":"created",
      "_shards":{"total":2,"successful":1,"failed":0},
      "created":true
    }
    

    如果你仔细看,会发现请求路径是/accounts/person/1,最后的1是该条记录的 Id。它不一定是数字,任意字符串(比如abc)都可以。

    新增记录的时候,也可以不指定 Id,这时要改成 POST 请求。

    
    $ curl -X POST 'localhost:9200/accounts/person' -d '
    {
      "user": "李四",
      "title": "工程师",
      "desc": "系统管理"
    }'
    

    上面代码中,向/accounts/person发出一个 POST 请求,添加一个记录。这时,服务器返回的 JSON 对象里面,_id字段就是一个随机字符串。

    
    {
      "_index":"accounts",
      "_type":"person",
      "_id":"AV3qGfrC6jMbsbXb6k1p",
      "_version":1,
      "result":"created",
      "_shards":{"total":2,"successful":1,"failed":0},
      "created":true
    }
    

    注意,如果没有先创建 Index(这个例子是accounts),直接执行上面的命令,Elastic 也不会报错,而是直接生成指定的 Index。所以,打字的时候要小心,不要写错 Index 的名称。

    查看记录

    /Index/Type/Id发出 GET 请求,就可以查看这条记录。

    $ curl 'localhost:9200/accounts/person/1?pretty=true'

    上面代码请求查看/accounts/person/1这条记录,URL 的参数pretty=true表示以易读的格式返回。

    返回的数据中,found字段表示查询成功,_source字段返回原始记录。

    
    {
      "_index" : "accounts",
      "_type" : "person",
      "_id" : "1",
      "_version" : 1,
      "found" : true,
      "_source" : {
        "user" : "张三",
        "title" : "Java工程师",
        "desc" : "Java开发"
      }
    }
    

    如果 Id 不正确,就查不到数据,found字段就是false

    
    $ curl 'localhost:9200/weather/beijing/abc?pretty=true'
    
    {
      "_index" : "accounts",
      "_type" : "person",
      "_id" : "abc",
      "found" : false
    }
    

    删除记录

    删除记录就是发出 DELETE 请求。

    
    $ curl -X DELETE 'localhost:9200/accounts/person/1'
    

    这里先不要删除这条记录,后面还要用到。

    更新记录

    更新记录就是使用 PUT 请求,重新发送一次数据。

    
    $ curl -X PUT 'localhost:9200/accounts/person/1' -d '
    {
        "user" : "张三",
        "title" : "Java工程师",
        "desc" : "数据库管理,软件开发"
    }' 
    
    {
      "_index":"accounts",
      "_type":"person",
      "_id":"1",
      "_version":2,
      "result":"updated",
      "_shards":{"total":2,"successful":1,"failed":0},
      "created":false
    }
    

    上面代码中,我们将原始数据从"Java开发"改成"数据库管理,软件开发"。 返回结果里面,有几个字段发生了变化。

    
    "_version" : 2,
    "result" : "updated",
    "created" : false
    

    可以看到,记录的 Id 没变,但是版本(version)从1变成2,操作类型(result)从created变成updatedcreated字段变成false,因为这次不是新建记录。

    简单聚合查询

    查询所有记录

    使用 GET 方法,直接请求/Index/Type/_search,就会返回所有记录。

    
    $ curl 'localhost:9200/accounts/person/_search'
    
    {
      "took":2,
      "timed_out":false,
      "_shards":{"total":5,"successful":5,"failed":0},
      "hits":{
        "total":2,
        "max_score":1.0,
        "hits":[
          {
            "_index":"accounts",
            "_type":"person",
            "_id":"AV3qGfrC6jMbsbXb6k1p",
            "_score":1.0,
            "_source": {
              "user": "李四",
              "title": "工程师",
              "desc": "系统管理"
            }
          },
          {
            "_index":"accounts",
            "_type":"person",
            "_id":"1",
            "_score":1.0,
            "_source": {
              "user" : "张三",
              "title" : "Java工程师",
              "desc" : "数据库管理,软件开发"
            }
          }
        ]
      }
    }
    

    上面代码中,返回结果的 took字段表示该操作的耗时(单位为毫秒),timed_out字段表示是否超时,hits字段表示命中的记录,里面子字段的含义如下。

    • total:返回记录数,本例是2条。
    • max_score:最高的匹配程度,本例是1.0
    • hits:返回的记录组成的数组。

    返回的记录中,每条记录都有一个_score字段,表示匹配的程序,默认是按照这个字段降序排列。

    全文搜索

    Elastic 的查询非常特别,使用自己的查询语法,要求 GET 请求带有数据体。

    
    $ curl 'localhost:9200/accounts/person/_search'  -d '
    {
      "query" : { "match" : { "desc" : "软件" }}
    }'
    

    上面代码使用 Match 查询,指定的匹配条件是desc字段里面包含"软件"这个词。返回结果如下。

    
    {
      "took":3,
      "timed_out":false,
      "_shards":{"total":5,"successful":5,"failed":0},
      "hits":{
        "total":1,
        "max_score":0.28582606,
        "hits":[
          {
            "_index":"accounts",
            "_type":"person",
            "_id":"1",
            "_score":0.28582606,
            "_source": {
              "user" : "张三",
              "title" : "Java工程师",
              "desc" : "数据库管理,软件开发"
            }
          }
        ]
      }
    }
    

    Elastic 默认一次返回10条结果,可以通过size字段改变这个设置。

    
    $ curl 'localhost:9200/accounts/person/_search'  -d '
    {
      "query" : { "match" : { "desc" : "管理" }},
      "size": 1
    }'
    

    上面代码指定,每次只返回一条结果。还可以通过from字段,指定位移。

    
    $ curl 'localhost:9200/accounts/person/_search'  -d '
    {
      "query" : { "match" : { "desc" : "管理" }},
      "from": 1,
      "size": 1
    }'
    

    上面代码指定,从位置1开始(默认是从位置0开始),只返回一条结果。

    逻辑运算

    如果有多个搜索关键字, ES 认为它们是or关系。

    
    $ curl 'localhost:9200/accounts/person/_search'  -d '
    {
      "query" : { "match" : { "desc" : "软件 系统" }}
    }'
    

    上面代码搜索的是“软件" or "系统"

    如果要执行多个关键词的and搜索,必须使用布尔查询

    
    $ curl 'localhost:9200/accounts/person/_search'  -d '
    {
      "query": {
        "bool": {
          "must": [
            { "match": { "desc": "软件" } },
            { "match": { "desc": "系统" } }
          ]
        }
      }
    }'

    参考资料

  • 相关阅读:
    Java基本数据类型之间转换
    python 元组tuple
    python 列表List
    python 字符串
    python for循环
    python break/continue
    python while循环
    python条件判断if/else
    python运算符
    python变量
  • 原文地址:https://www.cnblogs.com/JackpotHan/p/9952048.html
Copyright © 2011-2022 走看看