es之路由：进一步提高Elasticsearch的检索效率（适用大规模数据集）

zoukankan html css js c++ java

es之路由：进一步提高Elasticsearch的检索效率（适用大规模数据集）
1：一条数据是如何落地到对应的shard上的

当索引一个文档的时候，文档会被存储到一个主分片中。 Elasticsearch 如何知道一个文档应该存放到哪个分片中呢？

首先这肯定不会是随机的，否则将来要获取文档的时候我们就不知道从何处寻找了。实际上，这个过程是根据下面这个算法决定的：
```
shard = hash(routing) % number_of_primary_shards
```
routing 是一个可变值，默认是文档的 _id ，也可以设置成一个自定义的值。 routing 通过 hash 函数生成一个数字，然后这个数字再除以 number_of_primary_shards （主分片的数量）后得到余数。这个分布在 0 到 number_of_primary_shards-1 之间的余数，就是我们所寻求的文档所在分片的位置。

这就解释了为什么我们要在创建索引的时候就确定好主分片的数量 并且永远不会改变这个数量：因为如果数量变化了，那么所有之前路由的值都会无效，文档也再也找不到了

2：路由机制

现在我们在探讨一个关于路由的问题：

假设你有一个100个分片的索引。当一个请求在集群上执行时会发生什么呢？
```
1. 这个搜索的请求会被发送到一个节点
2. 接收到这个请求的节点，将这个查询广播到这个索引的每个分片上（可能是主分片，也可能是复制分片）
3. 每个分片执行这个搜索查询并返回结果
4. 结果在通道节点上合并、排序并返回给用户
```
因为默认情况下，Elasticsearch使用文档的ID（类似于关系数据库中的自增ID），如果插入数据量比较大，文档会平均的分布于所有的分片上，这导致了Elasticsearch不能确定文档的位置，所以它必须将这个请求广播到所有的N个分片上去执行

这种操作会给集群带来负担，增大了网络的开销；

路由使用：
```
PUT my_index/my_type/1?routing=user1&refresh=true 
{
  "title": "This is a document"
}

GET my_index/my_type/1?routing=user1
```
上面的代码中，指定了一个用户属性作为路由进行分区，然后查询的时候也必须指定路由。这一点需要注意只要在索引时候加入路由字段，那么在以后的get，delete，update操作中都必须使用路由字段，否则会出现问题。

有时候我们会把某些具有相似属性的数据放在同一个路由下，这样可以提高查询的效率；比如：我们把不同季度的销售数据存储在不同的路由下；然后在查询的时候，直接根据路由字段本身进行查询即可，而不需要直接扫描全年的数据：
```
PUT department1/order/1?routing=jidu1
{
  "productName" : "phone",
  "total_price" : 10000000,
  "times" : "2017-01-01"
}

PUT department1/order/2?routing=jidu1
{
  "productName" : "huawei",
  "total_price" : 10000000,
  "times" : "2017-2-01"
}
PUT department1/order/1?routing=jidu2
{
  "productName" : "phone",
  "total_price" : 10009000,
  "times" : "2017-5-01"
}

查询季度1的所有数据
GET department1/_search
{
  "query": {
    "terms" : {
      "_routing" : [ "jidu1" ]
    }
  }
}

查询季度1和季度2的所有数据：
GET department1/_search
{
  "query": {
    "terms": {
      "_routing": [ "jidu1" , "jidu2"] 
    }
  }
}
```
当然，有时候我们需要查询第一、第二季度的产品中叫做huawei的文档。那么在查询中也是可以指定多个路由的：
```
GET department1/_search?routing=jidu1,jidu2 
{
  "query": {
    "match": {
      "productName": "huawei"
    }
  }
}
```
注意：

如果加入路由字段之后，其他的操作(indexing,getting,deleting,updating)都必须指定路由字段，为了避免在使用时忘记添加路由字段，导致同类数据会分布在多个shard上，这就违反了路由的原则，我们可以在mapping中设置路由字段是必须字段，否则会提示错误：
```
PUT department1
{
  "mappings": {
    "order": {
      "_routing": {
        "required": true 
      }
    }
  }
}
```
查看全文

相关阅读:
android模拟器EditText 不能用物理键盘输入，也不能用电脑键盘输入
 Java中HashMap遍历的两种方式
 Android平台下基于XMPP的IM研究
 基于MINA框架快速开发网络应用程序
 Java中ArrayList遍历的4种方法
 Java在ACM中的应用
 Java大数
 zoj 1406 Jungle Roads
hdoj 1009 FatMouse' Trade
Action 相关组件

原文地址：https://www.cnblogs.com/niutao/p/10909081.html

es之路由：进一步提高Elasticsearch的检索效率（适用大规模数据集）

1：一条数据是如何落地到对应的shard上的

2：路由机制