轻松搞懂elasticsearch概念 - 走看看

本文主要介绍elasticsearch6.0的一些基本概念，有助于深入理解、研究elasticsearch和elk系统

一图胜千言

elasticsearch与mysql参照来看

添加一条数据

紫色箭头所指向的nginx为index名称红色箭头所指向的logs为type名称
-d 参数后面的整个json串为document（一条数据）黄色箭头所指向的http_version（json串的key部分）为字段名称蓝色箭头所指向的HTTP/1.1（json串的value部分）为字段值

Cluster

顾名思义，cluster（集群）由一台及以上主机节点组成并提供存储及搜索服务，为方便理解可以将其看作为mysql集群；
elasticsearch集群名称在配置文件ES_HOME/config/elasticsearch.yml中定义，集群名称默认为elasticsearch，可通过cluster.name: my-application属性定义；
单台节点在集群中的名字可通过node.name: node-1属性定义，默认为自动生成的一个uuid值；

Node

node为集群中的单台节点，其可以为master节点亦可为slave节点（节点属性由集群内部选举得出）并提供存储相关数据的功能，为方便理解可以将其看作mysql集群中的某一台主机；
可以通过下述配置设置master节点只提供搜索服务不提供存储服务从而提高该节点的搜索处理效率；

node.master: false
node.data: false

Index

index直译为索引，主要用于存储具体数据，为方便理解可以将其看作mysql数据中的一个库；比如可以定义一个索引名称为nginx-2018-01-11用于存储2018-01-11当天所有的nginx访问日志；

注意：索引名称必须为小写

Type

简单的说可以将type看作mysql数据库中的一张表；

注意：从6.0版本开始type默认只能为log，后续版本中将不再使用type这个概念；

Document

document是可以被索引的最小单元，可以将其看作为mysql中某张表的一条数据；其包含多个字段，比如用户表中可以包含用户名、密码、邮箱等；
在elasticsearch中，存储document数据需使用json格式数据与服务端交互；

Shards

shards（切片）这个概念也比较容易理解，说白了就是把一个大文件分割成多个小文件然后分散存储在集群中的多个节点上；可以将其看作mysql的分库分表概念；这样做的好处是将压力分散到多台机器上，比如你有一张1T的表，要执行一条查询语句，传统方式会只在某一台节点上执行查询语句其所能用到的资源也就是这台节点的最高配置；现在的情况是（假如有5台节点）将1T的表拆分为5分分别存储在5台节点上，查询的时候5台节点都会执行查询操作，然后将5台节点的查询结果汇总在一起返回给用户，这样所能用的资源就是整个集群的资源，处理效率自然也会快很多（不要担心集群汇总查询结果的耗时太大）；
默认情况下elasticsearch会将用户的index拆分为5个shard，可以在创建索引的时候通过number_of_shards参数制定shard的数量；
总体来说，shard的数量与集群中的data节点数量成正比但不宜超过data节点数量；

注意：索引一旦创建，shard值不可改变，但replicas的值可以改变；

Replicas

replicas（副本）简单的理解就是某个文件的拷贝，两个文件一模一样，查询的时候两个都能看，误删除其中一个的时候另一个还在；本质是保证数据不丢失，在elasticsearch中replicas的另一个作用就是提高查询效率；
replica是相对与shard而言的，一般成对使用，比如你有一个索引，shard设置为5，replica设置为1，那么总的切片数为shard（5） + shard（5） * replicas（1） = total（10）；如果有5台data节点，每台节点上都会存储两个不相同的shard，这样某台data节点坏掉集群能从其它节点上保存了整个index的5个shard，所以不影响正常使用；一旦有新的节点加入，集群可以从其它节点将shard再次存储在该节点，从而保证集群高可用性；
replica可在index创建后更改，其值越大搜索效率越高，但写入性能越低（一条数据写入操作需要做（1+replicas）遍），具体值与集群data节点数量相关，不宜超过【data节点数-1】

参考文档

elasticsearch概念介绍： https://www.elastic.co/guide/...