zoukankan      html  css  js  c++  java
  • ElasticSearch面试题

    说一说你们公司ES的集群架构、数据规模以及调优手段

    比如:ES集群架构13个节点,索引根据业务不同共20+索引,根据日期,每日递增20+,索引:10分片,每日递增1亿+数据,
    每个业务每天索引大小控制:500GB之内。

    设计阶段调优

    1)根据业务增量需求,采取基于日期模板创建索引,通过roll over API滚动索引;
    2)使用别名进行索引管理;
    3)每天凌晨定时对索引做force_merge操作,以释放空间;
    4)采取冷热分离机制,热数据存储到SSD,提高检索效率;冷数据定期进行shrink操作,以缩减存储;
    5)采取索引生命周期管理;
    6)仅针对需要分词的字段,合理的设置分词器;
    7)Mapping阶段充分结合各个字段的属性,是否需要检索、是否需要存储等;

    写入调优

    1)写入前副本数设置为0;
    2)写入前关闭refrESh_interval设置为-1,禁用刷新机制;
    3)写入过程中:采取bulk批量写入;
    4)写入后恢复副本数和刷新间隔;
    5)尽量使用自动生成的id,避免指定id。

    查询调优

    1)禁用wildcard;
    2)禁用批量terms(成百上千的场景);
    3)充分利用倒排索引机制,能keyword类型尽量keyword;
    4)数据量大时候,可以先基于时间敲定索引再检索;
    5)设置合理的路由机制。

    简述一下ES中的索引、类型、映射、文档各是什么?

    索引(Index)

    类似关系数据库中的“数据库”。它有一个定义多种类型的映射。索引是逻辑名称空间,映射到一个或多个主分片,并且可以有零个或多个副本分片。

    类型(Type)

    类似于数据库中的“表”,类型是索引内部的逻辑分区。因此,一个索引内部可定义一个或多个类型(type),一般来说,类型就是为那些拥有相同的域的文档做的预定义。

    映射(Mapping)

    类似于数据库中的“字段”,映射是定义文档及其包含的字段如何存储和索引的过程。

    文档(Doc)

    类似于关系数据库中的一行。不同之处在于索引中的每个文档可以具有不同的映射,但是对于通用字段应该具有相同的数据类型。

    ES是如何实现Master选举的?

    (1)ES的选主是ZenDiscovery模块负责的,主要包含Ping(节点之间通过这个RPC来发现彼此)和Unicast(单播模块包含一个主机列表以控制哪些节点需要ping通)这两部分;
    (2)对所有可以成为master的节点(node.master: true)根据nodeId字典排序,每次选举每个节点都把自己所知道节点排一次序,然后选出第一个(第0位)节点,暂且认为它是master节点。
    (3)如果对某个节点的投票数达到一定的值(可以成为master节点数n/2+1)并且该节点自己也选举自己,那这个节点就是master。否则重新选举一直到满足上述条件。

    如何解决ES脑裂问题?

    (1)当集群master候选数量不小于3个时,可以通过设置最少投票通过数量(discovery.zen.minimum_master_nodES)超过所有候选节点一半以上来解决脑裂问题;
    (2)当候选数量为两个时,只能修改为唯一的一个master候选,其他作为data节点,避免脑裂问题。

    简述Translog的作用

    translog是用来恢复数据的。ES用“后写”的套路来加快写入速度,写入的索引并没有实时落盘到索引文件,而是先双写到内存和translog文件。

    简述一下对ES分片的理解

    (1)分片是指索引的分片,ES可以把一个完整的索引分成多个分片,这样的好处是可以把一个索引拆分成多个,分布到不同的节点上,从而构成分布式搜索。
    (2)ES的分片分为主分片和副本分片:
    主分片(Primary Shard),解决数据水平扩展的问题,通过主分片,将数据分布到集群内的所有节点上面。主分片数在索引创建的时候指定,之后不可以更改,除非重新索引。
    副本分片(Replica Shard),解决数据的高可用问题,是主分片的拷贝。

    ES中的副本分片可以用于读请求吗?

    ES中的副本概念和Hadoop的副本类似,同样可以服务于读请求。

    ES中的副本分片的作用有哪些?

    故障转移/集群恢复

    如果持有主分片的节点挂了,一个副本分片就会晋升为主分片。在索引写入时,副本分片做着与主分片相同的工作。新文档首先被索引进主分片然后再同步到其它所有的副本分片。

    通过副本进行负载均衡

    搜索性能取决于最慢的节点的响应时间,所以尝试均衡所有节点的负载是一个好想法。如果我们有三个节点,其中一个索引是两个主分片,每个主分片各有一个副本,那么一共就是4块分片,最终我们会有两个节点各持有一个分片,而另一个持有两个分片做着两倍的工作。我们可以通过调整副本数量来平衡这些分片,通过分配两份副本而不是一个,最终我们会拥有六个分片,刚好可以平均分给三个节点。

    描述一下ES更新和删除文档的过程

    删除和更新都是写操作,但是ES中的文档是不可变的,因此不能被删除或者改动以展示其变更,具体过程如下:

    删除过程

    磁盘上的每个段都有一个相应的.del文件。当删除请求发送后,文档并没有真的被删除,而是在.del文件中被标记为删除。该文档依然能匹配查询,但是会在结果中被过滤掉。当段合并时,在.del文件中被标记为删除的文档将不会被写入新段。

    更新过程

    在新的文档被创建时,ES会为该文档指定一个版本号,当执行更新时,旧版本的文档在.del文件中被标记为删除,新版本的文档被索引到一个新段。旧版本的文档依然能匹配查询,但是会在结果中被过滤掉。

    简述一下ES的倒排索引是什么

    传统检索是通过文章,逐个遍历找到对应关键词的位置。而倒排索引,是通过分词策略,形成了词和文章的映射关系表,这种词典+映射表即为倒排索引。有了倒排索引可以极大的提高了检索效率。

    ES查询队列满,请求拒绝,简述一下解决思路

    队列大小一般不需要调整,队列满的原因是请求处理不过来,调大之后解决不了根本问题。

    (1)首先看看分片在节点上的分布是否均匀,分布得不均匀容易出现队列打满的情况,可以通过重新规划分片,更加充分地利用节点的资源;
    (2)如果分片均衡没有问题,可以把慢日志打开,查看是否有大量查询比较慢的请求,如果有的话,需要联系业务侧分析该类请求;
    (3)如果以上两点做了之后,队列还是会满,那说明节点资源不足以支撑请求量,需要考虑扩容。

  • 相关阅读:
    [转]王垠的过去和现状
    支持向量机(SVM)基础
    C语言编程心得
    Fortran学习心得
    gdb使用心得
    大道至简第一章读后感
    第一个音符
    Exercise 1.20 最大公约数算法
    Exercise 1.19 Fast Fibonacci
    Exercise 1.16 1.17 1.18
  • 原文地址:https://www.cnblogs.com/daemonyue/p/14212488.html
Copyright © 2011-2022 走看看