zoukankan      html  css  js  c++  java
  • 详细描述一下 Elasticsearch 索引文档的过程?

    协调节点默认使用文档 ID 参与计算(也支持通过 routing),以便为路由提供合适的分片。

    shard = hash(document_id) % (num_of_primary_shards)

    1、当分片所在的节点接收到来自协调节点的请求后,会将请求写入到 Memory

    Buffer,然后定时(默认是每隔 1 秒)写入到 Filesystem Cache,这个从 Momery

    Buffer 到 Filesystem Cache 的过程就叫做 refresh;

    2、当然在某些情况下,存在 Momery Buffer 和 Filesystem Cache 的数据可能会

    丢失,ES 是通过 translog 的机制来保证数据的可靠性的。其实现机制是接收到请

    求后,同时也会写入到 translog 中,当 Filesystem cache 中的数据写入到磁盘中

    时,才会清除掉,这个过程叫做 flush;

    3、在 flush 过程中,内存中的缓冲将被清除,内容被写入一个新段,段的 fsync

    将创建一个新的提交点,并将内容刷新到磁盘,旧的 translog 将被删除并开始一

    个新的 translog。

    4、flush 触发的时机是定时触发(默认 30 分钟)或者 translog 变得太大(默认

    512M)时;

    补充:关于 Lucene 的 Segement:

    1、Lucene 索引是由多个段组成,段本身是一个功能齐全的倒排索引。

    2、段是不可变的,允许 Lucene 将新的文档增量地添加到索引中,而不用从头重

    建索引。

    3、对于每一个搜索请求而言,索引中的所有段都会被搜索,并且每个段会消耗

    CPU 的时钟周、文件句柄和内存。这意味着段的数量越多,搜索性能会越低。

    4、为了解决这个问题,Elasticsearch 会合并小段到一个较大的段,提交新的合并段到磁盘,并删除那些旧的小段。

  • 相关阅读:
    哈尔滨理工大学软件与微电子学院第八届程序设计竞赛同步赛(低年级)
    ACM_X章求和(数学)
    goj 扫雷(dfs)
    Sereja and Brackets(括号匹配)
    NOIP模拟赛 迷路
    NOIP模拟赛three(3)
    NOIP模拟赛2(two)
    NOIP模拟赛1(one)
    czy的后宫5
    [BZOJ3436]小K的农场
  • 原文地址:https://www.cnblogs.com/programb/p/13020701.html
Copyright © 2011-2022 走看看