zoukankan      html  css  js  c++  java
  • elasticsearch-数据迁移解决方案 零停机

    https://blog.csdn.net/chuan442616909/article/details/55505692

    重新索引你的数据

    尽管可以增加新的类型到索引中,或者增加新的字段到类型中,但是不能添加新的分析器或者对现有的字段做改动。 如果你那么做的话,结果就是那些已经被索引的数据就不正确, 搜索也不能正常工作。

    对现有数据的这类改变最简单的办法就是重新索引:用新的设置创建新的索引并把文档从旧的索引复制到新的索引。

    字段 _source 的一个优点是在Elasticsearch中已经有整个文档。你不必从源数据中重建索引,而且那样通常比较慢。

    为了有效的重新索引所有在旧的索引中的文档,用 scroll 从旧的索引检索批量文档 , 然后用 bulk API 把文档推送到新的索引中。

    从Elasticsearch v2.3.0开始, {ref}/docs-reindex.html[Reindex API] 被引入。它能够对文档重建索引而不需要任何插件或外部工具。

    批量重新索引

    同时并行运行多个重建索引任务,但是你显然不希望结果有重叠。正确的做法是按日期或者时间 这样的字段作为过滤条件把大的重建索引分成小的任务:

    GET /old_index/_search?scroll=1m
    {
        "query": {
            "range": {
                "date": {
                    "gte":  "2014-01-01",
                    "lt":   "2014-02-01"
                }
            }
        },
        "sort": ["_doc"],
        "size":  1000
    }

    如果旧的索引持续会有变化,你希望新的索引中也包括那些新加的文档。那就可以对新加的文档做重新索引, 但还是要用日期类字段过滤来匹配那些新加的文档。

    索引别名和零停机

    在前面提到的,重建索引的问题是必须更新应用中的索引名称。 索引别名就是用来解决这个问题的!

    索引 别名 就像一个快捷方式或软连接,可以指向一个或多个索引,也可以给任何一个需要索引名的API来使用。别名 带给我们极大的灵活性,允许我们做下面这些:

    • 在运行的集群中可以无缝的从一个索引切换到另一个索引

    • 给多个索引分组 (例如, last_three_months)

    • 给索引的一个子集创建 视图

    在后面我们会讨论更多关于别名的使用。现在,我们将解释怎样使用别名在零停机下从旧索引切换到新索引。

    有两种方式管理别名: _alias 用于单个操作, _aliases 用于执行多个原子级操作。

    在本章中,我们假设你的应用有一个叫 my_index 的索引。事实上, my_index 是一个指向当前真实索引的别名。真实索引包含一个版本号: my_index_v1 , my_index_v2 等等。

    首先,创建索引 my_index_v1 ,然后将别名 my_index 指向它:

    PUT /my_index_v1 (1)
    PUT /my_index_v1/_alias/my_index (2)
    1. 创建索引 my_index_v1 。

    2. 设置别名 my_index 指向 my_index_v1 。

    你可以检测这个别名指向哪一个索引:

    GET /*/_alias/my_index

    或哪些别名指向这个索引:

    GET /my_index_v1/_alias/*

    两者都会返回下面的结果:

    {
        "my_index_v1" : {
            "aliases" : {
                "my_index" : { }
            }
        }
    }

    然后,我们决定修改索引中一个字段的映射。当然,我们不能修改现存的映射,所以我们必须重新索引数据。 首先, 我们用新映射创建索引 my_index_v2 :

    PUT /my_index_v2
    {
        "mappings": {
            "my_type": {
                "properties": {
                    "tags": {
                        "type":   "string",
                        "index":  "not_analyzed"
                    }
                }
            }
        }
    }

    然后我们将数据从 my_index_v1 索引到 my_index_v2 ,下面的过程在 [reindex] 中已经描述过。一旦我们确定文档已经被正确地重索引了,我们就将别名指向新的索引。

    一个别名可以指向多个索引,所以我们在添加别名到新索引的同时必须从旧的索引中删除它。这个操作需要原子化,这意味着我们需要使用 _aliases 操作:

    POST /_aliases
    {
        "actions": [
            { "remove": { "index": "my_index_v1", "alias": "my_index" }},
            { "add":    { "index": "my_index_v2", "alias": "my_index" }}
        ]
    }

    你的应用已经在零停机的情况下从旧索引迁移到新索引了。

    Tip

    即使你认为现在的索引设计已经很完美了,在生产环境中,还是有可能需要做一些修改的。

    做好准备:在你的应用中使用别名而不是索引名。然后你就可以在任何时候重建索引。别名的开销很小,应该广泛使用。

    @羲凡——只为了更好的活着

    Elasticsearch 新旧索引数据迁移(_reindex)
    举个例子,在输入“1992-02-27”这样格式的数据,es会把他默认为是date数据类型,但是有时候我们希望它是text类型,在原索引中已经有数据的情况下该如何操作。

    1.创建原索引
    PUT /aaron_index/aaron_type/1
    {
    "name":"张辽","age":27,"content":"1992-02-27"
    }
    PUT /aaron_index/aaron_type/2
    {
    "name":"曹阿瞒","age":28,"content":"1991-02-19"
    }
    1
    2
    3
    4
    5
    6
    7
    8
    2.创建新索引
    PUT /aaron_index_new
    {
    "mappings": {
    "aaron_type":{
    "properties":{
    "content":{"type":"text"},
    "name":{"type":"text"}
    }
    }
    }
    }
    1
    2
    3
    4
    5
    6
    7
    8
    9
    10
    11
    PUT /aaron_index_new/aaron_type/2
    {
    "name":"曹操","content":"1991-02-19,28岁"
    }
    1
    2
    3
    4
    3.查看两个索引的mapping类型
    GET /aaron_index/_mapping
    1
    GET /aaron_index_new/_mapping
    1
    4.将原索引全部放入新索引中,_id冲突的以原索引为准
    虽然新索引中只有两个字段(原索引中有三个),也会将原索引中的数据插入新索引中,并覆盖_id相同的数据。

    POST _reindex
    {
    "source": {"index": "aaron_index"},
    "dest": {"index": "aaron_index_new"}
    }
    1
    2
    3
    4
    5
    5.将原索引放入新索引中,_id冲突的以新索引为准
    虽然新索引中只有两个字段(原索引中有三个),也会将原索引中的数据插入新索引中,但不覆盖_id相同的数据。

    POST _reindex
    {
    "conflicts": "proceed",
    "source": {"index": "aaron_index"},
    "dest": {"index": "aaron_index_new","op_type": "create"}
    }
    1
    2
    3
    4
    5
    6
    ====================================================================

    @羲凡——只为了更好的活着
    ————————————————
    版权声明:本文为CSDN博主「羲凡丞相」的原创文章,遵循 CC 4.0 BY-SA 版权协议,转载请附上原文出处链接及本声明。
    原文链接:https://blog.csdn.net/weixin_42003671/article/details/96485675

    es 修改 mapping 字段类型

     

    一、原索引

    1
    2
    3
    4
    5
    6
    7
    8
    9
    10
    11
    12
    13
    14
    PUT my_index
    {
      "mappings": {
        "_doc": {
          "properties": {
            "create_date": {
              "type":   "date",
              "format""yyyy-MM-dd ||yyyy/MM/dd"
               
            }
          }
        }
      }
    }

      二、创建新索引

    1
    2
    3
    4
    5
    6
    7
    8
    9
    10
    11
    12
    13
    PUT my_index2
    {
      "mappings": {
        "_doc": {
          "properties": {
            "create_date": {
              "type":   "text"
               
            }
          }
        }
      }
    }

      三、同步数据

    1
    2
    3
    4
    5
    6
    7
    8
    9
    POST _reindex                   
    {
      "source": {
        "index""my_index"
      },
      "dest": {
        "index""my_index2"
      }
    }

      四、删除原索引

    1
    DELETE my_index

      五、设置别名

    1
    2
    3
    4
    5
    6
    POST /_aliases
      {
            "actions": [
                {"add": {"index""my_index2""alias""my_index"}}
            ]
      }

    https://www.cnblogs.com/royfans/p/11436395.html

  • 相关阅读:
    Tair分布式key/value存储
    Ehcache详细解读
    专访阿里中间件高级专家沈询
    boost之词法解析器spirit
    快速部署Python应用:Nginx+uWSGI配置详解
    CMake如何执行shell命令
    show engine innodb status 详解
    HTTP Request header
    json python api
    mysql 索引对于select速度提升作用实验
  • 原文地址:https://www.cnblogs.com/xiaohanlin/p/12760163.html
Copyright © 2011-2022 走看看