zoukankan      html  css  js  c++  java
  • ElasticSearch使用

    安装之前,请参考https://github.com/richardwilly98/elasticsearch-river-mongodb根据你的MongoDB版本号决定需要的elasticsearch版本号和插件号。

    1)安装ES

    下载ElasticSearch_版本号.tar.gz,官网上有,下载好之后。

    1
    2
    tar -zvxf elasticsearch-1.1.0.tar.gz
    cd elasticsearch-1.1.0

     安装一下插件,也可以不安装,这个插件用来监控用的

    1
    ./bin/plugin -i elasticsearch/marvel/latest

     想了解这个插件可以参考官方文档

    1
    http://www.elasticsearch.org/guide/en/marvel/current/index.html

    2)执行程序

    1
    ./elasticsearch

    看到以下的就表示成功了

    1
    2
    3
    4
    5
    6
    7
    8
    9
    10
    11
    [2014-04-09 10:12:41,414][INFO ][node                     ] [Lorna Dane] version[1.1.0], pid[839], build[2181e11/2014-03-25T15:59:51Z]
    [2014-04-09 10:12:41,415][INFO ][node                     ] [Lorna Dane] initializing ...
    [2014-04-09 10:12:41,431][INFO ][plugins                  ] [Lorna Dane] loaded [], sites []
    [2014-04-09 10:12:44,383][INFO ][node                     ] [Lorna Dane] initialized
    [2014-04-09 10:12:44,384][INFO ][node                     ] [Lorna Dane] starting ...
    [2014-04-09 10:12:44,495][INFO ][transport                ] [Lorna Dane] bound_address {inet[/0:0:0:0:0:0:0:0:9300]}, publish_address {inet[/XXXXXX:9300]}
    [2014-04-09 10:12:47,522][INFO ][cluster.service          ] [Lorna Dane] new_master [Lorna Dane][Ml-gTu_ZTniHR2mkpbMQ_A][XXXXX][inet[/XXXXXX:9300]], reason: zen-disco-join (elected_as_master)
    [2014-04-09 10:12:47,545][INFO ][discovery                ] [Lorna Dane] elasticsearch/Ml-gTu_ZTniHR2mkpbMQ_A
    [2014-04-09 10:12:47,572][INFO ][http                     ] [Lorna Dane] bound_address {inet[/0:0:0:0:0:0:0:0:9200]}, publish_address {inet[/XXXXX:9200]}
    [2014-04-09 10:12:47,607][INFO ][gateway                  ] [Lorna Dane] recovered [0] indices into cluster_state
    [2014-04-09 10:12:47,607][INFO ][node                     ] [Lorna Dane] started

    如果想后台运行,则执行

    1
    ./elasticsearch -d

    想确认程序是否运行,则运行

    1
    2
    3
    lsof -i:9200
    lsof -i:9300
    一个是节点对外服务端口,一个是节点间交互端口(如果有集群的话)。

    3)建立集群

    配置文件路径是:

    1
    .....(你的实际路径)/config/elasticsearch.yml

    默认是全部配置项都屏蔽的,

    我修改后配置项如下:

    1
    2
    cluster.name: ctoes   ---配置集群的名字
    node.name: "QiangZiGeGe"---配置节点的名字,注意有双引号
    1
    bootstrap.mlockall: true

     没有提到的配置项都采用默认值,具体参数如何设置,还需要具体情况具体分析。

    修改好后,启动es,可以看到打印的消息里有别的节点名字,就表示建立集群成功。

    注意:es是自动探测局域网内的同名集群节点的。 

     查看集群的状态,可以通过:

    1
    curl 'http://localhost:9200/_cluster/health?pretty'
    1
    <span></span>响应如下:
    1
    2
    3
    4
    5
    6
    7
    8
    9
    10
    11
    12
    {
      "cluster_name" : "ctoes",
      "status" : "green",
      "timed_out" : false,
      "number_of_nodes" : 2,
      "number_of_data_nodes" : 2,
      "active_primary_shards" : 5,
      "active_shards" : 10,
      "relocating_shards" : 0,
      "initializing_shards" : 0,
      "unassigned_shards" : 0
    }

    接下来来使用一下来得到直观感受

    4)使用数据库感受一下

    创建索引(相当于创建数据库)

    示例如下:

    1
    2
    3
    4
    5
    6
    7
    8
    9
    10
    11
    [deployer@XXXXXXX0013 ~]$ curl -XPUT 'http://localhost:9200/test1?pretty' -d'
    > {
    "settings":{
    > "number_of_shards":2,
    > "number_of_replicas":1
    > }
    > }
    > '
    {
      "acknowledged" : true
    }

    注意,这里的number_of_shards参数是一次性设置,设置之后永远不可以再修改的,但是number_of_replicas是可以随后可以修改的。

    上面的url里的test1其实就是建立的索引(数据库)的名字,根据需要自己修改即可。

    创建文档

    1
    2
    3
    4
    5
    6
    7
    8
    9
    10
    curl -XPUT 'http://localhost:9200/test1/table1/1' -d '
    { "first":"dewmobile",
    "last":"technology",
    "age":3000,
    "about":"hello,world",
    "interest":["basketball","music"]
    }
    '
    响应如下:
    {"_index":"test1","_type":"table1","_id":"1","_version":1,"created":true}

    表明创建文档成功

    test1:建立的数据库名字

    table1:建立的type名字,type与关系数据库的table对应

    1:自己制定的文档的主键,也可以不指定主键由数据库自己分配。

    5)安装数据库同步插件

    由于我们的数据源是放在MongoDB中的,所以这里只讲MongoDB数据源的数据同步。

    插件源码:https://github.com/richardwilly98/elasticsearch-river-mongodb/ 

    1
    2
    3
    MongoDB River Plugin (作者 Richard Louapre)
     
    简介:mongodb同步插件,mongodb必须搭成副本集的模式,因为这个插件的原理是通过定期读取mongodb中的oplog来同步数据。

    如何安装使用呢?需要安装2个插件

    1)插件1

    1
    ./plugin -install elasticsearch/elasticsearch-mapper-attachments/2.0.0

    2)插件2

    1
    ./bin/plugin --install com.github.richardwilly98.elasticsearch/elasticsearch-river-mongodb/2.0.0

    安装过程如下:

    1
    2
    3
    4
    5
    6
    7
    ./bin/plugin --install com.github.richardwilly98.elasticsearch/elasticsearch-river-mongodb/2.0.0
    -> Installing com.github.richardwilly98.elasticsearch/elasticsearch-river-mongodb/2.0.0...
    Trying http://download.elasticsearch.org/com.github.richardwilly98.elasticsearch/elasticsearch-river-mongodb/elasticsearch-river-mongodb-2.0.0.zip...
    Trying http://search.maven.org/remotecontent?filepath=com/github/richardwilly98/elasticsearch/elasticsearch-river-mongodb/2.0.0/elasticsearch-river-mongodb-2.0.0.zip...
    Trying https://oss.sonatype.org/service/local/repositories/releases/content/com/github/richardwilly98/elasticsearch/elasticsearch-river-mongodb/2.0.0/elasticsearch-river-mongodb-2.0.0.zip...
    Downloading .............................................................................................DONE
    Installed com.github.richardwilly98.elasticsearch/elasticsearch-river-mongodb/2.0.0 into /usr/local/elasticsearch_1.1.0/elasticsearch/elasticsearch-1.1.0/plugins/river-mongodb

    3)安装elasticsearch-MySql插件

    具体请参考:

    https://github.com/jprante/elasticsearch-river-jdbc可以直接下载二进制jar包。

    1
    https://github.com/jprante/elasticsearch-river-jdbc

     4)安装mysql驱动jar包(必须!)

    这样,插件就装好了。

    6)使用插件告知ES添加监听数据库任务

    模板如下:

    1
    2
    3
    4
    5
    6
    7
    8
    9
    10
    11
    12
    13
    14
    curl -XPUT localhost:9200/_river/mongo_resource/_meta -d '
    {
    "type":"mongodb",
    "mongodb":{
    "servers":
    [{"host":"10.XX.XX.XX","port":"60004"}
    ],
    "db":"zapya_api",
    "collection":"resources"
    },
    "index":{
    "name":"mongotest",
    "type":"resources"
    }}'

     如果看到下面的内容表示创建成功

    1
    {"_index":"_river","_type":"mongodb","_id":"_meta","_version":1,"created":true}

     然后,数据就导入到了es中了,索引建立成功。

    ~~~~~~~~~~~~~~~~

    如果是导入mysql,模板如下:

    1
    2
    3
    4
    5
    6
    7
    8
    9
    10
    [deployer@XXX0014 ~]$ curl -XPUT 'localhost:9200/_river/my_jdbc_river/_meta' -d '{
    > "type":"jdbc",
    > "jdbc":{
    > "url":"jdbc:mysql://localhost:3306/fastooth",
    > "user":"XXX",
    > "password":"XXX",
    > "sql":"select *,base62Decode(display_name) as name from users"
    > }
    > }
    > '

     更详细的是:

    1
    2
    3
    4
    5
    6
    7
    8
    9
    10
    11
    12
    13
    14
    15
    16
    17
    18
    19
    20
    21
    22
    23
    24
    25
    26
    {
        "jdbc" :{
            "strategy" : "simple",
            "url" : null,
            "user" : null,
            "password" : null,
            "sql" : null,
            "schedule" : null,
            "poolsize" : 1,
            "rounding" : null,
            "scale" : 2,
            "autocommit" : false,
            "fetchsize" : 10, /* Integer.MIN for MySQL */
            "max_rows" : 0,
            "max_retries" : 3,
            "max_retries_wait" : "30s",
            "locale" : Locale.getDefault().toLanguageTag(),
            "index" : "jdbc",
            "type" : "jdbc",
            "bulk_size" : 100,
            "max_bulk_requests" : 30,
            "bulk_flush_interval" : "5s",
            "index_settings" : null,
            "type_mapping" : null
        }
    }

    对于schedule参数:设置调度时刻的

    格式参考:http://www.quartz-scheduler.org/documentation/quartz-1.x/tutorials/crontrigger

    http://elasticsearch-users.115913.n3.nabble.com/Ann-JDBC-River-Plugin-for-ElasticSearch-td4019418.html

    http://www.quartz-scheduler.org/documentation/quartz-1.x/tutorials/crontrigger

    https://github.com/jprante/elasticsearch-river-jdbc/issues/186

    官方文档:

    http://elasticsearch-users.115913.n3.nabble.com/Ann-JDBC-River-Plugin-for-ElasticSearch-td4019418.html

    https://github.com/jprante/elasticsearch-river-jdbc/wiki/JDBC-River-parameters

    https://github.com/jprante/elasticsearch-river-jdbc/wiki/Quickstart(包含如何删除任务)

    附录:http://my.oschina.net/wenhaowu/blog/215219#OSC_h2_7 

    测试过程中,会出现错误:

    1
    [7]: index [yyyy], type [rrrr], id [1964986], message [RemoteTransportException[[2sdfsdf][inet[/xxxxxxxxxx:9300]][bulk/shard]]; nested: EsRejectedExecutionException[rejected execution (queue capacity 50) on org.elasticsearch.action.support.replication.TransportShardReplicationOperationAction$AsyncShardOperationAction$1@3e82ee89]; ]

    修改配置文件,在最后增加:

    1
    2
    3
    4
    5
    threadpool:
        bulk:
            type: fixed
            size: 60
            queue_size: 1000

    至于这几个参数是什么意思,还请读者自己去弄明白。

    参考:

    http://stackoverflow.com/questions/20683440/elasticsearch-gives-error-about-queue-size

    http://www.elasticsearch.org/guide/en/elasticsearch/reference/current/modules-threadpool.html

    ~~~~~~~~~~~~~~~

    关于客户端,我们使用了Play框架,正如数据库都需要驱动包一样,我们从官方网站上看到了这个

    https://github.com/cleverage/play2-elasticsearch

    关于中文分词,可以尝试使用Ansj.

    ~~~~~~~~~~~~~~~~~~~~~

    关于创建索引:

    curl -i -XPUT  'XXX:9200/fasth' -d '
    {
       "settings" :
       {
          "number_of_shards" : 3 ,
          "number_of_replicas" : 1
       }
       
    }
    '

    ~~~~~~~~~~~

    创建映射

    curl -i -XPUT  'http://localhost:9200/fa/users/_mapping' -d '
    {

     "properties":
     {
      "_id":
      { 
      "type":"string",
      "index":"not_analyzed"
      },
      "name":
      {
      "type":"string"
      },
      "gender":
      {
      "type":"string",
      "index":"not_analyzed"
      },
      "primary_avatar":
      {
      "type":"string",
      "index":"not_analyzed"
      },
      "signature":
      {
      "type":"string",
      "index":"not_analyzed"
      }
     }

    }
    '


     

    全量任务:

    curl -XPUT  'xxx:9200/_river/mysql_users/_meta' -d ' 

     "type":"jdbc", 
     "jdbc": 
     { 
     "url":"jdbc:mysql://XXX:3306/fastooth", 
     "user":"XXX", 
     "password":"XXX", 
     "sql":"select distinct _id,base62Decode(display_name) as name,gender,primary_avatar,signature from users", 
     "index":"XXX", 
     "type":"XXX" 
     } 

    '

     http://www.nosqldb.cn/1368777378160.html

  • 相关阅读:
    hdu 1251(字典树)(3种方法)
    HDU 2203(KMP算法)
    九度oj 题目1335:闯迷宫
    poj3894 bfs+记录路径
    状压dp--P2704
    状压dp--洛谷P2622
    动态规划--牛客多校number
    完全背包
    01背包--hdu
    莫比乌斯反演模板--Gym 101982B
  • 原文地址:https://www.cnblogs.com/fx2008/p/4171053.html
Copyright © 2011-2022 走看看