zoukankan      html  css  js  c++  java
  • 把Hive 数据同步到Elasticsearch7.1.1的过程记录

    由于开发工作的需要把数据从Hive导入到Elasticsearch,最开始使用了java写了个程序跑数据,80W的数据跑了2个小时左右,想想1000W数据那得要一天的时间,这效率到一次痛苦一次,就放弃了最初的想法,找到了用了hive的的方法,直接把数据导入到elasticsearch,以下是创建过程。

    1,准备工作,准备jar包elasticsearch-hadoop-7.1.1,org.apache.commons.httpclient-3.1.jar

    2,在hive中添加jar包。

    3,建立一张和es连接的表hiveToEsTable.

     1 CREATE EXTERNAL TABLE temp.hiveToEsTable (
     2     id,
     3     uscc string,
     4     remov_dt string,
     5     lpr_cert_num string,
     6     cont_tel string,
     7     license_no string,
     8     license_item string,
     9     license_begin_dt string,
    10     license_end_dt string,
    11     license_fz_dt string,
    12     license_certi_stat string,
    13     remov_reas string,
    14     KEY string
    15 ) STORED BY 'org.elasticsearch.hadoop.hive.EsStorageHandler' TBLPROPERTIES (
    16     ##es的索引
    17     'es.resource' = 'es_index',
    18     ##es的id
    19     'es.mapping.id' = 'id',
    20     'es.mapping.date.rich' = 'false',
    21     'es.write.operation' = 'upsert',
    22     ##es所在的ip
    23     'es.nodes' = '192.168.0.199',
    24     ##es端口
    25     'es.port' = '9200'
    26 );

    4.把要添加的es的数据插入到上面建立的表中。即可自动完成数据的同步操作。

    INSERT overwrite TABLE temp.hiveToEsTable SELECT
        id,
        uscc string,
        remov_dt string,
        lpr_cert_num string,
        cont_tel string,
        license_no string,
        license_item string,
        license_begin_dt string,
        license_end_dt string,
        license_fz_dt string,
        license_certi_stat string,
        remov_reas string,
        KEY string
    FROM
        csum.sourceTable

    5,导入80w的成果,只要470秒

      在这次导入的过程中踩到的坑,由于Hive是以前就安装的,使用的是系统自带的Java环境,默认是/usr/lib/jdk,版本是jdk7,但是es7要求的是jdk,我就在原来系统上引入了一个jdk8,安装路径是在/usr/lib/java8,然后知道es的java环境到8,造成两边jdk版本不一致从而导入在创建关联时产生错误。解决方法,①可以把hive 的也指定到jdk8上来,但需要修改配置文件。②把自带的jdk替换成jdk8,es不需要配置jdk8的指定,使用的就是系统默认的。

  • 相关阅读:
    基于MongoDB.Driver的扩展
    通用查询设计思想
    API接口通讯参数规范
    lambda简单记录
    list去重精简代码版
    spring boot file上传
    fastjson过滤器简单记录
    java读取properties文件
    list循环删除单个元素
    MapReduce运行流程分析
  • 原文地址:https://www.cnblogs.com/sansyou/p/13142109.html
Copyright © 2011-2022 走看看