zoukankan      html  css  js  c++  java
  • 一种HBase表数据迁移方法的优化

    1.背景调研:

    目前存在的hbase数据迁移主要分如下几类:

     根据上图,可以看出:

    其实主要分为两种方式:(1)hadoop层:因为hbase底层是基于hdfs存储的,所以可以通过把hdfs上的数据拷贝的方式来实现,即:DistCp。

    (2)hbase层:主要是基于hbase数据层的

    CopyTable:需要scan全表数据,效率比较低下

    Export/Import:scan全表数据到文件然后再import其他集群上

    Snapshot:通过快照的方式,只对元数据进行克隆,不拷贝实际数据,因此性能比较好

     

    2.方案优化

    基于hadoop层的数据拷贝是拷贝了表中的全部数据,而基于hbase层操作其中部分也是拷贝全表数据,当需要写部分列数据或者部分时间段数据的时候就会存在问题,而且一次性扫描全部数据,会对hbase性能影响很大,在此基础上,本文主要针对hbase表数据部分列数据迁移,以及对全表扫描的问题做了优化。

     

    3.步骤

             (1)选择需要迁出的hbase表

             (2)输入需要迁移的列

             (3)选择需要迁入的hbase表

             (4)设置rowkey:字段需要为迁出的hbase表中的列或者rowkey

            

            扫描表的数据时的优化处理:每次设定固定扫描行数N(N建议设置200-300间比较合适,切记一次性读取到内存中过多,会导致内存溢出),每扫描一次向新表写入一次,接下来从上一次结束处开始扫,依次类推进行循环。当最后一次扫描到的数据小于N或者达到设置的rowkey即可停止扫描。

             采用扫描一部分写入一部分的方式,解决一次性扫描全表的性能问题,同时也避免一次性取出太多数据,导致程序内存溢出等问题。

  • 相关阅读:
    胡昊—第9次作业--接口及接口回调
    胡昊—第8次作业--继承
    软件工程第三次作业——关于软件质量保障初探
    胡昊—第7次作业--访问权限、对象使用
    胡昊—第6次作业—static关键字、对象
    20194670自动生成四则运算题第一版报告
    《现代软件工程—构建之法》第一章总结
    第四次博客作业-结对项目
    第9次作业--接口及接口回调
    第八次作业--继承
  • 原文地址:https://www.cnblogs.com/zgzf/p/9606534.html
Copyright © 2011-2022 走看看