zoukankan      html  css  js  c++  java
  • 一种HBase表数据迁移方法的优化

    1.背景调研:

    目前存在的hbase数据迁移主要分如下几类:

     根据上图,可以看出:

    其实主要分为两种方式:(1)hadoop层:因为hbase底层是基于hdfs存储的,所以可以通过把hdfs上的数据拷贝的方式来实现,即:DistCp。

    (2)hbase层:主要是基于hbase数据层的

    CopyTable:需要scan全表数据,效率比较低下

    Export/Import:scan全表数据到文件然后再import其他集群上

    Snapshot:通过快照的方式,只对元数据进行克隆,不拷贝实际数据,因此性能比较好

     

    2.方案优化

    基于hadoop层的数据拷贝是拷贝了表中的全部数据,而基于hbase层操作其中部分也是拷贝全表数据,当需要写部分列数据或者部分时间段数据的时候就会存在问题,而且一次性扫描全部数据,会对hbase性能影响很大,在此基础上,本文主要针对hbase表数据部分列数据迁移,以及对全表扫描的问题做了优化。

     

    3.步骤

             (1)选择需要迁出的hbase表

             (2)输入需要迁移的列

             (3)选择需要迁入的hbase表

             (4)设置rowkey:字段需要为迁出的hbase表中的列或者rowkey

            

            扫描表的数据时的优化处理:每次设定固定扫描行数N(N建议设置200-300间比较合适,切记一次性读取到内存中过多,会导致内存溢出),每扫描一次向新表写入一次,接下来从上一次结束处开始扫,依次类推进行循环。当最后一次扫描到的数据小于N或者达到设置的rowkey即可停止扫描。

             采用扫描一部分写入一部分的方式,解决一次性扫描全表的性能问题,同时也避免一次性取出太多数据,导致程序内存溢出等问题。

  • 相关阅读:
    面向对象之多态(向上转型与向下转型)
    【Java面试题】解释内存中的栈(stack)、堆(heap)和静态存储区的用法
    自动装箱的本质是什么呢?
    基本数据类型float和double的区别
    Java中this和super的用法总结
    面试题——太(上)
    面试题——蓝
    C/C++——C++变量的作用域与生命周期,C语言中变量的作用域和生命周期
    C语言——内存分配
    面试题——超
  • 原文地址:https://www.cnblogs.com/zgzf/p/9606534.html
Copyright © 2011-2022 走看看