一种HBase表数据迁移方法的优化

zoukankan html css js c++ java

一种HBase表数据迁移方法的优化

1.背景调研：

目前存在的hbase数据迁移主要分如下几类：

根据上图，可以看出：

其实主要分为两种方式：(1)hadoop层：因为hbase底层是基于hdfs存储的，所以可以通过把hdfs上的数据拷贝的方式来实现，即：DistCp。

(2)hbase层：主要是基于hbase数据层的

CopyTable:需要scan全表数据，效率比较低下

Export/Import:scan全表数据到文件然后再import其他集群上

Snapshot：通过快照的方式，只对元数据进行克隆，不拷贝实际数据，因此性能比较好

2．方案优化

基于hadoop层的数据拷贝是拷贝了表中的全部数据，而基于hbase层操作其中部分也是拷贝全表数据，当需要写部分列数据或者部分时间段数据的时候就会存在问题，而且一次性扫描全部数据，会对hbase性能影响很大，在此基础上，本文主要针对hbase表数据部分列数据迁移，以及对全表扫描的问题做了优化。

3.步骤

         (1)选择需要迁出的hbase表

         (2)输入需要迁移的列

         (3)选择需要迁入的hbase表

         (4)设置rowkey:字段需要为迁出的hbase表中的列或者rowkey



        扫描表的数据时的优化处理：每次设定固定扫描行数N(N建议设置200-300间比较合适，切记一次性读取到内存中过多，会导致内存溢出)，每扫描一次向新表写入一次，接下来从上一次结束处开始扫，依次类推进行循环。当最后一次扫描到的数据小于N或者达到设置的rowkey即可停止扫描。

         采用扫描一部分写入一部分的方式，解决一次性扫描全表的性能问题，同时也避免一次性取出太多数据，导致程序内存溢出等问题。

查看全文

相关阅读:
NFS服务简单配置
 TCP/IP网络
 python文件问题
 明明apple id 密码是对的，登陆 iTunes还总提示密码错误
 台式电脑怎么使用iPhone热点进行上网
 Svn总是提示输入账号密码
 unity的相关技巧
 正则表达式标记
 NGUI用UIGrid加载Item会有部分空出来的解决办法
 win10 硬盘占用率经常100%的可能有用的解决方案

原文地址：https://www.cnblogs.com/zgzf/p/9606534.html