zoukankan      html  css  js  c++  java
  • 【HBase】带你了解一哈HBase的各种预分区


    简单了解

    概述

    在这里插入图片描述
    由上图可以看出,每一个表都有属于自己的一个Region,但Region内的数据达到10GB时,会进行分割,但仍会在同一个RegionServer上,而预分区的作用主要是增加数据读写效率负载均衡防止数据倾斜方便集群容灾调度Region优化Map数量


    设置预分区

    在设置预分区前要先明白一个概念,每一个Region都维护着从StartKey到EndKey的数据,如果加入的数据符合某个Region的rowKey范围,就把数据交给这个Region维护
    比如说,现在有三个分区,它们的StartKey和EndKey分别是1-1000,1001-2000,2001-3000,现在如果有一条rowKey为1888的数据,那么他就会被分配到第二个Region中
    预分区的设置方法一共有四种:

    一、手动指定预分区

    进入hbase shell输入一下命令

    create 'staff','info','partition1',SPLITS => ['1000','2000','3000','4000']
    

    二、使用16进制算法生成预分区

    进入hbase shell输入一下命令

    create 'staff2','info','partition2',{NUMREGIONS => 15, SPLITALGO => 'HexStringSplit'}
    

    三、将分区规则写在文本文件中

    首先在/export/servers目录下创建splits.txt文本文件,并输入一下内容

    aaaa
    bbbb
    cccc
    dddd
    

    然后在hbase shell中执行以下命令

    create 'staff3','partition2',SPLITS_FILE => '/export/servers/splits.txt'
    

    四、使用JavaAPI进行预分区

    import org.apache.hadoop.conf.Configuration;
    import org.apache.hadoop.hbase.HBaseConfiguration;
    import org.apache.hadoop.hbase.HColumnDescriptor;
    import org.apache.hadoop.hbase.HTableDescriptor;
    import org.apache.hadoop.hbase.TableName;
    import org.apache.hadoop.hbase.client.Admin;
    import org.apache.hadoop.hbase.client.Connection;
    import org.apache.hadoop.hbase.client.ConnectionFactory;
    import org.testng.annotations.Test;
    
    import java.io.IOException;
    
    public class HbasePartition {
        /**
         * 通过javaAPI进行HBase的表的创建以及预分区操作
         */
        @Test
        public void hbaseSplit() throws IOException {
            //获取连接
            Configuration configuration = HBaseConfiguration.create();
            configuration.set("hbase.zookeeper.quorum", "node01:2181,node02:2181,node03:2181");
            Connection connection = ConnectionFactory.createConnection(configuration);
            Admin admin = connection.getAdmin();
            //自定义算法,产生一系列Hash散列值存储在二维数组中
            byte[][] splitKeys = {{1,2,3,4,5},{'a','b','c','d','e'}};
    
    
            //通过HTableDescriptor来实现我们表的参数设置,包括表名,列族等等
            HTableDescriptor hTableDescriptor = new HTableDescriptor(TableName.valueOf("stuff4"));
            //添加列族
            hTableDescriptor.addFamily(new HColumnDescriptor("f1"));
            //添加列族
            hTableDescriptor.addFamily(new HColumnDescriptor("f2"));
            admin.createTable(hTableDescriptor,splitKeys);
            admin.close();
    
        }
    }
    

    在这里插入图片描述


    注意
    在实际工作当中,创建表时一般都需要提前做预分区处理,一般来说每台服务器上面设置两个到五个的预分区,这么做可以更好地减少Split的过程,在设置预分区时,rowKey的设计尤为重要
    关于rowKey的设计可以查看文章:【HBase】快速了解上手rowKey的设计技巧

  • 相关阅读:
    10-10-12分页机制(xp)
    段间跳转之任务门
    段间跳转之TSS段
    mysql索引
    cat /proc/meminfo
    This system is not registered to Red Hat Subscription Management报错
    CentOS 6.5安装zabbix
    KVM(系统虚拟化模块)安装
    Linux时区更改
    学习ruby/rails, rvm是必不可少的工具之一
  • 原文地址:https://www.cnblogs.com/zzzsw0412/p/12772423.html
Copyright © 2011-2022 走看看