zoukankan      html  css  js  c++  java
  • HBase简介及集群安装

    目录

    产生背景
    HBase简介
    关系型数据库 和 非关系型数据库的典型代表
    HBase 这个 NoSQL 数据库的要点
    结构化、半结构化和非结构化
    HBase 中的表特点
    HBase表结构逻辑视图
    名词概念

    正文

    回到顶部
    产生背景
    自 1970 年以来,关系数据库用于数据存储和维护有关问题的解决方案。大数据的出现后, 好多公司实现处理大数据并从中受益,并开始选择像 Hadoop 的解决方案。Hadoop 使用分 布式文件系统,用于存储大数据,并使用 MapReduce 来处理。Hadoop 擅长于存储各种格式 的庞大的数据,任意的格式甚至非结构化的处理。

    Hadoop 的限制

    Hadoop 只能执行批量处理,并且只以顺序方式访问数据。这意味着必须搜索整个数据集, 即使是最简单的搜索工作。 当处理结果在另一个庞大的数据集,也是按顺序处理一个巨大的数据集。在这一点上,一个 新的解决方案,需要访问数据中的任何点(随机访问)单元。

    Hadoop 随机存取数据库

    应用程序,如 HBase,Cassandra,CouchDB,Dynamo 和 MongoDB 都是一些存储大量数据和 以随机方式访问数据的数据库。

    总结:

    (1)海量数据量存储成为瓶颈,单台机器无法负载大量数据

    (2)单台机器 IO 读写请求成为海量数据存储时候高并发大规模请求的瓶颈

    (3)随着数据规模越来越大,大量业务场景开始考虑数据存储横向水平扩展,使得存储服 务可以增加/删除,而目前的关系型数据库更专注于一台机器

    回到顶部
    HBase简介
    HBase 是 BigTable 的开源(源码使用 Java 编写)版本。是 Apache Hadoop 的数据库,是建 立在 HDFS 之上,被设计用来提供高可靠性、高性能、列存储、可伸缩、多版本的 NoSQL 的分布式数据存储系统,实现对大型数据的实时、随机的读写访问。

    HBase 依赖于 HDFS 做底层的数据存储,BigTable 依赖 Google GFS 做数据存储

    HBase 依赖于 MapReduce 做数据计算,BigTable 依赖 Google MapReduce 做数据计算

    HBase 依赖于 ZooKeeper 做服务协调,BigTable 依赖 Google Chubby 做服务协调

    NoSQL = NO SQL

    NoSQL = Not Only SQL:会有一些把 NoSQL 数据的原生查询语句封装成 SQL,比如 HBase 就有 Phoenix 工具

    关系型数据库 和 非关系型数据库的典型代表
    NoSQL:hbase, redis, mongodb

    RDBMS:mysql,oracle,sql server,db2

    HBase 这个 NoSQL 数据库的要点
    ① 它介于 NoSQL 和 RDBMS 之间,仅能通过主键(rowkey)和主键的 range 来检索数据

    ② HBase 查询数据功能很简单,不支持 join 等复杂操作

    ③ 不支持复杂的事务,只支持行级事务(可通过 hive 支持来实现多表 join 等复杂操作)。

    ④ HBase 中支持的数据类型:byte[](底层所有数据的存储都是字节数组)

    ⑤ 主要用来存储结构化和半结构化的松散数据。

    结构化、半结构化和非结构化
    结构化:数据结构字段含义确定,清晰,典型的如数据库中的表结构

    半结构化:具有一定结构,但语义不够确定,典型的如 HTML 网页,有些字段是确定的(title), 有些不确定(table)

    非结构化:杂乱无章的数据,很难按照一个概念去进行抽取,无规律性

    与 Hadoop 一样,HBase 目标主要依靠横向扩展,通过不断增加廉价的商用服务器,来增加 计算和存储能力。

    HBase 中的表特点
    1、大:一个表可以有上十亿行,上百万列

    2、面向列:面向列(族)的存储和权限控制,列(簇)独立检索。

    3、稀疏:对于为空(null)的列,并不占用存储空间,因此,表可以设计的非常稀疏。

    4、无模式:每行都有一个可排序的主键和任意多的列,列可以根据需要动态的增加,同一 张表中不同的行可以有截然不同的列

    回到顶部
    HBase表结构逻辑视图
    初次接触HBase,可能看到以下描述会懵:“基于列存储”,“稀疏MAP”,“RowKey”,“ColumnFamily”。

    其实没那么高深,我们需要分两步来理解HBase, 就能够理解为什么HBase能够“快速地”“分布式地”处理“大量数据”了。

      1.内存结构

      2.文件存储结构

    名词概念
    加入我们有如下一张表

    Rowkey的概念
    Rowkey的概念和mysql中的主键是完全一样的,Hbase使用Rowkey来唯一的区分某一行的数据。

    由于Hbase只支持3中查询方式:

    1、基于Rowkey的单行查询

    2、基于Rowkey的范围扫描

    3、全表扫描

    因此,Rowkey对Hbase的性能影响非常大,Rowkey的设计就显得尤为的重要。设计的时候要兼顾基于Rowkey的单行查询也要键入Rowkey的范围扫描。具体Rowkey要如何设计后续会整理相关的文章做进一步的描述。这里大家只要有一个概念就是Rowkey的设计极为重要。

    rowkey 行键可以是任意字符串(最大长度是 64KB,实际应用中长度一般为 10-100bytes),最好是 16。在 HBase 内部,rowkey 保存为字节数组。HBase 会对表中的数据按照 rowkey 排序 (字典顺序)

    Column的概念
    列,可理解成MySQL列。

    ColumnFamily的概念
    列族, HBase引入的概念。

    Hbase通过列族划分数据的存储,列族下面可以包含任意多的列,实现灵活的数据存取。就像是家族的概念,我们知道一个家族是由于很多个的家庭组成的。列族也类似,列族是由一个一个的列组成(任意多)。

    Hbase表的创建的时候就必须指定列族。就像关系型数据库创建的时候必须指定具体的列是一样的。

    Hbase的列族不是越多越好,官方推荐的是列族最好小于或者等于3。我们使用的场景一般是1个列族。

    TimeStamp的概念
    TimeStamp对Hbase来说至关重要,因为它是实现Hbase多版本的关键。在Hbase中使用不同的timestame来标识相同rowkey行对应的不通版本的数据。

    HBase 中通过 rowkey 和 columns 确定的为一个存储单元称为 cell。每个 cell 都保存着同一份 数据的多个版本。版本通过时间戳来索引。时间戳的类型是 64 位整型。时间戳可以由 hbase(在数据写入时

    自动)赋值,此时时间戳是精确到毫秒的当前系统时间。时间戳也可以由 客户显式赋值。如果应用程序要避免数据版本冲突,就必须自己生成具有唯一性的时间戳。 每个 cell 中,不同版本的数据按照时间

    倒序排序,即最新的数据排在最前面。

    为了避免数据存在过多版本造成的的管理 (包括存贮和索引)负担,hbase 提供了两种数据版 本回收方式:
      保存数据的最后 n 个版本
      保存最近一段时间内的版本(设置数据的生命周期 TTL)。
    用户可以针对每个列簇进行设置。
    单元格(Cell)
    由{rowkey, column( = + ), version} 唯一确定的单元。 Cell 中的数据是没有类型的,全部是字节码形式存贮。

    HBase学习之路 (二)HBase集群安装

    目录

    前提
    版本选择
    JDK的选择
    Hadoop的选择
    安装
    1、zookeeper的安装
    2、Hadoopd的安装
    3、下载安装包
    4、上传服务器并解压缩到指定目录
    5、修改配置文件
    6、将HBase安装包分发到其他节点
    7、 同步时间
    8、配置环境变量
    启动HBase集群
    1、启动zookeeper集群
    2、启动HDFS集群及YARN集群
    3、启动HBase
    验证启动是否正常
    1、检查各进程是否启动正常
    2、通过访问浏览器页面
    3、验证高可用
    4、如果有节点相应的进程没有启动,那么可以手动启动

    正文

    回到顶部
    前提
    1、HBase 依赖于 HDFS 做底层的数据存储

    2、HBase 依赖于 MapReduce 做数据计算

    3、HBase 依赖于 ZooKeeper 做服务协调

    4、HBase源码是java编写的,安装需要依赖JDK

    回到顶部
    版本选择
    打开官方的版本说明http://hbase.apache.org/1.2/book.html

    JDK的选择

    Hadoop的选择

    此处我们的hadoop版本用的的是2.7.5,HBase选择的版本是1.2.6

    回到顶部
    安装
    1、zookeeper的安装
    参考http://www.cnblogs.com/qingyunzong/p/8619184.html

    2、Hadoopd的安装
    参考http://www.cnblogs.com/qingyunzong/p/8634335.html

    3、下载安装包
    找到官网下载 hbase 安装包 hbase-1.2.6-bin.tar.gz,这里给大家提供一个下载地址: http://mirrors.hust.edu.cn/apache/hbase/

    4、上传服务器并解压缩到指定目录
    [hadoop@hadoop1 ~]$ ls
    apps data hbase-1.2.6-bin.tar.gz hello.txt log zookeeper.out
    [hadoop@hadoop1 ~]$ tar -zxvf hbase-1.2.6-bin.tar.gz -C apps/
    5、修改配置文件
    配置文件目录在安装包的conf文件夹中

    (1)修改hbase-env.sh
    [hadoop@hadoop1 conf]$ vi hbase-env.sh
    export JAVA_HOME=/usr/local/jdk1.8.0_73
    export HBASE_MANAGES_ZK=false

    (2)修改hbase-site.xml
    [hadoop@hadoop1 conf]$ vi hbase-site.xml
    复制代码

        <property>
                <!-- 指定 hbase 在 HDFS 上存储的路径 -->
                <name>hbase.rootdir</name>
                <value>hdfs://myha01/hbase126</value>
        </property>
        <property>
                <!-- 指定 hbase 是分布式的 -->
                <name>hbase.cluster.distributed</name>
                <value>true</value>
        </property>
        <property>
                <!-- 指定 zk 的地址,多个用“,”分割 -->
                <name>hbase.zookeeper.quorum</name>
                <value>hadoop1:2181,hadoop2:2181,hadoop3:2181,hadoop4:2181</value>
        </property>
    
    复制代码 (3)修改regionservers [hadoop@hadoop1 conf]$ vi regionservers hadoop1 hadoop2 hadoop3 hadoop4

    (4)修改backup-masters
    该文件是不存在的,先自行创建

    [hadoop@hadoop1 conf]$ vi backup-masters
    hadoop4
    (5)修改hdfs-site.xml 和 core-site.xml
    最重要一步,要把 hadoop 的 hdfs-site.xml 和 core-site.xml 放到 hbase-1.2.6/conf 下

    [hadoop@hadoop1 conf]$ cd ~/apps/hadoop-2.7.5/etc/hadoop/
    [hadoop@hadoop1 hadoop]$ cp core-site.xml hdfs-site.xml ~/apps/hbase-1.2.6/conf/
    6、将HBase安装包分发到其他节点
    分发之前先删除HBase目录下的docs文件夹,

    [hadoop@hadoop1 hbase-1.2.6]$ rm -rf docs/
    在进行分发

    [hadoop@hadoop1 apps]$ scp -r hbase-1.2.6/ hadoop2:$PWD
    [hadoop@hadoop1 apps]$ scp -r hbase-1.2.6/ hadoop3:$PWD
    [hadoop@hadoop1 apps]$ scp -r hbase-1.2.6/ hadoop4:$PWD
    7、 同步时间
    HBase 集群对于时间的同步要求的比 HDFS 严格,所以,集群启动之前千万记住要进行 时间同步,要求相差不要超过 30s

    8、配置环境变量
    所有服务器都有进行配置

    [hadoop@hadoop1 apps]$ vi ~/.bashrc

    HBase

    export HBASE_HOME=/home/hadoop/apps/hbase-1.2.6
    export PATH=$PATH:$HBASE_HOME/bin
    使环境变量立即生效

    [hadoop@hadoop1 apps]$ source ~/.bashrc
    回到顶部
    启动HBase集群
    严格按照启动顺序进行

    1、启动zookeeper集群
    每个zookeeper节点都要执行以下命令

    [hadoop@hadoop1 apps]$ zkServer.sh start
    ZooKeeper JMX enabled by default
    Using config: /home/hadoop/apps/zookeeper-3.4.10/bin/../conf/zoo.cfg
    Starting zookeeper ... STARTED
    [hadoop@hadoop1 apps]$
    2、启动HDFS集群及YARN集群
    如果需要运行MapReduce程序则启动yarn集群,否则不需要启动

    复制代码
    [hadoop@hadoop1 apps]$ start-dfs.sh
    Starting namenodes on [hadoop1 hadoop2]
    hadoop2: starting namenode, logging to /home/hadoop/apps/hadoop-2.7.5/logs/hadoop-hadoop-namenode-hadoop2.out
    hadoop1: starting namenode, logging to /home/hadoop/apps/hadoop-2.7.5/logs/hadoop-hadoop-namenode-hadoop1.out
    hadoop3: starting datanode, logging to /home/hadoop/apps/hadoop-2.7.5/logs/hadoop-hadoop-datanode-hadoop3.out
    hadoop4: starting datanode, logging to /home/hadoop/apps/hadoop-2.7.5/logs/hadoop-hadoop-datanode-hadoop4.out
    hadoop2: starting datanode, logging to /home/hadoop/apps/hadoop-2.7.5/logs/hadoop-hadoop-datanode-hadoop2.out
    hadoop1: starting datanode, logging to /home/hadoop/apps/hadoop-2.7.5/logs/hadoop-hadoop-datanode-hadoop1.out
    Starting journal nodes [hadoop1 hadoop2 hadoop3]
    hadoop3: starting journalnode, logging to /home/hadoop/apps/hadoop-2.7.5/logs/hadoop-hadoop-journalnode-hadoop3.out
    hadoop2: starting journalnode, logging to /home/hadoop/apps/hadoop-2.7.5/logs/hadoop-hadoop-journalnode-hadoop2.out
    hadoop1: starting journalnode, logging to /home/hadoop/apps/hadoop-2.7.5/logs/hadoop-hadoop-journalnode-hadoop1.out
    Starting ZK Failover Controllers on NN hosts [hadoop1 hadoop2]
    hadoop2: starting zkfc, logging to /home/hadoop/apps/hadoop-2.7.5/logs/hadoop-hadoop-zkfc-hadoop2.out
    hadoop1: starting zkfc, logging to /home/hadoop/apps/hadoop-2.7.5/logs/hadoop-hadoop-zkfc-hadoop1.out
    [hadoop@hadoop1 apps]$
    复制代码
    启动完成之后检查以下namenode的状态

    [hadoop@hadoop1 apps]$ hdfs haadmin -getServiceState nn1
    standby
    [hadoop@hadoop1 apps]$ hdfs haadmin -getServiceState nn2
    active
    [hadoop@hadoop1 apps]$
    3、启动HBase
    保证 ZooKeeper 集群和 HDFS 集群启动正常的情况下启动 HBase 集群 启动命令:start-hbase.sh,在哪台节点上执行此命令,哪个节点就是主节点

    复制代码
    [hadoop@hadoop1 conf]$ start-hbase.sh
    starting master, logging to /home/hadoop/apps/hbase-1.2.6/logs/hbase-hadoop-master-hadoop1.out
    Java HotSpot(TM) 64-Bit Server VM warning: ignoring option PermSize=128m; support was removed in 8.0
    Java HotSpot(TM) 64-Bit Server VM warning: ignoring option MaxPermSize=128m; support was removed in 8.0
    hadoop3: starting regionserver, logging to /home/hadoop/apps/hbase-1.2.6/logs/hbase-hadoop-regionserver-hadoop3.out
    hadoop4: starting regionserver, logging to /home/hadoop/apps/hbase-1.2.6/logs/hbase-hadoop-regionserver-hadoop4.out
    hadoop2: starting regionserver, logging to /home/hadoop/apps/hbase-1.2.6/logs/hbase-hadoop-regionserver-hadoop2.out
    hadoop3: Java HotSpot(TM) 64-Bit Server VM warning: ignoring option PermSize=128m; support was removed in 8.0
    hadoop3: Java HotSpot(TM) 64-Bit Server VM warning: ignoring option MaxPermSize=128m; support was removed in 8.0
    hadoop4: Java HotSpot(TM) 64-Bit Server VM warning: ignoring option PermSize=128m; support was removed in 8.0
    hadoop4: Java HotSpot(TM) 64-Bit Server VM warning: ignoring option MaxPermSize=128m; support was removed in 8.0
    hadoop2: Java HotSpot(TM) 64-Bit Server VM warning: ignoring option PermSize=128m; support was removed in 8.0
    hadoop2: Java HotSpot(TM) 64-Bit Server VM warning: ignoring option MaxPermSize=128m; support was removed in 8.0
    hadoop1: starting regionserver, logging to /home/hadoop/apps/hbase-1.2.6/logs/hbase-hadoop-regionserver-hadoop1.out
    hadoop4: starting master, logging to /home/hadoop/apps/hbase-1.2.6/logs/hbase-hadoop-master-hadoop4.out
    [hadoop@hadoop1 conf]$
    复制代码
    观看启动日志可以看到:

    (1)首先在命令执行节点启动 master

    (2)然后分别在 hadoop02,hadoop03,hadoop04,hadoop05 启动 regionserver

    (3)然后在 backup-masters 文件中配置的备节点上再启动一个 master 主进程

    回到顶部
    验证启动是否正常
    1、检查各进程是否启动正常
    主节点和备用节点都启动 hmaster 进程

    各从节点都启动 hregionserver 进程

    按照对应的配置信息各个节点应该要启动的进程如上图所示

    2、通过访问浏览器页面
    hadoop1

    hadop4

    从图中可以看出hadoop4是备用节点

    3、验证高可用
    干掉hadoop1上的hbase进程,观察备用节点是否启用

    复制代码
    [hadoop@hadoop1 conf]$ jps
    4960 HMaster
    2960 QuorumPeerMain
    3169 NameNode
    3699 DFSZKFailoverController
    3285 DataNode
    5098 HRegionServer
    5471 Jps
    3487 JournalNode
    [hadoop@hadoop1 conf]$ kill -9 4960
    复制代码
    hadoop1界面访问不了

    hadoop4变成主节点

    4、如果有节点相应的进程没有启动,那么可以手动启动
    启动HMaster进程

    复制代码
    [hadoop@hadoop3 conf]$ jps
    3360 Jps
    2833 JournalNode
    2633 QuorumPeerMain
    3179 HRegionServer
    2732 DataNode
    [hadoop@hadoop3 conf]$ hbase-daemon.sh start master
    starting master, logging to /home/hadoop/apps/hbase-1.2.6/logs/hbase-hadoop-master-hadoop3.out
    Java HotSpot(TM) 64-Bit Server VM warning: ignoring option PermSize=128m; support was removed in 8.0
    Java HotSpot(TM) 64-Bit Server VM warning: ignoring option MaxPermSize=128m; support was removed in 8.0
    [hadoop@hadoop3 conf]$ jps
    2833 JournalNode
    3510 Jps
    3432 HMaster
    2633 QuorumPeerMain
    3179 HRegionServer
    2732 DataNode
    [hadoop@hadoop3 conf]$
    复制代码

    启动HRegionServer进程

    [hadoop@hadoop3 conf]$ hbase-daemon.sh start regionserver

  • 相关阅读:
    321list,元组,range**数字是不可迭代的!
    320作业
    320基础数据类型初始
    319作业
    316作业
    319 Python基础之格式化输出、逻辑运算符、编码、in not in、while else、
    windows查看端口占用指令
    2016年学习计划
    刷算法的时候有没有必要自写测试用例?
    我们为什么不能只用O记号来谈论算法?
  • 原文地址:https://www.cnblogs.com/xieting/p/11325576.html
Copyright © 2011-2022 走看看