HBase学习笔记一

zoukankan html css js c++ java

HBase学习笔记一
HBase简介

HBase概念
- HBase的原型是谷歌的Bigtable论文
- HBase是一个高可靠性、高性能、面向列、可伸缩的分布式存储系统，利用HBase技术可在廉价PC上搭建起大规模结构化存储集群
- HBase的目标是存储并处理大型的数据，更具体来说是仅需使用普通的硬件配置，就能够处理由成千上万的行和列所组成的大型数据
HBase特点
- 海量存储
  
  HBase适合存储PB级的海量数据，在PB级别的数据以及采用廉价机器存储的情况下，能在几十到百毫秒内返回数据
- 列式存储
  
  此处的列式存储指的是列族存储，HBase是根据列族来存储数据的。列族下面可以有多个列，但是在创建表的时候必须指定列族
- 易扩展性
  
  HBase的扩展性主要体现在两个地方，一个是基于上层处理能力的扩展，一个是基于存储的扩展(HDFS),通过横向添加RegionServer的机器进行水平扩展，提升HBase上层的处理能力，提升HBase服务更多Region的能力
  
  注意：RegionServer的作用是管理region、承接业务的访问。通过横向添加DataNode的机器，进行存储层扩容，提升HBase的数据存储能力和提升后端存储的读写能力
- 高并发
  
  在并发的情况下，HBase的单个IO延迟下降并不多，能获得高并发、低延迟的服务
- 稀疏
  
  主要针对HBase列的灵活性，在列族中，你可以指定任意多的列，在列数据为空的情况下，不占用存储空间
HBase架构

组件介绍
1. Client
  
  Client包含了访问HBase的接口，另外Client还维护了对应的cache来加速HBase的访问，比如说cache的meta元数据的信息
2. Zookeeper
  
  HBase通过Zookeeper来做master的高可用、RegionServer的监控、元数据的入口以及集群配置的维护等工作。
  
  Zookeeper的工作如下：
  
  通过Zookeeper来保证集群中只有一个master在运行，如果master异常，会通过竞争机制产生新的master提供服务
  
  通过Zookeeper来监控RegionServer的状态，当RegionServer有异常的时候，通过回调的形式通知Master RegionServer上下线的信息
  
  通过Zookeeper存储元数据的统一入口地址
3. Hmaster
  
  为RegionServer分配Region
  
  维护整个集群的负载均衡
  
  维护集群的元数据信息
  
  当发现失效的Region时，并将失效的Region分配到正常的RegionServer上
  
  当RegionServer失效时，协调对应Hlog的拆分
4. HRegionServer
  
  HRegionServer直接对接用户的读写请求，其实是真正“干活”的节点。
  
  HRegionServer的功能如下：
  
  管理master为它分配的Region
  
  处理来自客户端的读写请求
  
  负责和底层HDFS交互，存储数据到HDFS
  
  负责Region变大以后的拆分
  
  负责StoreFile的合并工作
5. HDFS
  
  HDFS为HBase提供最终的底层数据存储服务，同时为HBase提供高可用(HLog存储在HDFS)的支持
  
  HDFS具体功能概括如下：
  
  提供元数据和表数据的底层分布式存储服务
  
  数据多副本，保证高可靠和高可用性
HBase中的角色
1. HMaster
  
  监控RegionServer
  
  处理RegionServer故障转移
  
  处理元数据的变更
  
  处理Region的分配或转移
  
  在空闲时间进行数据的负载均衡
  
  通过Zookeeper将元数据的位置发送给客户端
2. RegionServer
  
  负责存储HBase的实际数据
  
  处理分配给它的Region
  
  刷新缓存到HDFS
  
  维护HLog(一个RegionServer有一个HLog)
  
  执行压缩
  
  负责处理Region分片(自动分片)
  
  其他组件
  
  Write-Ahead logs（WAL）
  
  HBase的修改记录，当对HBase读写数据的时候，数据并不是直接写进磁盘，它会在内存中保留一段时间(时间以及数据量阈值可以设定)。但把数据保存在内存中可能有更高的概率引起数据丢失，解决这个问题，数据会先写入一个叫做Write-Ahead logfile 的文件中，然后再写入内存中。在系统出现故障的时候，数据可以通过这个日志文件重建
  
  Region
  
  HBase表的分片，HBase表会根据RowKey值被切分成不同的region存储在RegionServer中，在一个RegionServer中可以有多个不同的region
  
  Store
  
  HFile存储在Store中，一个Store对应HBase表中的一个列族
  
  MemStore
  
  内存存储，用来保存当前的数据操作，当数据保存在WAL中之后，RegionServer会在内存中存储键值对
  
  HFile
  
  磁盘上保存原始数据的实际的物理文件，是实际的存储文件。StoreFile是以HFile的形式存储在HDFS的
  
  HBase安装
  
  后期会专门写大数据平台各类组件的具体安装笔记
3. HBase的Shell操作
  
  进入HBase客户端命令行（任意节点均可）
  
  bin/hbase shell
  
  查看帮助命令(命令需要在进入客户端之后才能生效)
  
  help
  
  查看当前数据库中的所有表
  
  list
  
  创建表
  
  create 'student','info' (创建表时必须指定列族)
  
  插入数据到表中
  
  put 'student','1001','info:sex','male' put 'student','1001','info:age','18' put 'student','1002','info:name','Tom' put 'student','1002','info:sex','female' put 'student','1002','info:age','20'
  
  扫描查看表数据
  
  scan 'student' scan 'student',{STARRROW => '1001',STOPROW => '1002'} scan 'student',{STARTROW => '1001'}
  
  查看表结构
  
  describe 'student'
  
  更新指定字段的数据
  
  put 'student','1001','info:name','Nick' put 'student','1001','info:age','30'
  
  查看“指定行”或“指定列族:列”的数据
  
  get 'student','1001' get 'student','1001','info:name'
  
  统计表数据行数
  
  count 'student'
  
  删除数据
  
  (删除某个rowkey的全部数据)deleteall 'student','1001' (删除某个rowkey的某一列数据)delete 'student','1002','info:sex'
  
  清空表数据(表结构仍然保留)
  
  truncate 'student' （注：清空表的操作顺序是先disable,后truncate）
  
  删除表
  
  第一步:disable 'student' 第二步:drop 'student'
  
  变更表信息
  
  将info列族中的数据存放3个版本 alter 'student',{NAME=>'info',VERSIONS=>3} get 'student','1001',{COLUMN=>'info:name',VERSIONS=>3}
HBase数据结构
1. RowKey — 行键
  
  Rowkey用来检索记录的主键，访问HBase表中的行只有三种方式
  
  通个单个RowKey访问
  
  通过RowKey的range
  
  全表扫描
  
  RowKey行键可以是任意字符串（最大长度是64KB，实际应用一般为10-100bytes）在HBase内部，Rowkey保存为字节数组。在存储的时候，数据按照RowKey的字典序排序存储。设计RowKey时，要充分利用排序存储这个特性，把经常读取的行存储在一起（位置相关性）
2. Column Family — 列族
  
  HBase表中的每个列都归属于某一个列族。列族是表的schema的一部分（而列不是），必须在使用表之前定义。列名都以列族作为前缀，比如course:math course:english 是属于course这个列族的
3. Time Stamp
  
  HBase中通过RowKey和Column确定的一个存储单元称为cell。cell中的数据是没有类型的，全部以字节数组的形式存储。每个cell都保存着同一份数据的多个版本，版本通过通过时间戳来索引。时间戳的类型是64位整型。时间戳可以有HBase(在数据写入时自动)赋值。此时的时间戳是精确到毫秒的系统当前时间。时间戳也可以由客户显示赋值。如果因果那个程序要避免数据版本冲突，必须自己生成具有唯一性的时间戳。每个cell中，不同版本的数据按照时间倒序排序，最新的数据排在最前面
  
  为了避免数据存在过多版本造成的管理负担，HBase提供两种数据版本回收方式
  
  保存数据的最后N个版本
  
  保存最近一段时间内的版本
4. 命名空间
  
  命名空间的结构
  
  Table:所有的表都是命名空间的成员，表必须属于某个命名空间，如果没有指定，则表在默认的命令空间中
  
  RegionServer Group:一个命名空间包含默认的RegionServer Group
  
  Permission:权限，命名空间允许自定义访问控制列表（创建表，读表，删除，更新等）
  
  Quota:限额，强制一个命名空间能包含的region的数量
There's no losing only learning
There's no falture only opportunities
There's no problem only solutions
查看全文

相关阅读:
第四章 springboot + swagger
第三章 springboot + jedisCluster
第二章第二个spring-boot程序
 mac下的一些命令
 Redis(二十一)：Redis性能问题排查解决手册（转）
TreeMap升序|降序排列和按照value进行排序
 关于java集合类TreeMap的理解(转)
Redis(二十)：Redis数据过期和淘汰策略详解(转)
Redis(十九)：Redis压力测试工具benchmark
try、finally代码块有无return时的执行顺序

原文地址：https://www.cnblogs.com/bytAya/p/hbase01_20190716.html

HBase学习笔记一

HBase简介

HBase概念

HBase特点

HBase架构

组件介绍

HBase中的角色

HBase安装

HBase的Shell操作

HBase数据结构