HBase 笔记(8) 架构

zoukankan html css js c++ java

HBase 笔记(8) 架构

1、入门

面向列族：物理上所有列族成员都一起存放在文件系统中，调优和存储都是在列族这个层次上进行，最好所有列族成员都有相同的访问模式。

-ROOT-表：   包含.META. 表的区域列表。

.META. 表：   包含所有用户空间区域的列表，以区域名为键。

区域名：   表名+起始行+创建时间+MD5，例子：TestTable, xyz,1279729913622,1sfsf4r23sfsefsdfsdfssg.

Zookeeper 查找过程： 3次远程过程：-ROOT- 表 => .META.表 => RegionServer 。为了节省，会采取缓存，直接访问RegionServer。

RegionServer 写过程：先写入日志WAL，再写入内存memstorem，最后flush到文件

RegionServer 奔溃恢复：读取HDFS上的WAL，对WAL分割，根据WAL，将region恢复。

RegionServer 读取：先读memstore, 找不到再读文件。

Region 合并与分割：

2、B+树与LSM树

B+树：一个动态、多层并有上下界的索引，叶节点相互连接并且按主键有序，扫描时候避免了耗时的遍历树操作。

B+树特点：利用了存储的随机查找能力。在没有太多修改的时候，性能表现较好；若修改很多，要保证查询能在有限时间内完成，则要求执行高代价的优化操作；无法确定一次查询需要的磁盘寻道次数。

LSM树：输入数据首先存在日志文件中，文件内数据完全有序；数据多次修改，且内存文件空间逐渐占满，LSM将有序的键-记录写到磁盘中，同时创建新的数据储存文件；储存文件所有节点都是满的并按页存储；后台线程自动将小文件聚合成大文件；查询时候先查内存，再查磁盘。

LSM树特点：利用了存储的连续传输能力。使用日志文件和内存存储来将随机写转换为顺序写，能保证稳定的数据插入速率；成本透明，即假如有N个存储文件，一次访问最多需要N次磁盘寻道。

3、HBase存储

每个 HRegionServe 有1个 HLog；

每个 HRegionServe 有M个 HRegion；

每个 HRegion 有N个Store，Store 对应列族；

每个 Store 有1个 MemStore，故MemStore也对应于列族；

每个 Store 有L个 StoreFile，对应于封装好的 HFile；

总计：每台HRegionServe 有1个HLOG，M个HRegion，M*N 个Store，M*N个MemStore，M*N*L个StoreFile (HFile)

HBase 写过程：先写到WAL （HLOG，是标准的Hadoop SequenceFile），再放入MemStore，MemStore满了后刷写到HFile。

Minor 合并：负责重写最后几个生成的文件到一个更大的文件中。

Major 合并：把所有文件压缩成一个单独的文件。

HFile 格式：基于Hadoop 的 TFile；默认64K；包括Data块、Meta块、File Info块、Data Index块、Meta Index块、Trailer 块；每个块包括一个magic 头部、若干KeyValue 实例。使用命令 hbase org.apache.hadoop.hbase.io.hfile.HFile 可以查看HFile 信息。

KeyValue 格式：KeyLength、ValueLength、RowLength、Row、ColumnFamilyLength、ColumnFamily、ColumnQualifier、TimeStamp、Value

4、WAL

1个 HRegionServer 中，所有 Region 共享 1个HLog。所有的修改都先保存到 WAL，再传递给 memstore。

HLog 可以通过使用序列号来追踪修改。

5、读取过程

6、Region 查找

(1). 询问ZooKeeper，-ROOT- 表在哪一台RegionServer 上，得到RegionServer ROOT

(2). 询问RegionServer ROOT 的-ROOT-表，含有户表数据 tableA.row1 的 .META.表在哪些RegionServer上，得到RegionServer META

(3). 询问RegionServer META 的.Meta. 表，含有户表数据 tableA, row1 在哪一个RegionServer上，得到RegionServer Data

(4). 从RegionServer Data 的相应 Region 获得数据

一般(1)、(2)缓存，只要执行 (3)、(4)即可

如果直接执行(3)失败，则执行 (2)、(3)、(4)，总共步骤是(3)、(2)、(3)、(4)

如果以上方法执行(2)失败，则再执行(1)、(2)、(3)，总共步骤是(3)、(2)、(1)、(2) 、(3)、(4)

Region 的生命周期：Offline、Pending Open、Opening、Open、Pending Close、Closing、Closed、Splitting、Split

7、ZooKeeper

目录/hbase 主要节点：

meta-region-server, backup-masters, table, draining, region-in-transition, running, table-lock, master, namespace, hbaseid, online-snapshot, replication, splitWAL, recovering-regions, rs

8、集群复制

查看全文

相关阅读:
Danny_Su的devexpress 9.3.3的注册插件在vs2010RC中无法使用的解决办法
 EntitySpaces2009中的关系
 EntitySpaces2009的开发文档地址
 EntitySpaces2009支持事务
 EntitySpaces2009中连接Access的连接设置
 基于matlab的视频测速处理
 图像拼接与融合
 某图像分析系统
 黑子数与开盘指数相关性分析
 另类的图像处理

原文地址：https://www.cnblogs.com/leeeee/p/7276343.html