hbase实践之数据读取详解

zoukankan html css js c++ java

hbase实践之数据读取详解
hbase基本存储组织结构与数据读取组织结构对比

Segment是Hbase2.0的概念，MemStore由一个可写的Segment，以及一个或多个不可写的Segments构成。故hbase 1.*版本中的MemstoreScanner变成了SegmentScanner。

对应关系表

Hbase存储结构 Hbase Scanner体系

Region RegionScanner

Store StoreScanner

Memstore SegmentScanner(memstore级别)

Storefile StorefileScanner

hbase scanner体系与hbase存储组织结构是一一对应的。

hbase写入数据的特点
1. flush 写磁盘时，不同ColumnFamily生成不同Hfile。
2. 数据采用追加方式写入，在major compaction才发生数据删除或失效。数据的多个版本都会记录在hfile，数据删除也会生成一条记录，只是keytype标记为delete。
数据读取过程详解

数据真正的读取过程只发生在StorefileScanner，其他scanner只是帮助缩小查找范围，类似于多级索引体系。

storefilescanner的读取抽象过程如图所示：
1. 组织priorityqueue: 将包含rowkey的hfile文件组织成一个最小堆。最小堆的第一个元素一般是Memstore，从SegmentScanner(MemstoreScanner)开始。
2. 根据过滤条件：Rowkey、ColumnFamily、Column等，从当前Scanner依次读取cell（keyvalue）数据；
3. 当前Scanner数据扫描结束，扫描下一个Scanner,当前Scanner放到堆尾。
StoreFileScanner中的数据读取细节

要想知道读取细节，首先需要了解HFile的结构：

数据根据索引Root Index Block、Leaf Index Block，定位DataBlock。在64k大小的DataBlock中，可以根据二分查找等算法，定位到数据。

参考文献
查看全文

相关阅读:
C# EntityFramework 入门之 Code First
import cx_Oracle ImportError: DLL load failed: 找不到指定的模块。
unnitest用例按顺序执行方法总结
 Grid + selenium分布式执行自动化测试
 selenium自动化测试工具的使用总结
 使用SQLAlchemy操作已存在的数据库的表
 map()函数 lambda函数 zip()函数的使用
 使用SQLAlchemy操作MySQL以及执行原生的sql语句
 python创建文件/文件夹,判断文件/文件夹是否存在以及os.path模块的使用
 python函数的四种参数定义方式和传递方式

原文地址：https://www.cnblogs.com/small-k/p/10017019.html

Hbase存储结构	Hbase Scanner体系
Region	RegionScanner
Store	StoreScanner
Memstore	SegmentScanner(memstore级别)
Storefile	StorefileScanner

hbase实践之数据读取详解

hbase基本存储组织结构与数据读取组织结构对比

hbase写入数据的特点

数据读取过程详解

StoreFileScanner中的数据读取细节

参考文献