Hbase表格设计

zoukankan html css js c++ java

Hbase表格设计

Rowkey设计

Region: 基于RowKey的分区，可理解成MySQL的水平切分。

每个Region Server就是Hadoop集群中一台机器上的一个进程。

比如我们的有1-300号的RowKey, 那么1-100号RowKey的行被分配到Region Server 1上，同样，101-200号分配到Region Server 2上， 201-300号分配到Region Server 3上。

在内存模型中，我们说RowKey保证了相邻RowKey的记录被连续地写入了磁盘。在这里，我们发现，RowKey决定了行操作（增，删，改，查）会被交与哪台Region Server操作。

热冷数据

让我们假设一下，如果我们的RowKey以记录的TimeStamp起始，从内存模型上说，这很合理，因为我们可能面临大量的用户流水记录查询，查询的条件会设置一个时间片段，我们希望一次性从磁盘中读取这些流水记录，从而避免频繁的磁盘寻道操作。

但是再另一方面，用户的流水记录查询会很频繁的出现“截至到至今”的查询条件，依照我们上面的进程模型，Region Server 3一定会被分配到（因为最近的记录排在最后），这样就可能造成Region Server 3的“过热”，而Region Server 1“过冷”的情况。

总结

基于以上的模型，大致的理解是：

1. RowKey决定了行操作任务进入RegionServer的数量，我们应该尽量的让一次操作调用更多的Region Server，已达到分布式的目的。

2. RowKey决定了查询读取连续磁盘块的数量，最理想的情况是一次查询，在每个Region Server上，只读取一个磁盘块。

3. ColumnFamily决定了一次查询需要读取的文件数（不同的文件不仅意味着分散的磁盘块，还意味着多次的文件打开关闭操作）。我们应尽量将希望查询的结果集合并到一个ColumnFamily中。同时尽量去除该ColumnFamily中不需要的列。

4. HBase官方建议尽量的减少ColumnFamily的数量。

查看全文

相关阅读:
C语言 gets
Android、iOS和Windows Phone中的推送技术
 Android的init过程（二）：初始化语言（init.rc）解析
 Java向前引用容易出错的地方
 kears库中对样本图片resize的原理（target_size）
gis python地理处理工具案例教程-字段多值批量替换综合案例
 arcpy地理处理工具案例教程-批量字段值替换
 arcpy地理处理工具案例教程-将满足条件的要素的字段值进行替换
 Keras split train test set when using ImageDataGenerator
坐标转换7参数计算工具——arcgis 地理处理工具案例教程

原文地址：https://www.cnblogs.com/dummyly/p/10099426.html

Rowkey设计

热冷数据

总结