摘要
HBase只提供了一个基于字典排序的主键索引,在查询中你只能通过行键查询或扫描全表来获取数据,使用Phoenix提供的二级索引,可以避免在查询数据时全表扫描,提高查过性能,提升查询效率
测试环境:
数据约370万
数据格式:(数据来自搜狗实验室)
三节点集群(一主两从,hadoop和HBase属同一集群)
目录
- Covered Indexes(覆盖索引)
- Functional indexes(函数索引)
- Global indexes(全局索引)
- Local indexes(本地索引)
索引类型
Covered Indexes(覆盖索引)
覆盖索引:只需要通过索引就能返回所要查询的数据,所以索引的列必须包含所需查询的列(SELECT的列和WHRER的列)
不带索引的查询:
查询USERID= 9bb8b2af925864bb275b840c578df3c3的KEYWORD和URL
EXPLAIN(语句的执行逻辑及计划):
(由图看知先进行了全表扫描再通过过滤器来筛选出目标数据,显示这种查询方式效率是很低的)
查询时间:(平均在38s~41s)
带索引:
(创建基于USERID的覆盖索引并绑定KEYWORD列上的数据)
CREATE INDEX COVERINDEX ON CSVTANLES(USERID) INCLUDE(KEYWORD)
当你要通过UERID来查询KEYWORD时就直接可以从索引上取回数据而无需先得到索引再去数据表中查询数据
查询语句:
SECECT KEYWORD FROM CSVTABLES WHERE USERID='9bb8b2af925864bb275b840c578df3c3'
EXPLAIN:
(使用了COVERINDEX索引使用SCAN在索引区间内查询)
查询用时(平均在49ms~70ms):
注意:SELECT所带的字段必须包含在覆盖索引内
Functional indexes(函数索引)
从Phoeinx4.3以上就支持函数索引,其索引不局限于列,可以合适任意的表达式来创建索引,当在查询时用到了这些表达式时就直接返回表达式结果
例2:使用UPPER函数创建函数索引使查询出的USERID和URL里字母都是大写的
创建函数索引
CREATE INDEX UPPERINDEX ON CSVTABLES (UPPER(USERID || ' ' || URL))
查询:
Global indexes(全局索引)
全局索引适用于多读少写的场景,在写操作上会给性能带来极大的开销,因为所有的更新和写操作(DELETE,UPSERT VALUES和UPSERT SELECT)都会引起索引的更新,在读数据时,Phoenix将通过索引表来达到快速查询的目的。
在用使用全局索引之前需要在每个RegionServer上的hbase-site.xml添加如下属性:
<property> <name>hbase.regionserver.wal.codec</name> <value>org.apache.hadoop.hbase.regionserver.wal.IndexedWALEditCodec</value> </property>
在USERID字段上创建索引
CREATE INDEX USERIDINDEX ON CSVTABLES(USERID);
以下查询会用到索引
SELECT USERID FROM CSVTABLES WHERE USERID='9bb8b2af925864bb275b840c578df3c3';
SELECT USERID,ROWKEY CSVTABLES WHERE USERID='9bb8b2af925864bb275b840c578df3c3';
以下查询不会用到索引
查询语句1.
SELECT USERID,KEYWORD FROM CSVTABLES WHERE USERID='9bb8b2af925864bb275b840c578df3c3'
查询语句2.
(同理,KEYWORD不是索引字段)
SELECT KEYWORD FROM CSVTABLES WHERE USERID='9bb8b2af925864bb275b840c578df3c3'
使用以下三种方式,执行查询语句2时也将用到索引.
1.创建包含字段KEYWORD的覆盖索引
CREATE INDEX MYINDEX ON CSVTABLE(USERID) INCLUDE(KEYWORD);
2.强制使用索引
SELECT /*+ INDEX(CSVTABLES,MYINDEX) */ KEYWORD FROM CSVTABLES WHERE USERID='9bb8b2af925864bb275b840c578df3c3';
如果KEYWORD是索引字段,那么就会直接从索引表中查询
如果KEYWORD不是索引字段,那么将会进行全表扫描,所以当用户明确知道表中数据较少且符合检索条件时才适用,此时的性能才是最佳的。
3.使用本地索引
CREATE LOCAL INDEX MYINDEX ON CSVTABLES(KEYWORD);
Local indexes(本地索引)
本地索引适用于写多读少,空间有限的场景,和全局索引一样,Phoneix在查询时会自动选择是否使用本地索引,使用本地索引,为避免进行写操作所带来的网络开销,索引数据和表数据都存放在相同的服务器中,当查询的字段不完全是索引字段时本地索引也会被使用,与全局索引不同的是,所有的本地索引都单独存储在同一张共享表中,由于无法预先确定region的位置,所以在读取数据时会检查每个region上的数据因而带来一定性能开销。
在使用本地索引需要在Master的hbase-site.xml添加以下属性
<property>
<name>hbase.master.loadbalancer.class</name>
<value>org.apache.phoenix.hbase.index.balancer.IndexLoadBalancer</value>
</property>
<property>
<name>hbase.coprocessor.master.classes</name>
<value>org.apache.phoenix.hbase.index.master.IndexMasterObserver</value>
</property>
Phoeinx4.3以上为支持在数据region合并时本地索引region也能进行合并需要在每个region servers中添加以下属性
<property> <name>hbase.coprocessor.regionserver.classes</name> <value>org.apache.hadoop.hbase.regionserver.LocalIndexMerger</value> </property>
创建本地索引
CREATE LOCAL INDEX MYINDEX ON CSVTABLES(USERID);
查询
CREATE LOCAL INDEX MYINDEX ON CSVTABLES(USERID);
整个查询只花了0.19s
删除索引
CREATE LOCAL INDEX MYINDEX ON CSVTABLES(KEYWORD);
如果表中的一个索引列被删除,则索引也将被自动删除,如果删除的是
覆盖索引上的列,则此列将从覆盖索引中被自动删除。
索引的优化
以下属性都必须在各节点上的hbase-site.xml中设置为true才能起效,
1.index.builder.threads.max:(默认值:10)
根据主表的更新来确定更新索引表的线程数
2.index.builder.threads.keepalivetime:(默认值:60)
builder线程池中线程的存活时间
3.index.write.threads.max:(默认值:10)
更新索引表时所能使用的线程数(即同时能更新多少张索引表),其数量最好与索引表的数量一致
4.index.write.threads.keepalivetime(默认值:60)
更新索引表的线程所能存活的时间
5.hbase.htable.threads.max(默认值:2147483647)
每张索引表所能使用的线程(即在一张索引表中同时可以有多少线程对其进行写入更新),增加此值可以提高更新索引的并发量
6.hbase.htable.threads.keepalivetime(默认值:60)
索引表上更新索引的线程的存活时间
7.index.tablefactoy.cache.size(默认值:10)
允许缓存的索引表的数量
增加此值,可以在更新索引表时不用每次都去重复的创建htable,由于是缓存在内存中,所以其值越大,其需要的内存越多