Hbase客户端API基础小结笔记(未完)

zoukankan html css js c++ java

Hbase客户端API基础小结笔记(未完)
客户端API：基础

　　HBase的主要客户端接口是由org.apache.hadoop.hbase.client包中的HTable类提供的，通过这个类，用户可以完成向HBase存储和检索数据，以及删除无效数据之类的操作。

　　通常在正常负载下和常规操作下，客户端读操作不会受到其他修改数据的客户端影响，因为它们之间的冲突可以忽略不计。但是，当允许客户端需要同时修改同一行数据时就会产生问题。所以，用户应当尽量使用批量处理(batch)更新来减少单独操作同一行数据的次数。 (如果是实时系统，则需要加上synchronized关键字）

　　创建HTable实例是有代价的。每个实例都需要扫描.META表，以检查该表是否存在、是否可用，此外还要执行一些其他操作，这些检查和操作导致实例调用非常耗时，因此推荐用户只创建一次HTable实例（就好比在Hadoop的setup中创建一次实例，供后续mapreduce调用，最终在cleanup中close)

向HBase插入数据的example：
package HBaseTest; import org.apache.hadoop.conf.Configuration; import org.apache.hadoop.hbase.HBaseConfiguration; import org.apache.hadoop.hbase.client.Get; import org.apache.hadoop.hbase.client.HTable; import org.apache.hadoop.hbase.client.Put; import org.apache.hadoop.hbase.client.Result; import org.apache.hadoop.hbase.util.Bytes; import java.io.IOException; /** * Created by root on 5/27/16. */ public class PutExample { public static void main(String[] args){ //加载配置文件 Configuration conf = HBaseConfiguration.create(); HTable table = null; try { //创建HTable对象 table = new HTable(conf,"practice"); //设置rowkey Put put = new Put(Bytes.toBytes("rowKeyNum1")); //设置要写入的列族，列与value
　　　　　　　put.add(Bytes.toBytes("f1"),Bytes.toBytes("cardNo"),Bytes.toBytes("123456789")); table.put(put); //获取rowkey Get result = new Get("rowKeyNum1".getBytes()); //将获取到的值放入Hbase的Result中 Result rs = table.get(result); //获取指定列族的列的value String cardNo = Bytes.toString(rs.getValue("f1".getBytes(),"cardNo".getBytes())); System.out.println("---cardNo---" + cardNo); } catch (IOException e) { e.printStackTrace(); } } }
　　数据和坐标都是以Java的byte[]形式存储的，即以字节数组的形式存储的。使用这种底层存储类型的目的是，允许存储任意类型的数据，并且可以有效地只存储所需的字节，这保证了最少的内部数据结构开销。另一个原因是，每一个字节数组都有一个offerset参数和一个length参数，它们允许用户提交一个已存在的字节数组，并进行效率很高的字节级别的操作。

客户端的写缓冲区

　　每一个put操作实际上都是一个RPC操作，它将客户端数据传送到服务器然后返回。这只适合小数据量的操作，如果有个应用程序需要每秒存储上千行数据到HBase表中，这样的处理就不太合适了。（一般情况下，在LAN网络中大概要花1毫秒的时间，这意味着1秒钟的时间内只能完成1000次RPC往返响应。）

　　HBase的API配备了一个客户端的写缓冲区(write buffer)，缓冲区负责收集put操作，然后调用RPC操作一次性将put送往服务器。（默认情况下，客户端缓冲区是禁用的，可以通过将自动刷写autoflush设置为false来激活缓冲区)
HTable table = new HTable(conf,"practice"); table.setAutoFlush(false);
　　客户端写缓冲区的大小默认是2MB，如果需要存储较大的数据，为了避免每次创建实例都要修改缓冲区大小，可以在hbase-site.xml配置文件中添加一个较大的预设值。
<property> <name>hbase.client.write.buffer</name> <value>20971520</value> </property>
　　这会将缓冲区大小增肌到20MB，大小可以根据数据量等参考设置。

　　强制刷写数据可以调用table.flushCommits();直接产生一个RPC请求。

　　注意：

　　客户端缓冲区是一个简单的保存在客户端进程内存中的列表，用户需要注意不能在运行时终止程序，如果发生这种情况，哪些尚未被刷写的数据就会丢失，服务器将无法收到数据，因此这些数据没有任何副本可以用来做数据恢复。

　　另外注意，一个更大的缓冲区需要客户端和服务器端消耗更多的内存，因此服务器端也需要先将数据写入到服务器端消耗更多的内存，因为服务器端也需要先将数据写入到服务器的写缓冲区中，然后再处理它，估算服务器端内存的占用可使用hbase.client.write.buffer 乘以 hbase.regionserver.handle.count 乘以region服务器的数量。

　　如果用户只存储大单元格，客户端缓冲区的作用就不大了，因为传输时间占用了大部分的请求时间。

参考：《HBase权威指南》
查看全文

相关阅读:
在Ubuntu_meta 16.04中设置默认Python3.5的命令
 树莓派安装中文输入法Fcitx及Google拼音输入法
 树莓派安装ubuntu_meta并配置开发环境
 业务代表模式
 MVC 模式
 访问者模式
 模板模式
 Linux进程调度与抢占
 IP地址
 策略模式

原文地址：https://www.cnblogs.com/yangsy0915/p/5536669.html