zoukankan      html  css  js  c++  java
  • 使用Hive读取Hbase中的数据

    原地址:http://victorzhzh.iteye.com/blog/972406


    第一步,启动hadoop,命令:./start-all.sh

    第二步,启动hive,命令:

    ./hive --auxpath /home/dream-victor/hive-0.6.0/lib/hive_hbase-handler.jar,/home/dream-victor/hive-0.6.0/lib/hbase-0.20.3.jar,/home/dream-victor/hive-0.6.0/lib/zookeeper-3.2.2.jar -hiveconf hbase.master=127.0.0.1:60000

    这里,-hiveconf hbase.master=指向自己在hbase-site.xml中hbase.master的值

    第三步,启动hbase,命令:./start-hbase.sh

    第四步,建立关联表,这里我们要查询的表在hbase中已经存在所以,使用CREATE EXTERNAL TABLE来建立,如下:

    Java代码  收藏代码
    1. CREATE EXTERNAL TABLE hbase_table_2(key string, value string)   
    2. STORED BY 'org.apache.hadoop.hive.hbase.HBaseStorageHandler'   
    3. WITH SERDEPROPERTIES ("hbase.columns.mapping" = "data:1")   
    4. TBLPROPERTIES("hbase.table.name" = "test");    

     hbase.columns.mapping指向对应的列族;多列时,data:1,data:2;多列族时,data1:1,data2:1;

     hbase.table.name指向对应的表;

     hbase_table_2(key string, value string),这个是关联表

    我们看一下HBase中要查询的表的结构,

    Java代码  收藏代码
    1. hbase(main):001:0> describe 'test'  
    2. DESCRIPTION                                                             ENABLED                                 
    3.  {NAME => 'test', FAMILIES => [{NAME => 'data', COMPRESSION => 'NONE',  true                                    
    4.  VERSIONS => '3', TTL => '2147483647', BLOCKSIZE => '65536', IN_MEMORY                                          
    5.  => 'false', BLOCKCACHE => 'true'}]}                                                                            
    6. 1 row(s) in 0.0810 seconds  
    7. hbase(main):002:0>  

     在看一下表中的数据,

    Java代码  收藏代码
    1. hbase(main):002:0> scan 'test'  
    2. ROW                          COLUMN+CELL                                                                        
    3.  row1                        column=data:1, timestamp=1300847098583, value=value1                               
    4.  row12                       column=data:1, timestamp=1300849056637, value=value3                               
    5.  row2                        column=data:2, timestamp=1300847106880, value=value2                               
    6. 3 row(s) in 0.0160 seconds  
    7. hbase(main):003:0>   

     列族:data:1、data:2两个

     Key:row1、row12、row2

     value:value1、value3、value2

     hbase_table_2(key string, value string)中对应的test表中的row,value字段对应的是test表中的value

    OK,现在可以来看看查询结果了,

    我们在hive命令行中先查看一下hbase_table_2,

    Java代码  收藏代码
    1. hive> select * from hbase_table_2;  
    2. OK  
    3. row1    value1  
    4. row12   value3  
    5. Time taken: 0.197 seconds  
    6. hive>  

     对比一下test表中的列族为data:1的数据,

    Java代码  收藏代码
    1. row1                        column=data:1, timestamp=1300847098583, value=value1                               
    2. row12                       column=data:1, timestamp=1300849056637, value=value3    

    和查询结果相符,没问题,然后我们在hbase中在给列族data:1新增一条数据,

    Java代码  收藏代码
    1. hbase(main):003:0> put 'test','row13','data:1','value4'  
    2. 0 row(s) in 0.0050 seconds  
    3. hbase(main):004:0>  

     再查看hbase_table_2表,

    Java代码  收藏代码
    1. hive> select * from hbase_table_2;  
    2. OK  
    3. row1    value1  
    4. row12   value3  
    5. row13   value4  
    6. Time taken: 0.165 seconds  
    7. hive>   

     新增数据value4出现了,说明可以通过hbase_table_2查询hbase的test表

    下面我们来查询一下test表中value值为value3的数据,

    Java代码  收藏代码
    1. hive> select * From hbase_table_2 where value='value3';  
    2. Total MapReduce jobs = 1  
    3. Launching Job 1 out of 1  
    4. Number of reduce tasks is set to 0 since there's no reduce operator  
    5. Starting Job = job_201103231022_0001, Tracking URL = http://localhost:50030/jobdetails.jsp?jobid=job_201103231022_0001  
    6. Kill Command = /home/dream-victor/hadoop-0.20.2/bin/hadoop job  -Dmapred.job.tracker=localhost:9001 -kill job_201103231022_0001  
    7. 2011-03-23 11:23:27,807 Stage-1 map = 0%,  reduce = 0%  
    8. 2011-03-23 11:23:30,824 Stage-1 map = 100%,  reduce = 0%  
    9. 2011-03-23 11:23:33,854 Stage-1 map = 100%,  reduce = 100%  
    10. Ended Job = job_201103231022_0001  
    11. OK  
    12. row12   value3  
    13. Time taken: 11.929 seconds  
    14. hive>  

     和hbase的test表对比一下,

    Java代码  收藏代码
    1. row12                       column=data:1, timestamp=1300849056637, value=value3  

     OK,这样我们就可以使用SQL来对hbase进行查询了。

     

    以上只是在命令行里左对应的查询,我们的目的是使用JAVA代码来查询出有用的数据,其实这个也很简单,

    首先,启动Hive的命令有点变化,使用如下命令:

    Java代码  收藏代码
    1. ./hive --service hiveserver  

     这里我们默认使用嵌入的Derby数据库,这里可以在hive-site.xml文件中查看到:

    Java代码  收藏代码
    1. <property>  
    2.   <name>javax.jdo.option.ConnectionURL</name>  
    3.   <value>jdbc:derby:;databaseName=metastore_db;create=true</value>//指定了数据库默认的名字和地址  
    4. </property>  
    5.   
    6. <property>  
    7.   <name>javax.jdo.option.ConnectionDriverName</name>  
    8.   <value>org.apache.derby.jdbc.EmbeddedDriver</value>  
    9. </property>  

     在此,数据库链接的URL可以使用默认的:jdbc:hive://localhost:10000/default

     有了上面的准备,下面我们就可以使用JAVA代码来读取数据了,如下:

    Java代码  收藏代码
    1. public class HiveTest extends TestCase {  
    2.   
    3.     private static String driverName = "org.apache.hadoop.hive.jdbc.HiveDriver";  
    4.     private Connection con;  
    5.     private boolean standAloneServer = true;  
    6.   
    7.     public void testSelect() throws SQLException {  
    8.         Statement stmt = con.createStatement();  
    9.         ResultSet res = stmt.executeQuery("select * from hbase_table_2");  
    10.         boolean moreRow = res.next();  
    11.         while (moreRow) {  
    12.             System.out.println(res.getString(1)+","+res.getString(2));  
    13.             moreRow = res.next();  
    14.         }  
    15.     }  
    16.   
    17.     @Override  
    18.     protected void setUp() throws Exception {  
    19.         super.setUp();  
    20.         Class.forName(driverName);  
    21.         con = DriverManager.getConnection(  
    22.                 "jdbc:hive://localhost:10000/default""""");  
    23.     }  
    24. }  

     结果,

    Java代码  收藏代码
    1. row1,value1  
    2. row12,value3  
    3. row13,value4  
    4. row14,test  

     查看一下hbase中的结果,

    Java代码  收藏代码
    1. ROW                          COLUMN+CELL                                                                        
    2.  row1                        column=data:1, timestamp=1300847098583, value=value1                               
    3.  row12                       column=data:1, timestamp=1300849056637, value=value3                               
    4.  row13                       column=data:1, timestamp=1300850443699, value=value4                               
    5.  row14                       column=data:1, timestamp=1300867550502, value=test  

     OK,完美了,不过还是希望这样的需求少一点,毕竟Hbase产生的初衷不是为了支持结构化查询。

  • 相关阅读:
    自己写的SqlHelper
    宿叶网思路
    phpMyAdmin教程 之 创建新用户/导入/导出数据库
    什么是主机空间?干什么用?
    转 sql注入
    xUtils
    仿360状态,类流量监控桌面浮动显示
    在Yii Framework中利用PHPMailer发送邮件(2011-06-02 14:06:23)
    MD5类库(hex_md5)
    MYSQL的随机查询的实现方法
  • 原文地址:https://www.cnblogs.com/java20130722/p/3206933.html
Copyright © 2011-2022 走看看