zoukankan      html  css  js  c++  java
  • [转] hive0.14-insert、update、delete操作测试

    FROM : http://blog.csdn.net/hi_box/article/details/40820341

    首先用最普通的建表语句建一个表:

    [java] view plaincopy
     
    1. hive>create table test(id int,name string)row format delimited fields terminated by ',';  

    测试insert:

    [java] view plaincopy
     
    1. insert into table test values (1,'row1'),(2,'row2');  

    结果报错:

    [java] view plaincopy
     
    1. java.io.FileNotFoundException: File does not exist: hdfs://127.0.0.1:9000/home/hadoop/git/hive/packaging/target/apache-hive-0.14.0-SNAPSHOT-bin/  
    2. apache-hive-0.14.0-SNAPSHOT-bin/lib/curator-client-2.6.0.jar  
    3.     at org.apache.hadoop.hdfs.DistributedFileSystem$17.doCall(DistributedFileSystem.java:1128)  
    4.     at org.apache.hadoop.hdfs.DistributedFileSystem$17.doCall(DistributedFileSystem.java:1120)  
    5.     at org.apache.hadoop.fs.FileSystemLinkResolver.resolve(FileSystemLinkResolver.java:81)  
    6.     at org.apache.hadoop.hdfs.DistributedFileSystem.getFileStatus(DistributedFileSystem.java:1120)  
    7.     at org.apache.hadoop.mapreduce.filecache.ClientDistributedCacheManager.getFileStatus(ClientDistributedCacheManager.java:288)  
    8.     at org.apache.hadoop.mapreduce.filecache.ClientDistributedCacheManager.getFileStatus(ClientDistributedCacheManager.java:224)  
    9.     at org.apache.hadoop.mapreduce.filecache.ClientDistributedCacheManager.determineTimestamps(ClientDistributedCacheManager.java:99)  
    10.     at org.apache.hadoop.mapreduce.filecache.ClientDistributedCacheManager.determineTimestampsAndCacheVisibilities(ClientDistributedCacheManager.java:57)  
    11.     at org.apache.hadoop.mapreduce.JobSubmitter.copyAndConfigureFiles(JobSubmitter.java:265)  
    12.     at org.apache.hadoop.mapreduce.JobSubmitter.copyAndConfigureFiles(JobSubmitter.java:301)  
    13.     at org.apache.hadoop.mapreduce.JobSubmitter.submitJobInternal(JobSubmitter.java:389)  
    14.     at org.apache.hadoop.mapreduce.Job$10.run(Job.java:1285)  
    15.     at org.apache.hadoop.mapreduce.Job$10.run(Job.java:1282)  
    16.     at java.security.AccessController.doPrivileged(Native Method)  
    17.         ......  

    貌似往hdfs上找jar包了,小问题,直接把lib下的jar包上传到hdfs

    [java] view plaincopy
     
    1. hadoop fs -mkdir -p /home/hadoop/git/hive/packaging/target/apache-hive-0.14.0-SNAPSHOT-bin/apache-hive-0.14.0-SNAPSHOT-bin/lib/  
    2. hadoop fs -put $HIVE_HOME/lib/* /home/hadoop/git/hive/packaging/target/apache-hive-0.14.0-SNAPSHOT-bin/apache-hive-0.14.0-SNAPSHOT-bin/lib/  

    接着运行insert,没有问题,接下来测试delete

    [java] view plaincopy
     
    1. hive>delete from test where id = 1;  

    报错!:

    FAILED: SemanticException [Error 10294]: Attempt to do update or delete using transaction manager that does not support these operations.

    说是在使用的转换管理器不支持update跟delete操作。

    原来要支持update操作跟delete操作,必须额外再配置一些东西,见:

    https://cwiki.apache.org/confluence/display/Hive/Hive+Transactions#HiveTransactions-NewConfigurationParametersforTransactions

    根据提示配置hive-site.xml:

    [java] view plaincopy
     
    1. hive.support.concurrency – true  
    2. hive.enforce.bucketing – true  
    3. hive.exec.dynamic.partition.mode – nonstrict  
    4. hive.txn.manager – org.apache.hadoop.hive.ql.lockmgr.DbTxnManager  
    5. hive.compactor.initiator.on – true  
    6. hive.compactor.worker.threads – 1  

    配置完以为能够顺利运行了,谁知开始报下面这个错误:

    [java] view plaincopy
     
    1. FAILED: LockException [Error 10280]: Error communicating with the metastore  

    与元数据库出现了问题,修改log为DEBUG查看具体错误:

    [java] view plaincopy
     
    1. 2014-11-04 14:20:14,367 DEBUG [Thread-8]: txn.CompactionTxnHandler (CompactionTxnHandler.java:findReadyToClean(265)) - Going to execute query <select cq_id,   
    2. cq_database, cq_table, cq_partition, cq_type, cq_run_as from COMPACTION_QUEUE where cq_state = 'r'>  
    3. 2014-11-04 14:20:14,367 ERROR [Thread-8]: txn.CompactionTxnHandler (CompactionTxnHandler.java:findReadyToClean(285)) - Unable to select next element for cleaning,  
    4.  Table 'hive.COMPACTION_QUEUE' doesn't exist  
    5. 2014-11-04 14:20:14,367 DEBUG [Thread-8]: txn.CompactionTxnHandler (CompactionTxnHandler.java:findReadyToClean(287)) - Going to rollback  
    6. 2014-11-04 14:20:14,368 ERROR [Thread-8]: compactor.Cleaner (Cleaner.java:run(143)) - Caught an exception in the main loop of compactor cleaner, MetaException(message  
    7. :Unable to connect to transaction database com.mysql.jdbc.exceptions.jdbc4.MySQLSyntaxErrorException: Table 'hive.COMPACTION_QUEUE' doesn't exist  
    8.     at sun.reflect.GeneratedConstructorAccessor19.newInstance(Unknown Source)  
    9.     at sun.reflect.DelegatingConstructorAccessorImpl.newInstance(DelegatingConstructorAccessorImpl.java:45)  
    10.     at java.lang.reflect.Constructor.newInstance(Constructor.java:526)  
    11.     at com.mysql.jdbc.Util.handleNewInstance(Util.java:409)  

    在元数据库中找不到COMPACTION_QUEUE这个表,赶紧去mysql中查看,确实没有这个表。怎么会没有这个表呢?找了很久都没找到什么原因,查源码吧。

    在org.apache.hadoop.hive.metastore.txn下的TxnDbUtil类中找到了建表语句,顺藤摸瓜,找到了下面这个方法会调用建表语句:

    [java] view plaincopy
     
    1. private void checkQFileTestHack() {  
    2.     boolean hackOn = HiveConf.getBoolVar(conf, HiveConf.ConfVars.HIVE_IN_TEST) ||  
    3.         HiveConf.getBoolVar(conf, HiveConf.ConfVars.HIVE_IN_TEZ_TEST);  
    4.     if (hackOn) {  
    5.       LOG.info("Hacking in canned values for transaction manager");  
    6.       // Set up the transaction/locking db in the derby metastore  
    7.       TxnDbUtil.setConfValues(conf);  
    8.       try {  
    9.         TxnDbUtil.prepDb();  
    10.       } catch (Exception e) {  
    11.         // We may have already created the tables and thus don't need to redo it.  
    12.         if (!e.getMessage().contains("already exists")) {  
    13.           throw new RuntimeException("Unable to set up transaction database for" +  
    14.               " testing: " + e.getMessage());  
    15.         }  
    16.       }  
    17.     }  
    18.   }  

    什么意思呢,就是说要运行建表语句还有一个条件:HIVE_IN_TEST或者HIVE_IN_TEZ_TEST.只有在测试环境中才能用delete,update操作,也可以理解,毕竟还没有开发完全。

    终于找到原因,解决方法也很简单:在hive-site.xml中添加下面的配置:

    [java] view plaincopy
     
    1. <property>  
    2. <name>hive.in.test</name>  
    3. <value>true</value>  
    4. </property>  


    OK,再重新启动服务,再运行delete:

    [java] view plaincopy
     
    1. hive>delete from test where id = 1;  

    又报错:

    [java] view plaincopy
     
    1. FAILED: SemanticException [Error 10297]: Attempt to do update or delete on table default.test that does not use an AcidOutputFormat or is not bucketed  

    说是要进行delete操作的表test不是AcidOutputFormat或没有分桶。估计是要求输出是AcidOutputFormat然后必须分桶

    网上查到确实如此,而且目前只有ORCFileformat支持AcidOutputFormat,不仅如此建表时必须指定参数('transactional' = true)。感觉太麻烦了。。。。

    于是按照网上示例建表:

    [java] view plaincopy
     
    1. hive>create table test(id int ,name string )clustered by (id) into 2 buckets stored as orc TBLPROPERTIES('transactional'='true');  

    insert

    [java] view plaincopy
     
    1. hive>insert into table test values (1,'row1'),(2,'row2'),(3,'row3');  

    delete

    [java] view plaincopy
     
    1. hive>delete from test where id = 1;  
    
    

    update

    [java] view plaincopy
     
    1. hive>update test set name = 'Raj' where id = 2;  
    
    

    OK!全部顺利运行,不过貌似效率太低了,基本都要30s左右,估计应该可以优化,再研究研究

    最后还有个问题:show tables时报错:

    [java] view plaincopy
     
    1. hive> show tables;  
    2. OK  
    3. tab_name  
    4. Failed with exception java.io.IOException:java.lang.IllegalArgumentException: java.net.URISyntaxException: Relative path in absolute URI: fcitx-socket-:0  
    5. Time taken: 0.064 seconds  

    好像跟/tmp/下fcitx-socket-:0文件名有关,待解决。。。

  • 相关阅读:
    导入导出模块
    jQuery复习
    vue记录
    angular 初探之父子组件之间传递数据
    webpack
    go语言语法记录
    dom元素的滚动(如何实现点击展开更多功能)
    正则回忆录
    Attributes 和 properties区别和联系?
    显示 隐藏DIV的技巧
  • 原文地址:https://www.cnblogs.com/Athrun/p/4588452.html
Copyright © 2011-2022 走看看