zoukankan      html  css  js  c++  java
  • Hive UDF 实验1

    项目中使用的hive版本低于0.11,无法使用hive在0.11中新加的开窗分析函数。

    在项目中需要使用到row_number()函数的地方,有人写了udf来实现这个功能。

    new java project, BuildPath add hadoop-core..jar and hive-exec…jar。

    package myudf;
    
    import java.util.Arrays;
    
    import org.apache.hadoop.hive.ql.exec.UDF;
    
    public final class rank extends UDF {
    	private int counter;
    
    	private String[] _paras = null;
    
    	public int evaluate(String... paras) {
    		if (_paras != null && Arrays.equals(_paras, paras)) {
    			this.counter++;
    		} else {
    			this.counter = 1;
    			//_paras = paras;
                copy(paras); } return this.counter; }    
     void copy(String[] paras)
     {
       if(null == paras){_paras=null;}
        else {_paras= new String[paras.length];
        for(int i=0;i<paras.length;i++)
              _paras[i]=paras[i];
        }
     }

    }

    创建辅助表的数据文件:

    i=0;
    while [ $i -ne 1000 ]
    do 
    echo -e "$i" >>nums.txt;
    i=$(($i +1));
    done 

    这个数字辅助表在辅助生成数据时比较有用。

    在hive中创建nums表并加载刚才创建的示例数据;

    hive -e "create table nums(num int) row format delimited stored as textfile;"
    hive -e "load data local inpath '/home/hadoop/data/nums.txt' overwrite into table nums;"

    使用辅助表生成数据:

    hive -e "create table myaccount as select 'account1' as account, 'evan' as maker, rand()*10000 as trans_amount from nums a join nums b;"
    
    insert overwrite  table myaccount 
    select a.*
    from myaccount a
    join 
    (select * from nums where num <10) b;
    --check file has how many blocks
    insert overwrite  table myaccount 
    select a.*
    from myaccount a order by account,maker;

    这样这个表的数据大概有三百M左右了。

    默认情况下使用hive跑就要使用2个maper来处理了。

    把刚才的java project打包并上传到HDFS 以供hive使用,

    hadoop fs -mkdir /user/hive/warehouse/udf/;
    hadoop fs -copyFromLocal /home/hadoop/jar/myhiveudf.jar /user/hive/warehouse/udf/;
    add jar  hdfs:/user/hive/warehouse/udf/myhiveudf.jar;
    create temporary function myrank as "myudf.rank";

    使用hive的udf进行数据测试:

    create table myaccountrank as select account,maker,trans_amount,myrank(account,maker) as rank1 from myaccount;

    按我们的数据情况来看,我们想要的结果是max(rank1)=1000000;但是实际结果却是:8348163;

    原因是在执行create table的时候,使用了两个mapper去处理结果,这样相同的account 和 maker 被拆分给两个map task去处理,这样算出来的结果就是有问题的。

    问题是hive udf是如何确定执行在map phase还是reduce phase呢?

    udf分为udaf,udtf和普通的udf,现在看来我们普通的udf直接就在map阶段完成了,而udfa应该会在reduce阶段完成。

    同样的需求,如果我们正确地去做,可以使用hive自带的row_number去做,如下:

    create table myaccountrank2 as select account,maker,trans_amount,row_number() over(partition by account,maker order by account,maker ) as rank1 from myaccount;
    执行的时候,显示需要两个mapper,一个reduce来处理。第一次处理的时候报了java heap space error.
    set mapred.child.java.opts;  --default 200M
    调整此参数至1G:set mapred.child.java.opts =  -Xmx1024m;
    再次执行完成。
    其他常用参数:
    set mapred.max.split.size; ---256M
    hive.merge.mapfiles = true; --是否和并 Map 输出文件,默认为 True
    set hive.merge.mapredfiles;
    hive.merge.mapredfiles = false; --是否合并 Reduce 输出文件,默认为 False
    set hive.merge.size.per.task;
    hive.merge.size.per.task = 256*1000*1000; --合并文件的大小
    set hive.input.format=org.apache.hadoop.hive.ql.io.CombineHiveInputFormat;

    set hive.input.format;
    hive.input.format=org.apache.hadoop.hive.ql.io.CombineHiveInputFormat :default value

    查看全部的参数可以使用命令:set –v;

    网上找到的其他的hive tips,未测试,需要在实践中修正,引用如下:

    1.尽量尽早地过滤数据,减少每个阶段的数据量,对于分区表要加分区,同时只选择需要使用到的字段
    2.尽量原子化操作,尽量避免一个SQL包含复杂逻辑,可以使用中间表来完成复杂的逻辑  
    3.join操作  小表要注意放在join的左边.可以指定使用map join,如果有小表。
    4.如果union all的部分个数大于2,或者每个union部分数据量大,应该拆成多个insert into 语句,实际测试过程中,执行时间能提升50%
    5.写SQL要先了解数据本身的特点,如果有join ,group操作的话,要注意是否会有数据倾斜

     

    Looking for a job working at Home about MSBI
  • 相关阅读:
    第二阶段冲刺站立会议报告
    09软件工程读后感之三
    08软件工程读后感之二
    07软件工程读后感之一
    一个整数数组中最大字数组二
    返回一个二维数组最大联通子数组的和
    项目阶段总结
    大道至简阅读笔记之三
    大道至简阅读笔记二
    课堂设计
  • 原文地址:https://www.cnblogs.com/huaxiaoyao/p/4337765.html
Copyright © 2011-2022 走看看