zoukankan      html  css  js  c++  java
  • Hive 自定义函数(转)

        Hive是一种构建在Hadoop上的数据仓库,Hive把SQL查询转换为一系列在Hadoop集群中运行的MapReduce作业,是MapReduce更高层次的抽象,不用编写具体的MapReduce方法。Hive将数据组织为表,这就使得HDFS上的数据有了结构,元数据即表的模式,都存储在名为metastore的数据库中。

           可以在hive的外壳环境中直接使用dfs访问hadoop的文件系统命令。

           Hive可以允许用户编写自己定义的函数UDF,来在查询中使用。Hive中有3种UDF:

           UDF:操作单个数据行,产生单个数据行;

           UDAF:操作多个数据行,产生一个数据行。

           UDTF:操作一个数据行,产生多个数据行一个表作为输出。

          用户构建的UDF使用过程如下:

          第一步:继承UDF或者UDAF或者UDTF,实现特定的方法。

          第二步:将写好的类打包为jar。如hivefirst.jar.

          第三步:进入到Hive外壳环境中,利用add jar /home/hadoop/hivefirst.jar.注册该jar文件

          第四步:为该类起一个别名,create temporary function mylength as 'com.whut.StringLength';这里注意UDF只是为这个Hive会话临时定义的。

          第五步:在select中使用mylength();

    自定义UDF

    1
    2
    3
    4
    5
    6
    7
    8
    9
    10
    11
    12
    13
    14
    15
    16
    17
    18
    19
    20
    21
    22
    23
    24
    25
    package whut;
    import org.apache.commons.lang.StringUtils;
    import org.apache.hadoop.hive.ql.exec.UDF;
    import org.apache.hadoop.io.Text;
    //UDF是作用于单个数据行,产生一个数据行
    //用户必须要继承UDF,且必须至少实现一个evalute方法,该方法并不在UDF中
    //但是Hive会检查用户的UDF是否拥有一个evalute方法
    public class Strip extends UDF{
        private Text result=new Text();
        //自定义方法
        public Text evaluate(Text str)
        {
          if(str==null)
            return null;
            result.set(StringUtils.strip(str.toString()));
            return result;
        }
        public Text evaluate(Text str,String stripChars)
        {
            if(str==null)
                return null;
            result.set(StringUtils.strip(str.toString(),stripChars));
            return result;
        }
    }

    注意事项:

       1,一个用户UDF必须继承org.apache.hadoop.hive.ql.exec.UDF;

       2,一个UDF必须要包含有evaluate()方法,但是该方法并不存在于UDF中。evaluate的参数个数以及类型都是用户自己定义的。在使用的时候,Hive会调用UDF的evaluate()方法。

    自定义UDAF

    该UDAF主要是找到最大值

    1
    2
    3
    4
    5
    6
    7
    8
    9
    10
    11
    12
    13
    14
    15
    16
    17
    18
    19
    20
    21
    22
    23
    24
    25
    26
    27
    28
    29
    30
    31
    32
    33
    34
    35
    36
    37
    38
    39
    40
    41
    42
    43
    44
    45
    package whut;
    import org.apache.hadoop.hive.ql.exec.UDAF;
    import org.apache.hadoop.hive.ql.exec.UDAFEvaluator;
    import org.apache.hadoop.io.IntWritable;
    //UDAF是输入多个数据行,产生一个数据行
    //用户自定义的UDAF必须是继承了UDAF,且内部包含多个实现了exec的静态类
    public class MaxiNumber extends UDAF{
        public static class MaxiNumberIntUDAFEvaluator implements UDAFEvaluator{
            //最终结果
            private IntWritable result;
            //负责初始化计算函数并设置它的内部状态,result是存放最终结果的
            @Override
            public void init() {
                result=null;
            }
            //每次对一个新值进行聚集计算都会调用iterate方法
            public boolean iterate(IntWritable value)
            {
                if(value==null)
                    return false;
                if(result==null)
                  result=new IntWritable(value.get());
                else
                  result.set(Math.max(result.get(), value.get()));
                return true;
            }
                                                                                                                                      
            //Hive需要部分聚集结果的时候会调用该方法
            //会返回一个封装了聚集计算当前状态的对象
            public IntWritable terminatePartial()
            {
                return result;
            }
            //合并两个部分聚集值会调用这个方法
            public boolean merge(IntWritable other)
            {
                return iterate(other);
            }
            //Hive需要最终聚集结果时候会调用该方法
            public IntWritable terminate()
            {
                return result;
            }
        }
    }

    注意事项:

        1,用户的UDAF必须继承了org.apache.hadoop.hive.ql.exec.UDAF;

        2,用户的UDAF必须包含至少一个实现了org.apache.hadoop.hive.ql.exec的静态类,诸如常见的实现了 UDAFEvaluator。

        3,一个计算函数必须实现的5个方法的具体含义如下:

        init():主要是负责初始化计算函数并且重设其内部状态,一般就是重设其内部字段。一般在静态类中定义一个内部字段来存放最终的结果。

       iterate():每一次对一个新值进行聚集计算时候都会调用该方法,计算函数会根据聚集计算结果更新内部状态。当输入值合法或者正确计算了,则就返回true。

       terminatePartial():Hive需要部分聚集结果的时候会调用该方法,必须要返回一个封装了聚集计算当前状态的对象。

       merge():Hive进行合并一个部分聚集和另一个部分聚集的时候会调用该方法。

       terminate():Hive最终聚集结果的时候就会调用该方法。计算函数需要把状态作为一个值返回给用户。

      4,部分聚集结果的数据类型和最终结果的数据类型可以不同。

  • 相关阅读:
    C语言main函数参数解析代码模板
    C语言函数指针复习小程序
    反转链表
    (Mingw32环境下)C语言使用库函数分配内存,按指定字节对齐
    Scrum meeting 3
    胆大妄为【DDWW】 Scrum meeting 2
    胆大妄为【DDWW】 Scrum meeting 1
    胆大妄为【DDWW】 《实验八 团队作业4:团队项目需求建模与系统设计》
    胆大妄为【DDWW】 实验七 团队作业3:团队项目需求分析与原型设计
    胆大妄为【DDWW】 实验六 团队作业2 :西北师范大学毕业生就业信息管理系统
  • 原文地址:https://www.cnblogs.com/liutoutou/p/3741865.html
Copyright © 2011-2022 走看看