zoukankan      html  css  js  c++  java
  • Hive函数

             常用的内置函数

     

    空字段赋值

         NVL:给值为NULL的数据赋值,格式:NVL(value,default_value)。

      (如果value为NULL,则NVL函数返回default_value的值,否则返回value的值,如果两个参数都为NULL,则返回NULL。)

     

     

     

    select comm, nvl(comm, -1) from emp;
    # comm的数据为空的 用-1填充

    comm    _c1

    NULL    -1.0

    300.0   300.0

    500.0   500.0

    NULL    -1.0

    1400.0  1400.0

    NULL    -1.0

    select comm, nvl(comm, mgr) from emp;

    # comm的数据为空的 用mgr数据填充

    comm    _c1

    NULL    7902.0

    300.0   300.0

    500.0   500.0

    NULL    7839.0

    1400.0  1400.0

    NULL    7839.0

     

    行转列

          CONCAT(string a/col, string b/col……):返回输入字符串连接后的结果,支持任意个输入字符串

          CONCAT_WS(separator,st1,st2,…):一个特殊形式的CONCAT()。separator其他参数之间的分隔符

     (分隔符可以是与剩余参数一样的字符串。如果分隔符是 NULL,返回值也将为 NULL。这个函数会跳过分隔符参数后的任何 NULL 和空字符串。分隔符将被加到被连接的字符串之间;)

     

         COLLECT_SET(col):函数只接受基本数据类型,它的主要作用是将某字段的值进行去重汇总,产生array类型字段。

     

    select  t1.base, concat_ws('|', collect_set(t1.name)) name
    from(select name,concat(constellation, ",", blood_type) base from  person_info) t1
    group by t1.base;

     

     

     

    列转行

      

    EXPLODE(col)hive中复杂的array或者map结构拆分成多行。

    LATERAL VIEW

    (LATERAL VIEW udtf(expression) tableAlias AS columnAlias)

    (用于和split, explodeUDTF一起使用它能够将一列数据拆成多行数据在此基础上可以对拆分后的数据进行聚合。)

    select m.movie,  tbl.cate
    from  movie_info m
    lateral view
    explode(split(category, ",")) tbl as cate;

    窗函数

    1. OVER()指定分析函数工作的数据窗口大小,这个数据窗口大小可能会随着行的变而变化。
    2. CURRENT ROW:当前行
    3. n PRECEDING:往前n行数据
    4. n FOLLOWING:往后n行数据
    5. UNBOUNDED:起点,UNBOUNDED PRECEDING 表示从前面的起点, UNBOUNDED FOLLOWING表示到后面的终点
    6. LAG(col,n,default_val):往前第n行数据
    7. LEAD(col,n, default_val):往后第n行数据
    8. NTILE(n):把有序窗口的行分发到指定数据的组中,各个组有编号,编号从1开始,对于每一行,NTILE返回此行所属的组的编号。注意:n必须为int类型。
    #查询在2017年4月份购买过的顾客及总人数
    select name,count(*) over () 
    from business 
    where substring(orderdate,1,7) = '2017-04' 
    group by name;
    
    #查询顾客的购买明细及月购买总额
    select name,orderdate,cost,sum(cost) over(partition by month(orderdate)) from
     business;
    
    #上述的场景, 将每个顾客的cost按照日期进行累加
    select name,orderdate,cost, 
    sum(cost) over() as sample1,--所有行相加 
    sum(cost) over(partition by name) as sample2,--按name分组,组内数据相加 
    sum(cost) over(partition by name order by orderdate) as sample3,--按name分组,组内数据累加 
    sum(cost) over(partition by name order by orderdate rows between UNBOUNDED PRECEDING and current row ) as sample4 ,--和sample3一样,由起点到当前行的聚合 
    sum(cost) over(partition by name order by orderdate rows between 1 PRECEDING and current row) as sample5, --当前行和前面一行做聚合 
    sum(cost) over(partition by name order by orderdate rows between 1 PRECEDING AND 1 FOLLOWING ) as sample6,--当前行和前边一行及后面一行 
    sum(cost) over(partition by name order by orderdate rows between current row and UNBOUNDED FOLLOWING ) as sample7 --当前行及后面所有行 
    from business;
    
    #查看顾客上次的购买时间
    select name,orderdate,cost, 
    lag(orderdate,1,'1900-01-01') over(partition by name order by orderdate ) as time1, lag(orderdate,2) over (partition by name order by orderdate) as time2 
    from business;
    
    #查询前20%时间的订单信息
    select * from (
        select name,orderdate,cost, ntile(5) over(order by orderdate) sorted
        from business) t

    where sorted = 1;

    排序函数: 

    1. RANK() 排序相同时会重复,总数不会变
    2. DENSE_RANK() 排序相同时会重复,总数会减少
    3. ROW_NUMBER() 会根据顺序计算
    select name,subject,score,
    rank() over(partition by subject order by score desc) rp,
    dense_rank() over(partition by subject order by score desc) drp,
    row_number() over(partition by subject order by score desc) rmp
    from score;

    日期相关函数:

    current_date返回当前日期

    date_add, date_sub 日期的加减

    --date_add, date_sub 日期的加减
    --今天开始90天以后的日期
    select date_add(current_date(), 90);
    --今天开始90天以前的日期
    select date_sub(current_date(), 90);
    --两个日期之间的日期差
    --今天和1990年6月4日的天数差
    SELECT datediff(CURRENT_DATE(), "1990-06-04");

    自定义函数

         

    1.      Hive 自带了一些函数比如max/min但是数量有限自己可以通过自定义UDF来方便的扩展。
    2.   当Hive提供的内置函数无法满足你的业务处理需要时此时就可以考虑使用用户自定义函数UDFuser-defined function
    3. 根据用户自定义函数类别分为以下三种:           

    1UDFUser-Defined-Function一进一出

    2UDAFUser-Defined Aggregation Function聚集函数多进一出类似于:count/max/min

    3UDTFUser-Defined Table-Generating Functions一进多出  【lateral view explore()】

     

     

  • 相关阅读:
    (C/C++学习笔记) 五. 常变量(只读变量)和宏
    (C/C++学习笔记) 四. 运算符
    (C/C++学习笔记) 三. 作用域和可见性
    (C/C++学习笔记) 一. 基础知识
    计算机科学的基本术语及其英语表达
    模块与包
    Python的递归
    内置函数与匿名函数
    装饰器,迭代器,生成器分析
    命名关键字参数,函数对象,嵌套,名称空间与作用域,闭包
  • 原文地址:https://www.cnblogs.com/yanlening/p/14038458.html
Copyright © 2011-2022 走看看