zoukankan      html  css  js  c++  java
  • hive窗口函数LAG/LEAD

    Qusetion:

    有一张hive表test,三列分别是user_id, click_id, click_time,即用户、点击id、点击时间。

    需要计算用户点击时间差,就需要找到用户每个点击对应的最近一次点击时间。

    user1   A   1573001309214
    user1    B    1573043128833
    user1    C    1573043810520
    user1    D    1573043929952
    user1    E    1573043914374
    user1    F    1572994687046
    user1    G    1572994687915
    user1    H    1573043779651
    user2    I    1572995016055
    user2    J    1573046856088
    user2    K    1573046893571
    user2    L    1572981865480
    user2    M    1572995095611
    user2    N    1572974591103

    Answer:

    select user_id, click_id, click_time, 

    LAG(click_time, 1) OVER(PARTITION BY user_id ORDER BY click_time asc) AS last_click_time 

    from test;

    结果:最后一列就是用户该次点击对应的最近一次点击时间。第一行F事件是user1的第一个点击,所以没有上一条。

    解释:

    OVER(PARTITION BY user_id ORDER BY click_time asc) 

    含义:按user_id 列分组,组内按click_time 列排序,asc 表示增序(desc 降序)

    LAG函数用法

    LAG(col,n,DEFAULT)  用于统计窗口内往上第n行。

    col 参数是列名

    n 参数是指窗口内当前行往上第n行

    DEFAULT 参数为默认值(当往上第n行为NULL的时候取默认值,如果不指定,就是NULL)

    LEAD函数用法

    LEAD(col, n, DEFAULT),用于统计窗口内向下第n行

    col 参数是列名

    n 参数是指窗口内当前行向下第n行

    DEFAULT 参数为默认值(当向下第n行为NULL的时候取默认值,如果不指定,就是NULL)

     例如,在test表中,取出每个点击对应的后面的第2个点击。

    select user_id, click_id, click_time,

    LEAD(click_time, 2) OVER(PARTITION BY user_id ORDER BY click_time asc) AS last_two_click_time

    from test;

  • 相关阅读:
    拾遗:systemctl --user
    拾遗:~/.zshrc 配置
    拾遗:YouCompleteMe 前传——编译安装 llvm + clang
    洛谷P1546 最短网络 Agri-Net(最小生成树,Kruskal)
    洛谷P1462 通往奥格瑞玛的道路(二分+spfa,二分+Dijkstra)
    HDU6669 Game(思维,贪心)
    HDU6672 Seq(找规律)
    HDU6668 Polynomial(模拟)
    洛谷P1378 油滴扩展(搜索)
    机器学习数学基础(四)
  • 原文地址:https://www.cnblogs.com/min2day/p/11831242.html
Copyright © 2011-2022 走看看