HIVE基础（20）：Hive函数(9) over 窗口函数

zoukankan html css js c++ java

HIVE基础（20）：Hive函数(9) over 窗口函数
hive窗口函数语法

在前言中我们已经说了avg()、sum()、max()、min()是分析函数，而over()才是窗口函数，下面我们来看看over()窗口函数的语法结构、及常与over()一起使用的分析函数
- over()窗口函数的语法结构
- 常与over()一起使用的分析函数
- 窗口函数总结
1、over()窗口函数的语法结构

分析函数 over(partition by 列名 order by 列名 rows between 开始位置 and 结束位置)

over()函数中包括三个函数：包括分区partition by 列名、排序order by 列名、指定窗口范围rows between 开始位置 and 结束位置。我们在使用over()窗口函数时，over()函数中的这三个函数可组合使用也可以不使用。

over()函数中如果不使用这三个函数，窗口大小是针对查询产生的所有数据，如果指定了分区，窗口大小是针对每个分区的数据。

1.over() 默认此时每一行的窗口都是所有的行
select *,count(1) over() from business;
2.over(order by orderdate)

orderdate=1的窗口只有一行，orderdate=2的窗口包括orderdate=2017-01-01,orderdate=2017-01-02
select *,count(1) over(order by orderdate) from business;
3.over(partition by name)每一行根据 name来区分窗口
select *,sum(cost) over(partition by name) from business;
4.over(partition by name order by id) 每一行根据 name来区分窗口,再根据order by 取具体的范围
select *,sum(cost) over(partition by name order by orderdate) from business;
6 over()函数中的三个函数讲解

order by
order by是排序的意思，是该窗口中的

A、partition by
partition by可理解为group by 分组。over(partition by 列名)搭配分析函数时，分析函数按照每一组每一组的数据进行计算的。

B、rows between 开始位置 and 结束位置
是指定窗口范围，比如第一行到当前行。而这个范围是随着数据变化的。over(rows between 开始位置 and 结束位置)搭配分析函数时，分析函数按照这个范围进行计算的。

窗口范围说明：
我们常使用的窗口范围是ROWS BETWEEN UNBOUNDED PRECEDING AND CURRENT ROW（表示从起点到当前行），常用该窗口来计算累加。

PRECEDING：往前

FOLLOWING：往后

CURRENT ROW：当前行

UNBOUNDED：起点（一般结合PRECEDING，FOLLOWING使用）

UNBOUNDED PRECEDING 表示该窗口最前面的行（起点）

UNBOUNDED FOLLOWING：表示该窗口最后面的行（终点）

比如说：

ROWS BETWEEN UNBOUNDED PRECEDING AND CURRENT ROW（表示从起点到当前行）

ROWS BETWEEN 2 PRECEDING AND 1 FOLLOWING（表示往前2行到往后1行）

ROWS BETWEEN 2 PRECEDING AND 1 CURRENT ROW（表示往前2行到当前行）

ROWS BETWEEN CURRENT ROW AND UNBOUNDED FOLLOWING（表示当前行到终点）

2、常与over()一起使用的分析函数：

2.1 聚合类

avg()、sum()、max()、min()

2.2 排名类

row_number()按照值排序时产生一个自增编号，不会重复（如：1、2、3、4、5、6）
rank() 按照值排序时产生一个自增编号，值相等时会重复，会产生空位（如：1、2、3、3、3、6）
dense_rank() 按照值排序时产生一个自增编号，值相等时会重复，不会产生空位（如：1、2、3、3、3、4）

2.3 其他类

lag(列名,往前的行数,[行数为null时的默认值，不指定为null])，可以计算用户上次购买时间，或者用户下次购买时间。或者上次登录时间和下次登录时间
lead(列名,往后的行数,[行数为null时的默认值，不指定为null])
ntile(n) 把有序分区中的行分发到指定数据的组中，各个组有编号，编号从1开始，对于每一行，ntile返回此行所属的组的编号

3、窗口函数总结：

其实窗口函数逻辑比较绕，我们可以把窗口理解为对表中的数据进行分组，排序等计算。要真正的理解HIVE窗口函数，还是要结合练习题才行。下面我们开始HIVE窗口函数的练习吧！
本文来自博客园，作者：秋华，转载请注明原文链接：https://www.cnblogs.com/qiu-hua/p/15164251.html
查看全文

相关阅读:
centos7 安装prometheus node_exporter
RMAN备份演练初级篇
 RMAN命令
 oracle数据库的归档模式
 oracle的会话（session）
oracle的例程
 oracle热备份
 Oracle数据库归档模式的切换及其相关操作详解
 Oracle角色
 类名.class, class.forName(), getClass()区别

原文地址：https://www.cnblogs.com/qiu-hua/p/15164251.html

HIVE基础（20）：Hive函数(9) over 窗口函数

hive窗口函数语法

1、over()窗口函数的语法结构

3.over(partition by name)每一行根据 name来区分窗口

4.over(partition by name order by id) 每一行根据 name来区分窗口,再根据order by 取具体的范围

6 over()函数中的三个函数讲解

2、常与over()一起使用的分析函数：

2.1 聚合类

2.2 排名类

2.3 其他类

3、窗口函数总结：