Hive分组后取组内排名方法row_number - 走看看

zoukankan html css js c++ java

Hive分组后取组内排名方法row_number
　
今天遇到这样一个需求场景，要取出每一种分类（a,b组合分类) 符合条件的日期（字段c）距离现在最近的10个日期的数据

首先想到的是用sql筛选出符合某种条件的所有数据，这样的事情很简单

然后用脚本（python）遍历每一种组合(a,b)，然后按日期c倒序排序取前10

如果拿到这个数据后还要去hive连表查询其他数据，那么上面的方法就比较麻烦，可能需要再取多次hive

我们有没有sql的方法直接完成这样的事情呢？有的我们可以用到row_number:
with t_rank as ( select a, b, c, Row_Number() OVER (partition by a,b ORDER BY c desc) rank from t_test ) select a,b,c from t_rank where rank <= 10
下面就继续嵌套添加其他的sql逻辑吧　　
查看全文

相关阅读:
带你了解数据库的“吸尘器”：VACUUM
基于深度学习的两种信源信道联合编码
 6大创新技术及2亿美元投入计划，这个活动有点料
 MindSpore实践：对篮球运动员目标的检测
 如何正确使用Python临时文件
 一段java代码是如何执行的？
TensorFlow csv读取文件数据（代码实现）
TensorFlow优化器及用法
 TensorFlow损失函数
 回归算法分类，常用回归算法解析

原文地址：https://www.cnblogs.com/lingear/p/8311495.html

Copyright © 2011-2022 走看看