最近在优化一个报表系统。leader 提示我可以用cube函数。在此记录一下使用:
简称数据魔方。
可以实现hive多个任意维度的查询。
cube(a,b,c) 首先会对(a,b,c)进行group by,然后依次是(a,b),(a,c),(a),(b,c),(b),(c), 最后在对全表进行group by,他会统计所选列中值的所有组合的聚合。
也就是可以合并我们的一些组内group by系列任务。