hive grouping sets 实现原理 - 走看看

zoukankan html css js c++ java

hive grouping sets 实现原理

先下结论：

看了hive 1.1.0 grouping sets 实现（从源码及执行计划都可以看出与kylin实现不一样），（前提是可累加，如sum函数）他并没有像kylin一样先按照group by 全字段聚合再上卷。
hive实现就是无脑复制，可以理解成是 group by grouping sets 所有组合然后在union 起来（grouping sets会比后者少扫描grouping sets组合份原始数据。
tez和sparksql grouping sets之所以快可能是跟kylin实现差不多，先汇总再上卷来减少数据无脑复制成本，这个spark实现有空可以看看）

从执行计划就可以看出 hive grouping sets 实现相当于就一个stage，是做不到先聚合再上卷的。其实就是把原始数据复制grouping sets 组合份

查看全文

相关阅读:
vuejs 实战双向数据绑定
 ubuntu16安装cuda,cudnn,gpu版opencv
ubuntu编译安装nginx并且配置流服务器
 安装使用mongodb
c++ 编译安装ffmpeg
apache2 日志文件太大的解决方案
 sql注入
 制作自己的电子词典
 python传递可变参数
 工厂模式

原文地址：https://www.cnblogs.com/jiangxiaoxian/p/9695291.html

Copyright © 2011-2022 走看看