关于hive multi group by的疑惑

zoukankan html css js c++ java

关于hive multi group by的疑惑
有多条hive语句从同一张表中做count操作，语句如下：
select pf,way,method,count(distinct id) where push_date_type ='$push_date_type' group by pf,way,method;
select pf,way,-1,count(distinct id) where push_date_type ='$push_date_type' group by pf,way;
......
想着用multi group by特性优化下效率，于是把上述语句改写成：
from push_revisit_info insert overwrite table push_rpt_pf_way_mthd select pf,way,method,count(distinct id) where push_date_type ='$push_date_type' group by pf,way,method insert overwrite table push_rpt_pf_way select pf,way,-1,count(distinct id) where push_date_type ='$push_date_type' group by pf,way
参数hive.multigroupby.singlemr也设置成了true;

可是这条语句还是会生成两个mapreduce执行，跟未使用multi group by时MR Job数量一样，甚至执行时间还稍长。

如果这两句的group key用成一样，就会只生成一个MR Job，但不论hive.multigroupby.singlemr是true还是false，都是这样。

关于这个参数的含义，hive-default.xml是这样写的：

<property>
   <name>hive.multigroupby.singlemr</name>
   <value>false</value>
   <description>Whether to optimize multi group by query to generate single M/R
       job plan. If the multi group by query has common group by keys, it will be
       optimized to generate single M/R job.</description>
</property>

这里的common翻译成什么最合适呢？“共同的”？那依上面的经验，不用开启这个设置也会优化成一个。那么这个参数到底有什么用？multi group by又如何使用呢？
查看全文

相关阅读:
前端插件资源
 wPaint在线绘图插件
 【剑指offer】数字数组中只出现一次（2）
系统，特别是慢查找
 Asp.Netserver控制发展Grid实现(一个)UI转让
 JAVA连接ACCESS、MYSQL、SQLSEVER、ORACLE数据库
 u_boot启动过程中的具体分析（1）
免费是移动互联网的第一个念头
 进入公司第五届、六个月
 Windows平台Oracle使用USE_SHARED_SOCKET角色

原文地址：https://www.cnblogs.com/aprilrain/p/2966125.html