order by/sort by/distribute by /cluster by 的区分 - 走看看

zoukankan html css js c++ java

order by/sort by/distribute by /cluster by 的区分

主要说说这3者的区分和场景：

1.order by:这是日常使用最多的，因为是最终的排序，所以是全局的，所以最后只会有1个reduce(set mapred.reduce.tasks=n无效)完成。假如sql的执行结果的数据量很大的话，这里就会比较坑。

2.sort by:sortby不是全局排序，数据在reducer前就完成排序。sortby只会保证每个reducer的输出是有序的，sortby不受hive.mapred.mode属性的影响。我们可以set mapred.reduce.tasks=n来指定reduce的个数，最后在执行order by 进行全局的排序。

3. distribute by :distribute by 是控制map端如何拆分数据给reduce端的。hive会根据by 的列，对应reduce的个人进行分发，默认是hash算法。

4. cluster by :等价于 distribute by columns sort by columns,但是只能是倒叙排序

　　notes: distribute by 和sort by的使用场景:

　　　　　1. map输出的文件大小不均匀

　　　　　2. reduce输出的文件大小不均

　　　　　3. 小文件过多

　　　　　4. 文件太大。

　　

set mapred.reduce.tasks=n

查看全文

相关阅读:
Spring Cloud(4)：断路器（Hystrix）
Spring Cloud(3)：配置服务（Config）
Spring Cloud(2)：服务发现（Eureka）
Docker常用命令
 Spring Cloud(1)：概览
 Spring Cloud(0)：目录
 Spring Boot JDBC：加载DataSource过程的源码分析及yml中DataSource的配置
 Java集合(7)：散列与散列码
 [Linux]RabbitMQ
[Linux]查看硬件及操作系统信息

原文地址：https://www.cnblogs.com/chengdu-jackwu/p/10172940.html

Copyright © 2011-2022 走看看