Hive 中的 order by, sort by, distribute by 与 cluster by

zoukankan html css js c++ java

Hive 中的 order by, sort by, distribute by 与 cluster by
Order By
- order by 会对输入做全排序, 因此只有一个Reducer(多个Reducer无法保证全局有序), 然而只有一个Reducer, 会导致当输入规模较大时, 消耗较长的计算时间。
Sort By
- sort by 不是全局排序, 其在数据进入reducer前完成排序。
- 因此, 如果用sort by进行排序, 并且设置mapred.reduce.mode属性的影响, sort by只会保证每个reducer的输出有序, 并不保证全局有序。
- sort by 不同于 order by, 它不受hive.mapred.mode属性的影响, sort by的数据只能保证在同一个reduce中的数据可以按指定字段排序。
- 使用sort by 可以指定执行的reduce个数(通过set mapred.reduce.tasks=n来指定), 对输出的数据再执行归并排序, 即可得到全部结果。
Distribute By
- 是控制在map端如何拆分数据给reduce端的。
- Hive会根据distribute by后面列, 对应reduce的个数进行分发, 默认使用hash算法。
- sort by为每个reduce产生一个排序文件。
- 在某些情况下, 为了进行后续的聚合操作, 需要控制某个特定行应该到哪个reducer。
- distribute by 经常和sort by配合使用。
- distribute by 和 sort by的使用场景
  
  Map输出的文件大小不均
  
  Reduce输出文件大小不均
  
  小文件过多
  
  文件超大
Cluster By
- cluster by除了具有distribute by的功能外还兼具sort by的功能。
- 但是排序只能是倒叙排序, 不能指定排序规则为ASC或DESC。
查看全文

相关阅读:
webgl glsl
javascript 分号理解
 流的理解 1
javascript 排序
 phaser3 微信小游戏若干问题
 layabox 3d 入手
 phaser2 微信小游戏入手
 取整你知道几中办法？
script 执行的三种方式
 cl查看类的内存布局

原文地址：https://www.cnblogs.com/ronnieyuan/p/12027812.html

Hive 中的 order by, sort by, distribute by 与 cluster by

Order By

Sort By

Distribute By

Cluster By