zoukankan      html  css  js  c++  java
  • Hive 中的 order by, sort by, distribute by 与 cluster by

    Order By

    • order by 会对输入做全排序, 因此只有一个Reducer(多个Reducer无法保证全局有序), 然而只有一个Reducer, 会导致当输入规模较大时, 消耗较长的计算时间。

    Sort By

    • sort by 不是全局排序, 其在数据进入reducer前完成排序。
    • 因此, 如果用sort by进行排序, 并且设置mapred.reduce.mode属性的影响, sort by只会保证每个reducer的输出有序, 并不保证全局有序
    • sort by 不同于 order by, 它不受hive.mapred.mode属性的影响, sort by的数据只能保证在同一个reduce中的数据可以按指定字段排序。
    • 使用sort by 可以指定执行的reduce个数(通过set mapred.reduce.tasks=n来指定), 对输出的数据再执行归并排序, 即可得到全部结果。

    Distribute By

    • 是控制在map端如何拆分数据给reduce端的。
    • Hive会根据distribute by后面列, 对应reduce的个数进行分发, 默认使用hash算法。
    • sort by为每个reduce产生一个排序文件。
    • 在某些情况下, 为了进行后续的聚合操作, 需要控制某个特定行应该到哪个reducer。
    • distribute by 经常和sort by配合使用。
    • distribute by 和 sort by的使用场景
      • Map输出的文件大小不均
      • Reduce输出文件大小不均
      • 小文件过多
      • 文件超大

    Cluster By

    • cluster by除了具有distribute by的功能外还兼具sort by的功能。
    • 但是排序只能是倒叙排序, 不能指定排序规则为ASC或DESC。
  • 相关阅读:
    IDEA创建一个javaweb工程(在module中)以及配置Tomcat
    晨会复盘
    cnblog 笔记思路
    Mysql执行计划-extra
    Mysql执行计划分析-type(access_type)
    Mysql执行计划-selectType
    刻意训练
    MYSQL执行计划
    个人展望-程序员职业规划
    服务拆分原则
  • 原文地址:https://www.cnblogs.com/ronnieyuan/p/12027812.html
Copyright © 2011-2022 走看看