zoukankan      html  css  js  c++  java
  • order by/sort by/distribute by /cluster by 的区分

    主要说说这3者的区分和场景:

    1.order by:这是日常使用最多的,因为是最终的排序,所以是全局的,所以最后只会有1个reduce(set mapred.reduce.tasks=n无效)完成。假如sql的执行结果的数据量很大的话,这里就会比较坑。

    2.sort by:sortby不是全局排序,数据在reducer前就完成排序。sortby只会保证每个reducer的输出是有序的,sortby不受hive.mapred.mode属性的影响。我们可以set mapred.reduce.tasks=n来指定reduce的个数,最后在执行order by 进行全局的排序。

    3. distribute by :distribute by 是控制map端如何拆分数据给reduce端的。hive会根据by 的列,对应reduce的个人进行分发,默认是hash算法。

    4. cluster by :等价于 distribute by columns sort by columns,但是只能是倒叙排序

      notes: distribute by 和sort by的使用场景:

         1. map输出的文件大小不均匀

         2. reduce输出的文件大小不均

         3. 小文件过多

         4. 文件太大。 

      

    set mapred.reduce.tasks=n

  • 相关阅读:
    Zero Downtime Upgrade of Oracle 10g to Oracle 11g Using GoldenGate — 1
    架构-MVVM:MVVM核心概念
    架构-MVVC:百科
    架构:目录
    架构:template
    JavaScript-Tool:Ext JS
    JavaScript-Tool:jquery.tree.js-un
    JavaScript-Tool:wdtree
    C#:C# 运算符
    C#:目录
  • 原文地址:https://www.cnblogs.com/chengdu-jackwu/p/10172940.html
Copyright © 2011-2022 走看看