zoukankan      html  css  js  c++  java
  • 017-Hadoop Hive sql语法详解7-去重排序、数据倾斜

    一、数据去重排序

    1.1、去重

      distinct与group by

      尽量避免使用distinct进行排重,特别是大表操作,用group by代替  

    -- 不建议
    select DISTINCT key from a
    -- 建议
    select key from a group by key

    1.2、排序优化

      只有order by产生的结果是全局有序的,可以根据实际场景进行选择排序。

      1、order by 实现全局排序,一个reduce实现,由于不能并发执行,所以效率偏低

      2、sort by实现部分有序,单个reduce输出的结果是有序的,效率高,通常和distribute by关键字一起使用

        (distribute by 关键字可以指定map到reduce端的分发key)

      3、cluster by col1等价于 distribute by col1 sort by col1但不能指定排序规则

    二、数据倾斜

      任务进度长时间维持在99%(或100%),查看任务监控页面,发现只有少量(1个或几个)reduce子任务未完成。因为其处理的数据量和其他reduce差异过大。

      单一reduce的记录数与平均记录数差异过大,通常可能达到30倍甚至更多。最长时长远大于平均时长。

  • 相关阅读:
    【BZOJ4033】【HAOI2015】树上染色
    【BZOJ1040】【ZJOI2008】骑士
    【BZOJ3573】【HNOI2014】米特运输
    【BZOJ1060】【ZJOI2007】时态同步
    17-10-11模拟赛
    17-10-05模拟赛
    17-09-29模拟赛
    17-09-21模拟赛
    17-09-20模拟赛
    17-09-15模拟赛
  • 原文地址:https://www.cnblogs.com/bjlhx/p/7896037.html
Copyright © 2011-2022 走看看