zoukankan      html  css  js  c++  java
  • Hive调优

    cd /opt
    vi test.sh

    #!/bin/bash
    datetime=(date′+source/etc/profilehive−e"loaddatalocalinpath′/opt/datame.txt′intotableshujuku.tablenamepartition(dt= (date '+%Y%m%d%H')source /etc/profilehive -e "load data local inpath '/opt/datame.txt' into table shujuku.table_name partition(dt=(date 
    ′
     +source/etc/profilehive−e"loaddatalocalinpath 
    /opt/datame.txt 
    ′
     intotableshujuku.table 
    n
    ​    
     amepartition(dt=datetime) "


    作用:每过一小时就上传一下,把同一时间段的作为一个分区

    2.hive调优
    —建表的注意事项
    (1)分区,分桶 —一般是按照业务日期进行分区,每天的数据放在一个分区里
    (2)一般使用外部表,避免数据误删
    (3)选择适当的文件压缩格式
    (4)命名要规范
    (5)数据分层,表分离,但是不要分的太散

    —查询调优
    (1)分区裁剪where过滤,先过滤,后join
    (2)分区分桶,合并小文件
    (3)适当的子查询
    mapjoin(1.2以后自动默认启动mapjoin)
    select /+mapjoin(b)/ a.xx,b.xx from a left outer join b on a.uid=b.uid
    左连的时候:大表在左边,小表在右边
    (4)
    order by 是全局排序
    sort by 是单reduce排序
    distribute by 是分区字段排序
    cluster by:
    可以确保类似的数据分发到同一个reduce task中,并且保证数据有序防止所有的数据分发
    到同一个reduce上,导致整体的job时间延迟
    cluster by的等价语句:
    distribute by Word sort by Word ASC

    —数据倾斜优化
    (1)数据倾斜解决
    看下key的分布
    原因 --------一个节点完成80%(举例)的任务,它当然不行了
    1)key分布不均匀(实际上还是重复),比如group by 或者distinct的时候
    2)数据重复,join 笛卡尔积 数据膨胀,表现如下:
    任务进度长时间维持在99%(或100%),查看任务监控页面,发现只有少量(1个或几个)
    reduce子任务未完成。因为其处理的数据量和其他reduce差异过大。
    单一reduce的记录数与平均记录数差异过大,通常可能达到3倍甚至更多。最长时长远大于平均时长
    解决方案:
    1)看下业务上,数据源头能否对数据进行过滤,比如key为null的
    2)找到key重复的具体值,进行拆分,hash。异步求和。
    //案例(解决数据倾斜方法之一):
    select city_id,count(*) from test group by city_id ;

    select if(city_id=‘66666’,hash(rand()),0),city_id from test limit 10 ; //去掉count看一下输出的样式
    假入输出为:
    1234 x1
    1234 x2
    6666 0
    6666 0

    select if(city_id=‘66666’,hash(rand()),city_id),city_id,count(*) from test group by city_id,if(city_id=‘66666’,hash(rand()),0) limit 10 ;
    假入输出为:
    1234 x1 1
    1234 x2 1
    6666 0 2

    select a.city,sum(a.cnt) from (
    select if(city_id=‘66666’,hash(rand()),city_id),city_id,count(*) as cnt from test group by city_id,if(city_id=‘66666’,hash(rand()),0)) a group by a.city_id limit 10 ;

    ----作业优化
    调整mapper和reduce的数量
    太多map导致启动产生过多开销
    按照输入数据量大小确定reduce数目set mapred.reduce.tasks=3(默认)
    dfs -count /分区目录/*
    hive.exec.reducers.max设置阻止资源过度消耗

    参数调节
    set hive.map.aggr=true(hive2默认开启)
    Map端部分聚合,相当于Combiner
    hive.groupby.skewindata=true

  • 相关阅读:
    认识hammer.js
    Mac使用Charles进行HTTPS抓包
    CentOS7下安装Python3及Pip3并保留Python2
    CenOS7.4内核升级修复系统漏洞
    PHP连接不上MySQL解决方案总结
    linux安装redis
    图片上传的两种实现方式
    python笔记6 模块与包 程序开发规范 包 re sys time os模块
    python Image 模块处理图片
    python笔记5 接口类抽象类 封装 反射 设计模式 模块 :random随机数 josn shelve持久化存储
  • 原文地址:https://www.cnblogs.com/wyh-study/p/12091187.html
Copyright © 2011-2022 走看看