zoukankan      html  css  js  c++  java
  • hive调优

    hive调优



    参数调优 
    1、map阶段数据压缩

    1. set hive.exec.compress.intermediate=true
    2. set mapred.map.output.compression.codec= org.apache.hadoop.io.compress.SnappyCodec
    3. set mapred.map.output.compression.codec=com.hadoop.compression.lzo.LzoCodec;

    ​ 2、对最终生成的hive表数据压缩 
    ​ 1、通过参数设置

    1. set hive.exec.compress.output=true
    2. set mapred.output.compression.codec=org.apache.hadoop.io.compress.SnappyCodec

    ​ 2、通过建表语句设置

    1. create table tablename (
    2. xxx,string
    3. xxx, bigint
    4. )
    5. ROW FORMAT DELTMITED FIELDS TERMINATED BY ' '
    6. STORED AS orc tblproperties("orc.compress" = "SNAPPY")

    ​ 3、分区(分区表相当于hive的索引,加快查询速度)

    ​ 4、分桶(两个表join的时候,如果两个表在相同列上有分桶操作,会减少join数据量【要求两个表的桶数量要相同或成倍数】)

    ​ 5、并行计算,stage不依赖的时候可以并行计算 
    ​ // 开启任务并行执行

    1. set hive.exec.parallel=true;

    ​ // 同一个sql允许并行任务的最大线程数

    1. set hive.exec.parallel.thread.number=8;

    ​ 6、JVM重用 
    ​ JVM重用对hive的性能具有非常大的 影响,特别是对于很难避免小文件的场景或者task特别多的场景,这类场景大多数执行时间都很短。jvm的启动过程可能会造成相当大的开销,尤其是执行的job包含有成千上万个task任务的情况。

    1. set mapred.job.reuse.jvm.num.tasks=10;

    ​ 7、调整reduce的个数 
    ​ 第一种方法:根据数据量调整reduce个数 hive.exec.reducers.bytes.per.reducer 【设置每个reduce处理的数据量,默认256M】 
    ​ 第二种方法: 直接设置reduce的个数 set mapred.reduce.tasks = number 
    ​ 8、推测执行

    1. mapred.map.tasks.speculative.execution
    2. mapred.reduce.tasks.speculative.execution

    ​ 9、小文件合并

    1. set hive.merge.mapfiles = true ##在 map only 的任务结束时合并小文件
    2. set hive.merge.mapredfiles = false ## true 时在 MapReduce 的任务结束时合并小文件
    3. set hive.merge.size.per.task = 256*1000*1000 ##合并文件的大小
    4. set mapred.max.split.size=256000000; ##每个 Map 最大分割大小
    5. set mapred.min.split.size.per.node=1; ##一个节点上 split 的最少值
    6. set hive.input.format=org.apache.hadoop.hive.ql.io.CombineHiveInputFormat; ##执行Map前进行小文件合并

    SQL调优 
    1、where语句优化

    1. select m.cid,u.id from order m join customer u on( m.cid =u.id )where m.dt='20180808';

    ​ 可优化为

    1. select m.cid,u.id from select * from order where dt='20180818' m join customer u on( m.cid =u.id);

    ​ 2、union优化 
    ​ 尽量不要使用union (union 去掉重复的记录)而是使用 union all 然后在用group by 去重 
    ​ 3、count distinct优化 
    ​ 不要使用count (distinct cloumn) ,而要使用子查询实现count(distinct)

    1. select count(1) from (select id from tablename group by id) tmp;

    ​ 4、如果需要根据一张表的字段约束另一个张表,用in代替join

    1. select id,name from tb1 a join tb2 b on(a.id = b.id);

    ​ 可优化为

    1. select id,name from tb1 where id in(select id from tb2); in 要比join

    ​ 5、消灭子查询内的 group by 、 COUNT(DISTINCT),MAX,MIN。 可以减少job的数量。 
    ​ 6、join优化 
    ​ map端join

    1. set hive.auto.convert.join = true; 默认为true
    2. set hive.mapjoin.smalltable.filesize=25000000; 设置小表的阈值

    7、本地模式 
    当 Hive 查询处理的数据量比较小时,其实没有必要启动分布式模式去执行,因为以分布式方式执行就涉及到跨网络传输、多节点协调 等,并且消耗资源。这个时间可以只使用本地模式来执行 mapreduce job,只在一台机器上执行,速度会很快

    1. set hive.exec.mode.local.auto=true 是打开 hive 自动判断是否启动本地模式的开关,但是只 是打开这个参数并不能保证启动本地模式,要当 map 任务数不超过
    2. hive.exec.mode.local.auto.input.files.max 的个数并且 map 输入文件大小不超过
    3. hive.exec.mode.local.auto.inputbytes.max 所指定的大小时,才能启动本地模式。

  • 相关阅读:
    故事讲的好,才会有人去思考:什么是成功的商业片——记《疯狂的石头》
    收集的特色flash网站
    pf负载均衡
    squid故障与解决方法汇总
    IIS7.0在Vista上的错误 0x80070021
    PF 默认会限制最大连接数5000问题
    Squid日志详解
    samba结合AD实现大型网络方案
    inotify监听+rsync
    AD帐号登陆samba自动创建主目录脚本
  • 原文地址:https://www.cnblogs.com/leccoo/p/11442429.html
Copyright © 2011-2022 走看看