zoukankan      html  css  js  c++  java
  • hive优化,控制map、reduce数量

    一、调整hive作业中的map数

    1.通常情况下,作业会通过input的目录产生一个或者多个map任务。
    主要的决定因素有: input的文件总个数,input的文件大小,集群设置的文件块大小(目前为128M, 可在hive中通过set dfs.block.size;命令查看到,该参数不能自定义修改);

    2.举例:

    a)假设input目录下有1个文件a,大小为780M,那么hadoop会将该文件a分隔成7个块(6个128m的块和1个12m的块),从而产生7个map数
    b)假设input目录下有3个文件a,b,c,大小分别为10m,20m,130m,那么hadoop会分隔成4个块(10m,20m,128m,2m),从而产生4个map数,即,如果文件大于块大小(128m),那么会拆分,如果小于块大小,则把该文件当成一个块。

    3.是不是map数越多越好?
    答案是否定的。如果一个任务有很多小文件(远远小于块大小128m),则每个小文件也会被当做一个块,用一个map任务来完成,而一个map任务启动和初始化的时间远远大于逻辑处理的时间,就会造成很大的资源浪费。而且,同时可执行的map数是受限的。

    4.是不是保证每个map处理接近128m的文件块,就高枕无忧了?
    答案也是不一定。比如有一个127m的文件,正常会用一个map去完成,但这个文件只有一个或者两个小字段,却有几千万的记录,如果map处理的逻辑比较复杂,用一个map任务去做,肯定也比较耗时我通过以下方法来在map执行前合并小文件,减少map数:

    set mapred.max.split.size=100000000;
    set mapred.min.split.size.per.node=100000000;
    set mapred.min.split.size.per.rack=100000000;
    set hive.input.format=org.apache.hadoop.hive.ql.io.CombineHiveInputFormat;

    增加map数方法:

    1、可以合理调整以下参数可以达到增加map数目的:

    set mapred.max.split.size=100000000;
    set mapred.min.split.size.per.node=100000000;
    set mapred.min.split.size.per.rack=100000000;
    set hive.input.format=org.apache.hadoop.hive.ql.io.CombineHiveInputFormat;

    2、重建目标表将物理分区切分成多份,如下:

    create table emp002 as select * from emp distribute by rand(10);

    二、调整hive作业中的reduce任务个数

    1、调整reduce任务个数方法一:

    设置参数:

    set hive.exec.reducers.bytes.per.reducer=1000000000;

    set hive.exec.reducers.max=999;

    2、设置reduce任务个数方法二:

    调整参数:

    set mapred.reduce.tasks=10;

    三、hive合并输入输出文件

    如果Hive的输入文件是大量的小文件,而每个文件启动一个map的话是对yarn资源的浪费,同样的,hive输出的文件也远远小于HDFS块大小,对后续处理也是不利的。

    HIVE中支持通过参数调整输入和输出的文件大小

    1、合并输入文件

    set mapred.max.split.size=256000000;  #每个Map最大输入大小
    set mapred.min.split.size.per.node=100000000; #一个节点上split的至少的大小
    set mapred.min.split.size.per.rack=100000000; #一个交换机下split的至少的大小
    set hive.input.format=org.apache.Hadoop.hive.ql.io.CombineHiveInputFormat;  #执行Map前进行小文件合并

    开启org.apache.hadoop.hive.ql.io.CombineHiveInputFormat后,一个data node节点上多个小文件会进行合并,合并文件数由mapred.max.split.size限制的大小决定,mapred.min.split.size.per.node决定了多个data node上的文件是否需要合并,mapred.min.split.size.per.rack决定了多个交换机上的文件是否需要合并。

    2、合并输出文件

    set hive.merge.mapfiles = true #在Map-only的任务结束时合并小文件
    set hive.merge.mapredfiles = true #在Map-Reduce的任务结束时合并小文件
    set hive.merge.size.per.task = 256*1000*1000 #合并文件的大小
    set hive.merge.smallfiles.avgsize=16000000 #当输出文件的平均大小小于该值时,启动一个独立的map-reduce任务进行文件merge。

    以上参数在hive-0.13.1中默认值如下:

    hive (default)> set hive.merge.mapfiles;

    hive.merge.mapfiles=true

    hive (default)> set hive.merge.mapredfiles;

    hive.merge.mapredfiles=false

    hive (default)> set hive.merge.size.per.task;

    hive.merge.size.per.task=256000000

    hive (default)> set hive.merge.smallfiles.avgsize;

    hive.merge.smallfiles.avgsize=16000000

    综上所述:一个可能的hive 作业可以设置为以下格式:

    set mapred.max.split.size=100000000;
    set mapred.min.split.size.per.node=100000000;
    set mapred.min.split.size.per.rack=100000000;
    set hive.input.format=org.apache.hadoop.hive.ql.io.CombineHiveInputFormat;

    set hive.exec.reducers.bytes.per.reducer=1000000000;

    set hive.exec.reducers.max=256;

    set hive.merge.mapfiles=true;

    set hive.merge.mapredfiles =ture;

    set hive.merge.size.per.task=256000000;

    set hive.merge.smallfiles.avgsize=16000000;

    select deptno,count(1) from emp group by deptno;

    或者

    set mapred.max.split.size=100000000;
    set mapred.min.split.size.per.node=100000000;
    set mapred.min.split.size.per.rack=100000000;
    set hive.input.format=org.apache.hadoop.hive.ql.io.CombineHiveInputFormat;

    set mapred.reduce.tasks=10;

    set hive.merge.mapfiles=true;

    set hive.merge.mapredfiles =ture;

    set hive.merge.size.per.task=256000000;

    set hive.merge.smallfiles.avgsize=16000000;

    select deptno,count(1) from emp group by deptno;

  • 相关阅读:
    基于springboot框架的博客系统
    告别并不遥远的儿时,抬眼期待未来
    Python微信公众号教程基础篇——收发文本消息
    华为云落地敏捷+DevOps,助力大企业高效能
    【nodejs原理&源码赏析(5)】net模块与通讯的实现
    华为云&华中大联合实验室,夺得2019ICDAR发票识别竞赛世界第一
    00034_类与对象
    php批量下载文件
    php批量下载图片
    asp.net批量下载文件
  • 原文地址:https://www.cnblogs.com/kwzblog/p/9542333.html
Copyright © 2011-2022 走看看