zoukankan      html  css  js  c++  java
  • Hadoop学习之路(十八)MapReduce框架Combiner分区

    对combiner的理解

    combiner其实属于优化方案,由于带宽限制,应该尽量map和reduce之间的数据传输数量。它在Map端把同一个key的键值对合并在一起并计算,计算规则与reduce一致,所以combiner也可以看作特殊的Reducer。

    执行combiner操作要求开发者必须在程序中设置了combiner(程序中通过job.setCombinerClass(myCombine.class)自定义combiner操作)。

    Combiner组件是用来做局部汇总的,就在mapTask中进行汇总;Reducer组件是用来做全局汇总的,最终的,最后一次汇总。

    哪里使用combiner?

    1,map输出数据根据分区排序完成后,在写入文件之前会执行一次combine操作(前提是作业中设置了这个操作);

    2,如果map输出比较大,溢出文件个数大于3(此值可以通过属性min.num.spills.for.combine配置)时,在merge的过程(多个spill文件合并为一个大文件)中前还会执行combiner操作;

    注意事项

    不是每种作业都可以做combiner操作的,只有满足以下条件才可以:

    1、Combiner 只能对 一个mapTask的中间结果进行汇总

    2、如果想使用Reducer直接充当Combiner,那么必须满足: Reducer的输入和输出key-value类型是一致的。

    1)处于两个不同节点的mapTask的结果不能combiner到一起

    2)处于同一个节点的两个MapTask的结果不能否combiner到一起

    3)求最大值、求最小值、求和、去重时可直接使用Reducer充当Combiner,但是求平均值时不能直接使用Reducer充当Combiner。

      原因:对2组值求平均值

      2 3 4 5 6 == 20 / 5 == 4


      4 5 6 == 15 / 3 == 5

      ***********************************************************************

      20+15 / 5+3 = 35 / 8


      4.5

  • 相关阅读:
    按之字形数据打印二叉树
    对称的二叉树
    如何解决哈希冲突
    二叉树的下一节点
    删除链表中重复的节点
    链表的入环节点
    python入门
    js计算总页数
    将map中的值赋值给一个java对象
    给手机发送短信
  • 原文地址:https://www.cnblogs.com/qingyunzong/p/8584509.html
Copyright © 2011-2022 走看看