zoukankan      html  css  js  c++  java
  • MapReduce之Combiner合并

    • Combiner是MR程序中Mapper和Reducer之外的一种组件(本质是一个Reducer类)

    • Combinr组件的父类就是Reducer

    • Conbimer只有在驱动类里设置了之后,才会运行
      在这里插入图片描述

    • Combiner和Reducer的区别在于运行的位置:
      map----sort---copy---sort(shuffle阶段)---reduce

    1. ==Combiner是在每一个MapTask所在的节点运行
    2. Reducer是接收全局所有Mapper的输出结果==
    • Combiner的意义就是对每一个MapTask的输出进行局部汇总,以减小网络传输量(减少磁盘IO和网络IO)

    • Cormbiner能多应用的前提是不能影响最终的业务逻辑,而且,Combiner的输出kv应该跟Reducer的输入kv类型要对应起来。 Combiner用在加减操作的场景,不能用在乘除操作的场景
      比如:
      在这里插入图片描述

    • Combiner既有可能在MapTask端调用:
      ①每次溢写前会调用Combiner对溢写的数据进行局部合并
      ②在merge时,如果溢写的片段数>=3,如果设置了Combiner,Combiner会再次对
      数据进行Combine!

    • Combiner既有可能在ReduceTask端调用:
      ③shuffle线程拷贝多个MapTask同一分区的数据,拷贝后执行merge和sort,
      如果数据量过大,需要将部分数据先合并排序后,溢写到磁盘!
      如果设置了Combiner,Combiner会再次运行!

  • 相关阅读:
    github教程
    Django订单接入支付宝
    python去除html标签的几种方法
    vue-cli项目生成
    restful设计规范
    Vue的指令系统、计算属性和表单输入绑定
    Vue工具
    药物不良反应数据库信息的下载
    爬虫案例之Pubmed数据库下载
    数据分析案例之39药品网
  • 原文地址:https://www.cnblogs.com/sunbr/p/13401415.html
Copyright © 2011-2022 走看看