zoukankan      html  css  js  c++  java
  • MapReduce Tutorial(划重点)

    Mapper

    Mapper的maps阶段将输入键值对经过计算得到中间结果键值对,框架会将中间结果按照key进行分组,然后传递给reducer以决定最终的输出。用户可以通过Job.setGroupingComparatorClass(Class)来指定一个Comparator。

    Mapper的输出会被排序,然后被分到不同的区,以供reducer处理。分区数与Reducer任务数相同。

    如果指定了Combiner,那么会对中间结果进行本地聚集操作,这样可以减少从Mapper到Reducer传输的数量。

    Reducer

    Reducer减少中间结果的值,这些中间结果的值共享一个key

    Reducer有三个主要阶段:shuffle、sort、reduce

    Shuffle:这个阶段的输入时Mapper的输出,而且是被排过序的。这个阶段会从所有Mapper的输出中抓取相关分区。

    Sort:这个阶段会按照key分组。Shuffle和Sort阶段是同时进行的,在抓取maps输出的时候就已经进行了合并

    Reduce:Reducer的输出是没有排序的

    Partitioner

    Partitioner控制Mapper中间结果的keys分区。默认的Partitioner是HashPartitioner。

    1、默认的分区方式是哈希取模(HashPartitioner),它会用key的哈希值经过计算然后对reduce任务书取模,以决定中间结果在哪个分区。由于是先用key值取哈希,再进行模运算,那么key值相同的会进入到同一个分区。

    2、Reducer任务的数量是根据公式算出来的。大概是<no. of nodes> * <no. of maximum containers per node> 的0.95倍到1.75倍之间。也就是说Reducer任务数决定了会有多少个分区。

    3、分区是框架做的,中间结果的排序可以自定义

    4、如果指定了Combiner则可以对中间结构进行本地聚集操作

    5、Shuffle阶段是通过HTTP抓取相关的分区并且对分区中的key进行分组排序

  • 相关阅读:
    lbs(查看附近的人),看看社交软件如何实现查看附近的人
    PHP框架中的日志系统
    PHP链式操作输出excel(csv)
    看看你的正则行不行——正则优化一般的json字符串
    PHP设计模式(三)
    PHP设计模式(二)
    PHP设计模式(一)
    PHP守护进程
    数据库的常用日志
    浅谈数据库事物
  • 原文地址:https://www.cnblogs.com/cjsblog/p/8117413.html
Copyright © 2011-2022 走看看