zoukankan      html  css  js  c++  java
  • MapReduce的运行流程概述

    MapReduce处理数据的大致流程

    InputFormat调用RecordReader,从输入目录的文件中,读取一组数据,封装为keyin-valuein对象

    ②将封装好的key-value,交给Mapper.map()------>将处理的结果写出 keyout-valueout

    ReduceTask启动Reducer,使用Reducer.reduce()处理Mapper的keyout-valueout

    ④OutPutFormat调用RecordWriter,将Reducer处理后的keyout-valueout写出到文件

    关于这些名词的解释参考我之前的文章MapReduce计算框架的核心编程思想

    示例

    需求: 统计/hello目录中每个文件的单词数量
    a-p开头的单词放入到一个结果文件中,
    q-z开头的单词放入到另外一个结果文件中。

    例如:
    /hello/a.txt,文件大小200M
    hello,hi,hadoop
    hive,hadoop,hive,
    zoo,spark,wow
    zoo,spark,wow
    ...

    /hello/b.txt,文件大小100M
    hello,hi,hadoop
    zoo,spark,wow
    ...

    1. Map阶段(运行MapTask,将一个大的任务切分为若干小任务,处理输出阶段性的结果)

    ①切片(切分数据)
    /hello/a.txt 200M
    /hello/b.txt 100M

    默认的切分策略是以文件为单位,以文件的块大小(128M)片大小进行切片!
    split0:/hello/a.txt,0-128M
    split1: /hello/a.txt,128M-200M
    split2: /hello/b.txt,0M-100M

    ②运行MapTask(进程),每个MapTask负责一片数据

    split0:/hello/a.txt,0-128M--------MapTask1
    split1: /hello/a.txt,128M-200M--------MapTask2
    split2: /hello/b.txt,0M-100M--------MapTask3

    ③读取数据阶段

    在MR中,所有的数据必须封装为key-value
    MapTask1,2,3都会初始化一个InputFormat(默认TextInputFormat),每个InputFormat对象负责创建一个RecordReader(LineRecordReader)对象,
    RecordReader负责从每个切片的数据中读取数据,封装为key-value

    LineRecordReader: 将文件中的每一行封装为一个key(offset)-value(当前行的内容)
    举例:
    hello,hi,hadoop----->(0,hello,hi,hadoop)
    hive,hadoop,hive----->(20,hive,hadoop,hive)
    zoo,spark,wow----->(30,zoo,spark,wow)
    zoo,spark,wow----->(40,zoo,spark,wow)

    ④进入Mapper的map()阶段

    map()是Map阶段的核心处理逻辑! 单词统计! map()会循环调用,对输入的每个Key-value都进行处理!
    输入:(0,hello,hi,hadoop)
    输出:(hello,1),(hi,1),(hadoop,1)

    输入:(20,hive,hadoop,hive)
    输出:(hive,1),(hadoop,1),(hive,1)

    输入:(30,zoo,spark,wow)
    输出:(zoo,1),(spark,1),(wow,1)

    输入:(40,zoo,spark,wow)
    输出:(zoo,1),(spark,1),(wow,1)

    ⑤将MapTask输出的记录进行分区(分组、分类)

    在Mapper输出后,调用Partitioner,对Mapper输出的key-value进行分区,分区后也会排序(默认字典顺序排序)
    分区规则:

    • a-p开头的单词放入到一个区
    • q-z开头的单词放入到另一个区
      MapTask1:
      0号区: (hadoop,1),(hadoop,1),(hello,1),(hi,1),(hive,1),(hive,1)
      1号区: (spark,1),(spark,1),(wow,1) ,(wow,1),(zoo,1)(zoo,1)

    MapTask2:
    0号区: ...
    1号区: ...

    MapTask3:
    0号区: (hadoop,1),(hello,1),(hi,1),
    1号区: (spark,1),(wow,1),(zoo,1)

    2.Reduce阶段

    ①因为需求是生成两个结果文件,所以我们需要启动两个ReduceTask
    ReduceTask启动后,会启动shuffle线程,从MapTask中拷贝相应分区的数据!

    ReduceTask1: 只负责0号区
    将三个MapTask,生成的0号区数据全部拷贝到ReduceTask所在的机器!
    (hadoop,1),(hadoop,1),(hello,1),(hi,1),(hive,1),(hive,1)
    (hadoop,1),(hello,1),(hi,1),

    ReduceTask2: 只负责1号区
    将三个MapTask,生成的1号区数据全部拷贝到ReduceTask所在的机器!
    (spark,1),(spark,1),(wow,1) ,(wow,1),(zoo,1)(zoo,1)
    (spark,1),(wow,1),(zoo,1)

    ②sort

    ReduceTask1: 只负责0号区进行排序:
    (hadoop,1),(hadoop,1),(hadoop,1),(hello,1),(hello,1),(hi,1),(hi,1),(hive,1),(hive,1)
    ReduceTask2: 只负责1号区进行排序:
    (spark,1),(spark,1),(spark,1),(wow,1) ,(wow,1),(wow,1),(zoo,1),(zoo,1)(zoo,1)

    ③reduce
    ReduceTask1---->Reducer----->reduce(一次读入一组数据)

    何为一组数据: key相同的为一组数据
    输入: (hadoop,1),(hadoop,1),(hadoop,1)
    输出: (hadoop,3)

    输入: (hello,1),(hello,1)
    输出: (hello,2)

    输入: (hi,1),(hi,1)
    输出: (hi,2)

    输入:(hive,1),(hive,1)
    输出: (hive,2)

    ReduceTask2---->Reducer----->reduce(一次读入一组数据)

    输入: (spark,1),(spark,1),(spark,1)
    输出: (spark,3)

    输入: (wow,1) ,(wow,1),(wow,1)
    输出: (wow,3)

    输入:(zoo,1),(zoo,1)(zoo,1)
    输出: (zoo,3)

    ④调用OutPutFormat中的RecordWriter将Reducer输出的记录写出
    ReduceTask1---->OutPutFormat(默认TextOutPutFormat)---->RecordWriter(LineRecoreWriter)
    LineRecoreWriter将一个key-value以一行写出,key和alue之间使用 分割
    在输出目录中,生成文件part-r-0000
    hadoop 3
    hello 2
    hi 2
    hive 2

    ReduceTask2---->OutPutFormat(默认TextOutPutFormat)------>RecordWriter(LineRecoreWriter)
    LineRecoreWriter将一个key-value以一行写出,key和alue之间使用 分割
    在输出目录中,生成文件part-r-0001
    spark 3
    wow 3
    zoo 3

    三、MR总结

    Map阶段(MapTask): 切片(Split)-----读取数据(Read)-------交给Mapper处理(Map)------分区和排序(sort)

    Reduce阶段(ReduceTask): 拷贝数据(copy)------排序(sort)-----合并(reduce)-----写出(write)

  • 相关阅读:
    167. 两数之和 II
    14. 最长公共前缀
    28. 实现strStr()
    118. 杨辉三角
    54. 螺旋矩阵
    498. 对角线遍历
    66. 加一
    747. 至少是其他数字两倍的最大数
    34. 在排序数组中查找元素的第一个和最后一个位置
    164. 寻找峰值
  • 原文地址:https://www.cnblogs.com/sunbr/p/13286217.html
Copyright © 2011-2022 走看看