MapReduce作业流程(转载)

zoukankan html css js c++ java

MapReduce作业流程(转载)
hadoop mapreduce作业流程概论
mapreduce的一个完整作业流程是怎么样的呢，相信刚接触hadoop,刚写mapreduce的初学者都有很大的困扰，下面的图来自http://horicky.blogspot.com/2008/11/hadoop-mapreduce-implementation.html，是我看到的讲MapReduce最好的图。

以Hadoop带的wordcount为例子（下面是启动行）：

hadoop jar hadoop-0.19.0-examples.jar wordcount /usr/input /usr/output

用户提交一个任务以后，该任务由JobTracker协调，先执行Map阶段（图中M1，M2和M3），然后执行Reduce阶段（图中R1和R2）。

Map阶段和Reduce阶段动作都受到TaskTracker监控，并运行在独立于TaskTracker的Java虚拟机中。

我们的输入和输出都是HDFS上的目录（如上图所示）。输入由InputFormat接口描述，它的实现如ASCII文件，JDBC数据库等，分别处理对于的数据源，并提供了数据的一些特征。通过InputFormat实现，可以获取InputSplit接口的实现，这个实现用于对数据进行划分（图中的splite1到splite5，就是划分以后的结果），同时从InputFormat也可以获取RecordReader接口的实现，并从输入中生成<k,v>对。有了<k,v>，就可以开始做map操作了。

map操作通过context.collect（最终通过OutputCollector. collect）将结果写到context中。当Mapper的输出被收集后，它们会被Partitioner类以指定的方式区分地写出到输出文件里。我们可以为Mapper提供Combiner，在Mapper输出它的<k,v>时，键值对不会被马上写到输出里，他们会被收集在list里（一个key值一个list），当写入一定数量的键值对时，这部分缓冲会被Combiner中进行合并，然后再输出到Partitioner中（图中M1的黄颜色部分对应着Combiner和Partitioner）。

Map的动作做完以后，进入Reduce阶段。这个阶段分3个步骤：混洗（Shuffle），排序（sort）和reduce。

混洗阶段，Hadoop的MapReduce框架会根据Map结果中的key，将相关的结果传输到某一个Reducer上（多个Mapper产生的同一个key的中间结果分布在不同的机器上，这一步结束后，他们传输都到了处理这个key的Reducer的机器上）。这个步骤中的文件传输使用了HTTP协议。

排序和混洗是一块进行的，这个阶段将来自不同Mapper具有相同key值的<key,value>对合并到一起。

Reduce阶段，上面通过Shuffle和sort后得到的<key, (list="" of="" values)="">会送到Reducer. reduce方法中处理，输出的结果通过OutputFormat，输出到DFS中。
查看全文

相关阅读:
回调函数：一定要在函数名前加上 CALLBACK，否则有可能引起内存崩溃！
win32-api: 让 static 控件中的水平横行，垂直居中。
Win32-API: 终于能正常的捕获焦点事件: WM_COMMAND、BN_SETFOCUS、EN_SETFOCUS
FindExecutable：查找与一个指定文件关联在一起的程序的文件名
 ImageMagick: win7 | win8 & uac (用户帐户控制) 注册表的一些事
 ImageMagick: 6.8.3 升级到 6.8.9 遇到的问题
 ImageMagick: DrawImage(Image*,DrawInfo*) 绘制填充图片时卡住的原因分析
 真的无语，今天遇到一个奇葩的事情: http 会话劫持
 高DPI下界面错乱的解决方法和原理
 关于 HDC 的释放

原文地址：https://www.cnblogs.com/itgg168/p/2780403.html