Hadoop提交作业流程

zoukankan html css js c++ java

Hadoop提交作业流程

一、需要知道的内容

1.ResourceManager ------>yarn的老大
2.NodeManager ------>yarn的小弟
3.ResourceManager调度器 a.默认调度器------>先进先出FIFO
b.公平调度器------>每个任务都有执行的机会
......
4.心跳机制 ------>NodeManager可通过心跳机制将节点健康状况实时汇报给ResourceManager，而ResourceManager则会根据每个NodeManager的健康状况适当调整分配的任务数目。当NodeManager认为自己的健康状况“欠佳”时，可让ResourceManager不再分配任务，待健康状况好转时，再分配新任务。

5.NodeManager子进程------>独立于NodeManager，不在NodeManager内部

二、Hadoop工作流程：

1.Client中，客户端提交一个mr的jar包给JobClient(提交方式：hadoop jar ...)

2.JobClient持有ResourceManager的一个代理对象，它向ResourceManager发送一个RPC请求，告诉ResourceManager作业开始，
然后ResourceManager返回一个JobID和一个存放jar包的路径给Client

3.Client将得到的jar包的路径作为前缀，JobID作为后缀(path = hdfs上的地址 + jobId) 拼接成一个新的hdfs的路径，然后Client通过FileSystem向hdfs中存放jar包，默认存放10份
（NameNode和DateNode等操作）

4.开始提交任务，Client将作业的描述信息（JobID和拼接后的存放jar包的路径等）RPC返回给ResourceManager

5.ResourceManager进行初始化任务，然后放到一个调度器中

6.ResourceManager读取HDFS上的要处理的文件，开始计算输入分片，每一个分片对应一个MapperTask，根据数据量确定起多少个mapper,多少个reducer

7.NodeManager 通过心跳机制向ResourceManager领取任务（任务的描述信息）

8.领取到任务的NodeManager去Hdfs上下载jar包，配置文件等

9.NodeManager启动相应的子进程yarnchild，运行mapreduce，运行maptask或者reducetask

10.map从hdfs中读取数据，然后传给reduce，reduce将输出的数据给回hdfs

--------------------- 本文来自小虹尘的CSDN 博客，全文地址请点击：https://blog.csdn.net/hongchenlingtian/article/details/53524705?utm_source=copy

查看全文

相关阅读:
DotNet友元程序集解析
 fastadmin如何在列表操作列区域添加按钮及控制已有按钮显示
 PHP合成透明图片
 linux系统下执行定时任务的全过程
 关于阿里云简单文件上传OSS思路整理服务器上的文件上传到OSS
PHP图片和文字合成函数刚刚出炉
 关于在fastadmin后台AJAX上传图片或者视频增加额外参数的办法
 标记一下关于fastadmin在列表页获取视频时长并且AJAX提交到后端正常显示的过程
 关于phpexcel导出65535的解决思路
 PHP原生代码集成腾讯云对象存储 COS整个过程源码方式

原文地址：https://www.cnblogs.com/puppey/p/9707786.html