YARN
Hadoop三大核心
mapreduce负责分布式计算
HDFS : 负责分布式文件管理,副本机制,机架策略(需要让Hadoop感知交换机)读流长,写流程,日志文件和镜像文件 主从模式单点故障模式
YARN : 负责分布式资源管理
1.客户端携带的jar就去找ResourceManage计算请求
2.ResourceManage需要一个container去启动app master
3.master启动拿到jar程序进行评估,
4.master向namenode请求文件的位置
5.namenode根据最近原则和datanode忙于不忙的情况,将计划交给master
6.master根据DataNode的所在位置,定制计划需要多少cpu等
7.master将具体计划提交给rm
8.rm同意 将资源包含成 交给container
不同意 回到第四步直到同意
9. 跑程序 跑完通知resourceMange
10.将结果写在hdfs上,并且master死亡