zoukankan      html  css  js  c++  java
  • hadoop框架三大组件hdfs、mapreduce、yarn 内容

    HDFS概述

    HDFS产出背景定义

    HDFS优缺点

     

    HDFS组成架构

     

    HDFS文件块大小(面试重点

    MapReduce概述

     MapReduce定义

    MapReduce优缺点

    优点

    缺点

    MapReduce核心思想

    1)分布式的运算程序往往需要分成至少2个阶段。

    2)第一个阶段的MapTask并发实例,完全并行运行,互不相干。

    3)第二个阶段的ReduceTask并发实例互不相干,但是他们的数据依赖于上一个阶段的所有MapTask并发实例的输出。

    4)MapReduce编程模型只能包含一个Map阶段和一个Reduce阶段,如果用户的业务逻辑非常复杂,那就只能多个MapReduce程序,串行运行。

    总结分析WordCount数据流走向深入理解MapReduce核心思想。

    MapReduce进程

    Yarn基本架构

    ARN主要由ResourceManagerNodeManagerApplicationMasterContainer等组件构成。

     

     Yarn工作机制

    工作机制详解

    1MR程序提交到客户端所在的节点。

    2YarnRunnerResourceManager申请一个Application

    3RM将该应用程序的资源路径返回给YarnRunner。

    4)该程序将运行所需资源提交到HDFS

    5)程序资源提交完毕后,申请运行mrAppMaster。

    6RM将用户的请求初始化成一个Task。

    7)其中一个NodeManager领取Task任务。

    8)该NodeManager创建容器Container并产生MRAppmaster。

    9ContainerHDFS上拷贝资源到本地

    10MRAppmaster向RM 申请运行MapTask资源。

    11RM运行MapTask任务分配给另外两个NodeManager,另两个NodeManager分别领取任务创建容器。

    12MR向两个接收到任务的NodeManager发送程序启动脚本这两个NodeManager分别启动MapTask,MapTask对数据分区排序。

    13MrAppMaster等待所有MapTask运行完毕后,向RM申请容器,运行ReduceTask

    14ReduceTaskMapTask获取相应分区的数据。

    15)程序运行完毕后,MR会向RM申请注销自己。

     

  • 相关阅读:
    C++继承基础总结
    C++如何设计只实例化一次的类?
    复试专业课知识记录(6)
    复试专业课知识记录(5)
    复试专业课知识记录(4)
    复试专业课知识记录(3)
    复试专业课知识记录(2)
    卡尔曼滤波算法学习记录
    复试专业课知识记录(1)
    PAT:1048. Find Coins (25)(哈希表法) AC
  • 原文地址:https://www.cnblogs.com/Qin125/p/13381875.html
Copyright © 2011-2022 走看看