zoukankan      html  css  js  c++  java
  • Hadoop简介及架构

    狭义上来说,hadoop就是单独指代hadoop这个软件,

    广义上来说,hadoop指代大数据的一个生态圈,包括很多其他的软件

     

    2、hadoop的历史版本介绍

    0.x系列版本:hadoop当中最早的一个开源版本,在此基础上演变而来的1.x以及2.x的版本

    1.x版本系列:hadoop版本当中的第二代开源版本,主要修复0.x版本的一些bug等

    2.x版本系列:架构产生重大变化,引入了yarn平台等许多新特性

    3、hadoop三大公司发型版本介绍

    免费开源版本apache:

    http://hadoop.apache.org/

    优点:拥有全世界的开源贡献者,代码更新迭代版本比较快,

    缺点:版本的升级,版本的维护,版本的兼容性,版本的补丁都可能考虑不太周到,学习可以用,实际生产工作环境尽量不要使用

    apache所有软件的下载地址(包括各种历史版本):

    http://archive.apache.org/dist/

    免费开源版本hortonWorks:

    https://hortonworks.com/

    hortonworks主要是雅虎主导Hadoop开发的副总裁,带领二十几个核心成员成立Hortonworks,核心产品软件HDP(ambari),HDF免费开源,并且提供一整套的web管理界面,供我们可以通过web界面管理我们的集群状态,web管理界面软件HDF网址(http://ambari.apache.org/

    软件收费版本ClouderaManager:

    https://www.cloudera.com/

    cloudera主要是美国一家大数据公司在apache开源hadoop的版本上,通过自己公司内部的各种补丁,实现版本之间的稳定运行,大数据生态圈的各个版本的软件都提供了对应的版本,解决了版本的升级困难,版本兼容性等各种问题,生产环境强烈推荐使用

    4、hadoop的架构模型(1.x,2.x的各种架构模型介绍)

    4.1、1.x的版本架构模型介绍

    文件系统核心模块:

    NameNode:集群当中的主节点,主要用于管理集群当中的各种数据

    secondaryNameNode:主要能用于hadoop当中元数据信息的辅助管理

    DataNode:集群当中的从节点,主要用于存储集群当中的各种数据

    数据计算核心模块:

    JobTracker:接收用户的计算请求任务,并分配任务给从节点

    TaskTracker:负责执行主节点JobTracker分配的任务

    4.2、2.x的版本架构模型介绍

    第一种:NameNode与ResourceManager单节点架构模型

    文件系统核心模块:

    NameNode:集群当中的主节点,主要用于管理集群当中的各种数据

    secondaryNameNode:主要能用于hadoop当中元数据信息的辅助管理

    DataNode:集群当中的从节点,主要用于存储集群当中的各种数据

    数据计算核心模块:

    ResourceManager:接收用户的计算请求任务,并负责集群的资源分配

    NodeManager:负责执行主节点APPmaster分配的任务

    第二种:NameNode单节点与ResourceManager高可用架构模型

    文件系统核心模块:

    NameNode:集群当中的主节点,主要用于管理集群当中的各种数据

    secondaryNameNode:主要能用于hadoop当中元数据信息的辅助管理

    DataNode:集群当中的从节点,主要用于存储集群当中的各种数据

    数据计算核心模块:

    ResourceManager:接收用户的计算请求任务,并负责集群的资源分配,以及计算任务的划分,通过zookeeper实现ResourceManager的高可用

    NodeManager:负责执行主节点ResourceManager分配的任务

    第三种:NameNode高可用与ResourceManager单节点架构模型

    文件系统核心模块:

    NameNode:集群当中的主节点,主要用于管理集群当中的各种数据,其中nameNode可以有两个,形成高可用状态

    DataNode:集群当中的从节点,主要用于存储集群当中的各种数据

    JournalNode:文件系统元数据信息管理

    数据计算核心模块:

    ResourceManager:接收用户的计算请求任务,并负责集群的资源分配,以及计算任务的划分

    NodeManager:负责执行主节点ResourceManager分配的任务

    第四种:NameNode与ResourceManager高可用架构模型

    文件系统核心模块:

    NameNode:集群当中的主节点,主要用于管理集群当中的各种数据,一般都是使用两个,实现HA高可用

    JournalNode:元数据信息管理进程,一般都是奇数个

    DataNode:从节点,用于数据的存储

    数据计算核心模块:

    ResourceManager:Yarn平台的主节点,主要用于接收各种任务,通过两个,构建成高可用

    NodeManager:Yarn平台的从节点,主要用于处理ResourceManager分配的任务

  • 相关阅读:
    从运维域看 Serverless 真的就是万能银弹吗?
    C#技术漫谈之垃圾回收机制(GC)(转)
    题解 hdu4624 Endless Spin
    JS递归删除所有子元素【原】
    Asp.Net 生成验证图片
    mouseover显示层mouseout隐藏层,并且在鼠标放上层时显示层【原】
    C# yield关键字的使用
    MS SQL SERVER中的临时表
    猫 老鼠 人的编程题
    面试题:接口和抽象类的区别 【转】
  • 原文地址:https://www.cnblogs.com/elevenapple/p/11164633.html
Copyright © 2011-2022 走看看