zoukankan      html  css  js  c++  java
  • Hadoop版本变迁

    Hadoop版本变迁

    到2012年5月为止,Apache Hadoop已经出现四个大的分支,如图2-1所示。

    Apache Hadoop的四大分支构成了四个系列的Hadoop版本。

    1. 0.20.X系列

    0.20.2版本发布后,几个重要的特性没有基于trunk而是在0.20.2基础上继续研发。值得一提的主要有两个特性:Append与Security。其中,含Security特性的分支以0.20.203版本发布,而后续的0.20.205版本综合了这两个特性。需要注意的是,之后的1.0.0版本仅是0.20.205版本的重命名。0.20.X系列版本是最令用户感到疑惑的,因为它们具有的一些特性,trunk上没有;反之,trunk上有的一些特性,0.20.X系列版本却没有。

    2. 0.21.0/0.22.X系列

    这一系列版本将整个Hadoop项目分割成三个独立的模块,分别是 Common、HDFS和MapReduce。HDFS和MapReduce都对Common模块有依赖性,但是MapReduce对HDFS并没有依赖性。这样,MapReduce可以更容易地运行其他分布式文件系统,同时,模块间可以独立开发。具体各个模块的改进如下。

    Common模块:最大的新特性是在测试方面添加了Large-Scale Automated Test Framework和Fault Injection Framework。

    HDFS模块:主要增加的新特性包括支持追加操作与建立符号连接、Secondary NameNode改进(Secondary NameNode被剔除,取而代之的是Checkpoint Node,同时添加一个Backup Node的角色,作为NameNode的冷备)、允许用户自定义block放置算法等。

    MapReduce模块:在作业API方面,开始启动新MapReduce API,但老的API仍然兼容。

    0.22.0在0.21.0的基础上修复了一些bug并进行了部分优化。
     

    3. 0.23.X系列

    0.23.X是为了克服Hadoop在扩展性和框架通用性方面的不足而提出来的。它实际上是一个全新的平台,包括分布式文件系统HDFS Federation和资源管理框架YARN两部分,可对接入的各种计算框架(如MapReduce、Spark等)进行统一管理。它的发行版自带MapReduce库,而该库集成了迄今为止所有的MapReduce新特性。

    4. 2.X系列

    同0.23.X系列一样,2.X系列也属于下一代Hadoop。与0.23.X系列相比,2.X系列增加了NameNode HA和Wire-compatibility等新特性。

    表2-1总结了Hadoop各个发布版的特性以及稳定性。

    表2-1 Hadoop各个发布版的特性以及稳定性
     

    本书之所以以分析Apache Hadoop 1.0.0为主,主要是因为这是一个稳定的版本,再有其为1.0.0,具有里程碑意义。Apache发布这个版本,也是希望该版本成为业界的规范。需要注意的是,尽管本书以分析Apache Hadoop 1.0.0版本为主,但本书内容适用于所有Apache Hadoop 1.X版本。

    =======================================================================================

    0.20.x版本最后演化成了现在的1.0.x版本

    0.23.x版本最后演化成了现在的2.x版本

    hadoop 1.0 指的是1.x(0.20.x),0.21,0.22

    hadoop 2.0 指的是2.x,0.23.x

    CDH3,CDH4分别对应了hadoop1.0 hadoop2.0


    如何选择Hadoop版本

    当前Hadoop版本比较混乱,让很多用户不知所措。实际上,当前Hadoop只有两个版本:Hadoop 1.0和Hadoop 2.0,其中,Hadoop 1.0由一个分布式文件系统HDFS和一个离线计算框架MapReduce组成,而Hadoop 2.0则包含一个支持NameNode横向扩展的HDFS,一个资源管理系统YARN和一个运行在YARN上的离线计算框架MapReduce。相比于Hadoop 1.0,Hadoop 2.0功能更加强大,且具有更好的扩展性、性能,并支持多种计算框架。

    当我们决定是否采用某个软件用于开源环境时,通常需要考虑以下几个因素:

    (1)是否为开源软件,即是否免费。

    (2) 是否有稳定版,这个一般软件官方网站会给出说明。

    (3) 是否经实践验证,这个可通过检查是否有一些大点的公司已经在生产环境中使用知道。

    (4) 是否有强大的社区支持,当出现一个问题时,能够通过社区、论坛等网络资源快速获取解决方法。

    如今Hadoop 2.0已经发布了最新的稳定版2.4.0。

    Download

    • 1.2.X - current stable version, 1.2 release
    • 2.4.X - current stable 2.x version
    • 0.23.X - similar to 2.X.X but missing NN HA.

    Releases may be downloaded from Apache mirrors.

    Download a release now!

  • 相关阅读:
    20145229 《信息安全系统设计基础》第1周学习总结
    20145229吴姗珊 《信息安全系统设计基础》第0周学习总结
    20145229吴姗珊 《Java程序设计》课程总结
    20145229 《Java程序设计》第10周学习总结
    20145229吴姗珊第五次实验报告
    20145229《Java程序设计》第四次实验报告
    20145229吴姗珊 《Java程序设计》第9周总结
    20145229实验三实验报告——敏捷开发与XP实践
    20145229吴姗珊 《Java程序设计》第8周学习总结
    20145229吴姗珊 《Java程序设计》2天小总结
  • 原文地址:https://www.cnblogs.com/lvfeilong/p/243dsfdsfd.html
Copyright © 2011-2022 走看看