zoukankan      html  css  js  c++  java
  • 作业2

    一、了解对比Hadoop不同版本的特性,可以用图表的形式呈现。

    答:Apache Hadoop版本分为两代,第一代Hadoop称为Hadoop1.0,第二代Hadoop称为Hadoop2.0。第一代Hadoop包含0.20.x、0.21.x、0.22.x三大版本,其中,0.20.x最后演化成1.0.x,变成了稳定版。而0.21.x和0.22.x则增加了HDFS HA等重要的新特性。第二代Hadoop包含0.23.x和2.x两大版本。他们完全不同于Hadoop1.0,是一套全新的架构,均包含HDFS Federation和YARN两个系统。

    Hadoop 2.4.0版本于2014年4月7日发布,相比于hadoop 2.3.0,有了很多重大改进,主要包括:

    1.HDFS支持ACL
    2. HDFS在线升级更加容易
    3.HDFS支持https访问方式
    4.YARN ResourceManager容错
    5.增加了Application Timeline Server
    6.Capacity scheduler支持资源抢占

    二、Hadoop生态的组成、每个组件的作用、组件之间的相互关系,以图例加文字描述呈现。

    答:Hadoop的核心组件是HDFS、MapReduce。随着处理任务不同,各种组件相继出现,丰富Hadoop生态圈,目前生态圈结构大致如图所示:

     

    三、官网学习Hadoop的安装与使用,用文档的方式列出步骤与注意事项。

    答:

    下载Hadoop安装包————www.hadoop.org

     

    解压Hadoop安装包

     

    首先先要配置好java环境变量 Java_HOME要确认好jdk的路径。

     

    配置好Java环境变量后开始配置hadoop核心配置文件

    1.打开 hadoop-2.7.3/etc/hadoop/core-site.xml,添加一下内容到末尾。

    <configuration>

            <property>

        <name>fs.defaultFS</name>

        <value>hdfs://localhost:9000</value>  

            </property>

    </configuration>

    2.打开 hadoop-2.7.3/etc/hadoop/mapred-site.xml,添加一下内容到末尾。

    <configuration>  

            <property>      

            <name>mapreduce.framework.name</name>      

            <value>yarn</value>  

            </property>

    </configuration>

    3.打开 hadoop-2.7.3/etc/hadoop/hdfs-site.xml,添加一下内容到末尾。

    先创建两个文件夹
    E:/hadoop-2.7.3/namenode
    E:/hadoop-2.7.3/datanode

    <configuration>

            <property>      

            <name>dfs.replication</name>      

            <value>1</value>  

            </property>  

            <property>      

            <name>dfs.namenode.name.dir</name>      

            <value>/E:/hadoop-2.7.3/namenode</value>//路径为你的存放路径  

            </property>  

            <property>      

            <name>dfs.datanode.data.dir</name>    

            <value>/E:/hadoop-2.7.3/datanode</value>//路径为你的存放路径  

            </property>

    </configuration>

    4.打开 hadoop-2.7.3/etc/hadoop/yarn-site.xml,添加一下内容到末尾。

    <configuration>  

            <property>      

            <name>yarn.nodemanager.aux-services</name>      

            <value>mapreduce_shuffle</value>  

            </property>  

            <property>      

            <name>yarn.nodemanager.aux-services.mapreduce.shuffle.class</name>      

            <value>org.apache.hadoop.mapred.ShuffleHandler</value>  

            </property>

    </configuration>

    最后WIN+R 输入cmd Hadoop-2.7.3in下,输入hdfs namenode -format执行到格式化之后,namenode文件里会自动生成一个current文件,则格式化成功。

    然后转到Hadoop-2.7.3sbin下,输入start-all.cmd,启动hadoop服务,等待他启动完成。
    完成之后,输入jps可以查看运行的所有服务 (前提是java路径设置正确)

    这样hadoop(windows环境下)就启动完成了

     

     

    四、评估华为hadoop发行版本的特点与可用性。

    华为hadoop发行版:华为的hadoop版本基于自研的Hadoop HA平台,构建NameNode、JobTracker、HiveServer的HA功能,进程故障后系统自动Failover,无需人工干预,这个也是对hadoop的小修补,远不如mapR解决的彻底。

     



             答:华为的hadoop版本基于自研的Hadoop HA平台,构建NameNode、JobTracker、HiveServer的HA功能,进程故障后系统自动Failover,无需人工干预,这个也是对hadoop的小修补,远不如mapR解决的彻底。

             华为fusionInsight有以下特点:

    安全

    • 架构安全

    FusionInsight HD基于开源组件实现功能增强,保持100%的开放性,不使用私有架构和组件。

    • 认证安全
      • 基于用户和角色的认证统一体系,遵从帐户/角色RBAC(Role-Based Access Control)模型,实现通过角色进行权限管理,对用户进行批量授权管理。
      • 支持安全协议Kerberos,FusionInsight HD使用LDAP作为帐户管理系统,并通过Kerberos对帐户信息进行安全认证。
      • 提供单点登录,统一了Manager系统用户和组件用户的管理及认证。
      • 对登录FusionInsight Manager的用户进行审计。
    • 文件系统层加密

    Hive、HBase可以对表、字段加密,集群内部用户信息禁止明文存储。

      • 加密灵活:加密算法插件化,可进行扩充,亦可自行开发。非敏感数据可不加密,不影响性能(加密约有5%性能开销)。
      • 业务透明:上层业务只需指定敏感数据(Hive表级、HBase列族级加密),加解密过程业务完全不感知。

    可靠

    • 所有管理节点组件均实现HA(High Availability)

    业界第一个实现所有组件HA的产品,确保数据的可靠性、一致性。NameNode、Hive Server、HMaster、Resources Manager等管理节点均实现HA。

    • 集群异地灾备

    业界第一个支持超过1000公里异地容灾的大数据平台,为日志详单类存储提供了迄今为止可靠性最佳实践。

    • 数据备份恢复

    表级别全量备份、增量备份,数据恢复(对本地存储的业务数据进行完整性校验,在发现数据遭破坏或丢失时进行自恢复)。

    易用

    • 统一运维管理

    Manager作为FusionInsight HD的运维管理系统,提供界面化的统一安装、告警、监控和集群管理。

    • 易集成

    提供北向接口,实现与企业现有网管系统集成;当前支持Syslog接口,接口消息可通过配置适配现有系统;整个集群采用统一的集中管理,未来北向接口可根据需求灵活扩展。

    • 易开发

    提供自动化的二次开发助手和开发样例,帮助软件开发人员快速上手。

     

             对于新手学习还是可以快速上手的一个hadoop平台。

  • 相关阅读:
    Keras入门(一)之基础篇
    Keras.layers各种层介绍
    python 深度学习
    git 与 tfs 源代码迁移工具
    使用RazorGenerator和预编译MVC引擎将Razor视图编译成DLL
    python资源
    .net Core 资源
    【ElasticSearch】win10 安装elasticSearch 6.6.1
    代码注释主要有哪几种
    html和css基础知识
  • 原文地址:https://www.cnblogs.com/0311Chrome/p/13690113.html
Copyright © 2011-2022 走看看