zoukankan      html  css  js  c++  java
  • 作业2

    一、了解对比Hadoop不同版本的特性,可以用图表的形式呈现。

    答:Apache Hadoop版本分为两代,第一代Hadoop称为Hadoop1.0,第二代Hadoop称为Hadoop2.0。第一代Hadoop包含0.20.x、0.21.x、0.22.x三大版本,其中,0.20.x最后演化成1.0.x,变成了稳定版。而0.21.x和0.22.x则增加了HDFS HA等重要的新特性。第二代Hadoop包含0.23.x和2.x两大版本。他们完全不同于Hadoop1.0,是一套全新的架构,均包含HDFS Federation和YARN两个系统。

    Hadoop 2.4.0版本于2014年4月7日发布,相比于hadoop 2.3.0,有了很多重大改进,主要包括:

    1.HDFS支持ACL
    2. HDFS在线升级更加容易
    3.HDFS支持https访问方式
    4.YARN ResourceManager容错
    5.增加了Application Timeline Server
    6.Capacity scheduler支持资源抢占

    二、Hadoop生态的组成、每个组件的作用、组件之间的相互关系,以图例加文字描述呈现。

    答:Hadoop的核心组件是HDFS、MapReduce。随着处理任务不同,各种组件相继出现,丰富Hadoop生态圈,目前生态圈结构大致如图所示:

     

    三、官网学习Hadoop的安装与使用,用文档的方式列出步骤与注意事项。

    答:

    下载Hadoop安装包————www.hadoop.org

     

    解压Hadoop安装包

     

    首先先要配置好java环境变量 Java_HOME要确认好jdk的路径。

     

    配置好Java环境变量后开始配置hadoop核心配置文件

    1.打开 hadoop-2.7.3/etc/hadoop/core-site.xml,添加一下内容到末尾。

    <configuration>

            <property>

        <name>fs.defaultFS</name>

        <value>hdfs://localhost:9000</value>  

            </property>

    </configuration>

    2.打开 hadoop-2.7.3/etc/hadoop/mapred-site.xml,添加一下内容到末尾。

    <configuration>  

            <property>      

            <name>mapreduce.framework.name</name>      

            <value>yarn</value>  

            </property>

    </configuration>

    3.打开 hadoop-2.7.3/etc/hadoop/hdfs-site.xml,添加一下内容到末尾。

    先创建两个文件夹
    E:/hadoop-2.7.3/namenode
    E:/hadoop-2.7.3/datanode

    <configuration>

            <property>      

            <name>dfs.replication</name>      

            <value>1</value>  

            </property>  

            <property>      

            <name>dfs.namenode.name.dir</name>      

            <value>/E:/hadoop-2.7.3/namenode</value>//路径为你的存放路径  

            </property>  

            <property>      

            <name>dfs.datanode.data.dir</name>    

            <value>/E:/hadoop-2.7.3/datanode</value>//路径为你的存放路径  

            </property>

    </configuration>

    4.打开 hadoop-2.7.3/etc/hadoop/yarn-site.xml,添加一下内容到末尾。

    <configuration>  

            <property>      

            <name>yarn.nodemanager.aux-services</name>      

            <value>mapreduce_shuffle</value>  

            </property>  

            <property>      

            <name>yarn.nodemanager.aux-services.mapreduce.shuffle.class</name>      

            <value>org.apache.hadoop.mapred.ShuffleHandler</value>  

            </property>

    </configuration>

    最后WIN+R 输入cmd Hadoop-2.7.3in下,输入hdfs namenode -format执行到格式化之后,namenode文件里会自动生成一个current文件,则格式化成功。

    然后转到Hadoop-2.7.3sbin下,输入start-all.cmd,启动hadoop服务,等待他启动完成。
    完成之后,输入jps可以查看运行的所有服务 (前提是java路径设置正确)

    这样hadoop(windows环境下)就启动完成了

     

     

    四、评估华为hadoop发行版本的特点与可用性。

    华为hadoop发行版:华为的hadoop版本基于自研的Hadoop HA平台,构建NameNode、JobTracker、HiveServer的HA功能,进程故障后系统自动Failover,无需人工干预,这个也是对hadoop的小修补,远不如mapR解决的彻底。

     



             答:华为的hadoop版本基于自研的Hadoop HA平台,构建NameNode、JobTracker、HiveServer的HA功能,进程故障后系统自动Failover,无需人工干预,这个也是对hadoop的小修补,远不如mapR解决的彻底。

             华为fusionInsight有以下特点:

    安全

    • 架构安全

    FusionInsight HD基于开源组件实现功能增强,保持100%的开放性,不使用私有架构和组件。

    • 认证安全
      • 基于用户和角色的认证统一体系,遵从帐户/角色RBAC(Role-Based Access Control)模型,实现通过角色进行权限管理,对用户进行批量授权管理。
      • 支持安全协议Kerberos,FusionInsight HD使用LDAP作为帐户管理系统,并通过Kerberos对帐户信息进行安全认证。
      • 提供单点登录,统一了Manager系统用户和组件用户的管理及认证。
      • 对登录FusionInsight Manager的用户进行审计。
    • 文件系统层加密

    Hive、HBase可以对表、字段加密,集群内部用户信息禁止明文存储。

      • 加密灵活:加密算法插件化,可进行扩充,亦可自行开发。非敏感数据可不加密,不影响性能(加密约有5%性能开销)。
      • 业务透明:上层业务只需指定敏感数据(Hive表级、HBase列族级加密),加解密过程业务完全不感知。

    可靠

    • 所有管理节点组件均实现HA(High Availability)

    业界第一个实现所有组件HA的产品,确保数据的可靠性、一致性。NameNode、Hive Server、HMaster、Resources Manager等管理节点均实现HA。

    • 集群异地灾备

    业界第一个支持超过1000公里异地容灾的大数据平台,为日志详单类存储提供了迄今为止可靠性最佳实践。

    • 数据备份恢复

    表级别全量备份、增量备份,数据恢复(对本地存储的业务数据进行完整性校验,在发现数据遭破坏或丢失时进行自恢复)。

    易用

    • 统一运维管理

    Manager作为FusionInsight HD的运维管理系统,提供界面化的统一安装、告警、监控和集群管理。

    • 易集成

    提供北向接口,实现与企业现有网管系统集成;当前支持Syslog接口,接口消息可通过配置适配现有系统;整个集群采用统一的集中管理,未来北向接口可根据需求灵活扩展。

    • 易开发

    提供自动化的二次开发助手和开发样例,帮助软件开发人员快速上手。

     

             对于新手学习还是可以快速上手的一个hadoop平台。

  • 相关阅读:
    linq的多表查询
    markdown语法
    遍历Hashtable、IDictionary、Dictionary<string, string>
    DOS修改文件夹权限
    kangle 3.2.0 发布,国产开源web服务器
    nat上传文件到google
    黄聪:C#中用ILMerge将所有引用的DLL和exe文件打成一个exe文件,有图解
    UltiDev Web Server Pro
    vs2010 命令行下用 msbuild 发布web站点
    asp.net重启网站
  • 原文地址:https://www.cnblogs.com/0311Chrome/p/13690113.html
Copyright © 2011-2022 走看看