作业2 - 走看看

zoukankan html css js c++ java

作业2
一、了解对比Hadoop不同版本的特性，可以用图表的形式呈现。

答：Apache Hadoop版本分为两代，第一代Hadoop称为Hadoop1.0，第二代Hadoop称为Hadoop2.0。第一代Hadoop包含0.20.x、0.21.x、0.22.x三大版本，其中，0.20.x最后演化成1.0.x，变成了稳定版。而0.21.x和0.22.x则增加了HDFS HA等重要的新特性。第二代Hadoop包含0.23.x和2.x两大版本。他们完全不同于Hadoop1.0，是一套全新的架构，均包含HDFS Federation和YARN两个系统。

Hadoop 2.4.0版本于2014年4月7日发布，相比于hadoop 2.3.0，有了很多重大改进，主要包括：

1.HDFS支持ACL

2. HDFS在线升级更加容易

3.HDFS支持https访问方式

4.YARN ResourceManager容错

5.增加了Application Timeline Server

6.Capacity scheduler支持资源抢占

二、Hadoop生态的组成、每个组件的作用、组件之间的相互关系，以图例加文字描述呈现。

答：Hadoop的核心组件是HDFS、MapReduce。随着处理任务不同，各种组件相继出现，丰富Hadoop生态圈，目前生态圈结构大致如图所示：

三、官网学习Hadoop的安装与使用，用文档的方式列出步骤与注意事项。

答：

下载Hadoop安装包————www.hadoop.org

解压Hadoop安装包

首先先要配置好java环境变量 Java_HOME要确认好jdk的路径。

配置好Java环境变量后开始配置hadoop核心配置文件

1.打开 hadoop-2.7.3/etc/hadoop/core-site.xml，添加一下内容到末尾。

<configuration>

        <property>

    <name>fs.defaultFS</name>

    <value>hdfs://localhost:9000</value>

        </property>

</configuration>

2.打开 hadoop-2.7.3/etc/hadoop/mapred-site.xml，添加一下内容到末尾。

<configuration>

        <property>

        <name>mapreduce.framework.name</name>

        <value>yarn</value>

        </property>

</configuration>

3.打开 hadoop-2.7.3/etc/hadoop/hdfs-site.xml，添加一下内容到末尾。

先创建两个文件夹
E：/hadoop-2.7.3/namenode
E：/hadoop-2.7.3/datanode

<configuration>

        <property>

        <name>dfs.replication</name>

        <value>1</value>

        </property>

        <property>

        <name>dfs.namenode.name.dir</name>

        <value>/E:/hadoop-2.7.3/namenode</value>//路径为你的存放路径

        </property>

        <property>

        <name>dfs.datanode.data.dir</name>

        <value>/E:/hadoop-2.7.3/datanode</value>//路径为你的存放路径

        </property>

</configuration>

4.打开 hadoop-2.7.3/etc/hadoop/yarn-site.xml，添加一下内容到末尾。

<configuration>

        <property>

        <name>yarn.nodemanager.aux-services</name>

        <value>mapreduce_shuffle</value>

        </property>

        <property>

        <name>yarn.nodemanager.aux-services.mapreduce.shuffle.class</name>

        <value>org.apache.hadoop.mapred.ShuffleHandler</value>

        </property>

</configuration>

最后WIN+R 输入cmd 到Hadoop-2.7.3in下，输入hdfs namenode -format执行到格式化之后，namenode文件里会自动生成一个current文件，则格式化成功。

然后转到Hadoop-2.7.3sbin下，输入start-all.cmd，启动hadoop服务，等待他启动完成。
完成之后，输入jps可以查看运行的所有服务 (前提是java路径设置正确)

这样hadoop（windows环境下）就启动完成了

四、评估华为hadoop发行版本的特点与可用性。

华为hadoop发行版：华为的hadoop版本基于自研的Hadoop HA平台，构建NameNode、JobTracker、HiveServer的HA功能，进程故障后系统自动Failover，无需人工干预，这个也是对hadoop的小修补，远不如mapR解决的彻底。

         答：华为的hadoop版本基于自研的Hadoop HA平台，构建NameNode、JobTracker、HiveServer的HA功能，进程故障后系统自动Failover，无需人工干预，这个也是对hadoop的小修补，远不如mapR解决的彻底。

         华为fusionInsight有以下特点：

安全
- 架构安全
FusionInsight HD基于开源组件实现功能增强，保持100%的开放性，不使用私有架构和组件。
- 认证安全
- 文件系统层加密
Hive、HBase可以对表、字段加密，集群内部用户信息禁止明文存储。
可靠
- 所有管理节点组件均实现HA（High Availability）
业界第一个实现所有组件HA的产品，确保数据的可靠性、一致性。NameNode、Hive Server、HMaster、Resources Manager等管理节点均实现HA。
- 集群异地灾备
业界第一个支持超过1000公里异地容灾的大数据平台，为日志详单类存储提供了迄今为止可靠性最佳实践。
- 数据备份恢复
表级别全量备份、增量备份，数据恢复（对本地存储的业务数据进行完整性校验，在发现数据遭破坏或丢失时进行自恢复）。

易用
- 统一运维管理
Manager作为FusionInsight HD的运维管理系统，提供界面化的统一安装、告警、监控和集群管理。
- 易集成
提供北向接口，实现与企业现有网管系统集成；当前支持Syslog接口，接口消息可通过配置适配现有系统；整个集群采用统一的集中管理，未来北向接口可根据需求灵活扩展。
- 易开发
提供自动化的二次开发助手和开发样例，帮助软件开发人员快速上手。

对于新手学习还是可以快速上手的一个hadoop平台。
查看全文

相关阅读:
dumpsys
阿里云云效流水线体验
 停车入场城市排行榜1
第三方企业号对接工作
 PHP搭建（windows64+apache2.4.7+mysql-5.6+php5.5）
十大编程算法助程序员走上高手之路
 数据库的最简单实现
 JavaScript 开发的45个经典技巧
 常用meta整理
 Shell脚本编程初体验

原文地址：https://www.cnblogs.com/0311Chrome/p/13690113.html