Hadoop介绍及集群搭建

zoukankan html css js c++ java

Hadoop介绍及集群搭建
简介

　　Hadoop 是 Apache 旗下的一个用 java 语言实现开源软件框架，是一个开发和运行处理大规模数据的软件平台。允许使用简单的编程模型在大量计算机集群上对大型数据集进行分布式处理。它的核心组件有HDFS（分布式文件系统）解决海量数据存储、YARN（作业调度和集群资源管理框架）解决资源任务调度和MapReduce（分布式运算编程框架）解决海量数据计算。另外Hadoop如今拥有一个庞大的体系，成长为Hadoop生态圈，新出现的项目越来越多，比如zk、hive、flume等。

Hadoop的特性优点
- 高可靠性。Hadoop按位存储和处理数据的能力值得人们信赖。
- 高扩展性。Hadoop是在可用的计算机集簇间分配数据并完成计算任务的，这些集簇可以方便地扩展到数以千计的节点中。
- 高效性。Hadoop能够在节点之间动态地移动数据，并保证各个节点的动态平衡，因此处理速度非常快。
- 高容错性。Hadoop能够自动保存数据的多个副本，并且能够自动将失败的任务重新分配。
- 低成本。与一体机、商用数据仓库以及QlikView、Yonghong Z-Suite等数据集市相比，hadoop是开源的，项目的软件成本因此会大大降低。
Hadoop集群搭建

集群简介

　　HADOOP 集群具体来说包含两个集群：HDFS 集群和 YARN 集群，两者逻辑上分离，但物理上常在一起。
　　HDFS 集群负责海量数据的存储，集群中的角色主要有：NameNode、DataNode、SecondaryNameNode。YARN 集群负责海量数据运算时的资源调度，集群中的角色主要有：ResourceManager、NodeManager。

　　我们以三节点为例进行搭建，角色分配如下：
bigdata-01: NameNode DataNode | ResourceManager NodeManager bigdata-02: DataNode SecondaryNameNode| NodeManager bigdata-03: DataNode | NodeManager
服务器准备

三台linux虚拟机，同步时间，设置主机名和域名映射，关闭防火墙，安装jdk1.8，配置ssh免密登录。

搭建步骤

1 新建文件夹，分别用来存放压缩包、解压后的文件及运行的数据
mkdir -p /export/software mkdir -p /export/servers mkdir -p /export/data
2 把安装文件（最好是根据linux系统版本编译好的）放到服务器上的software文件夹内然后解压到servers文件夹内
cd /export/software tar -zxvf hadoop-2.7.4.tar -C /export/servers/
3 修改配置文件
#转到配置文件目录 cd /export/servers/hadoop-2.7.4/etc/hadoop
修改hadoop-env.sh
#修改JAVA_HOME路径为自己jdk安装了路径 export JAVA_HOME=/export/servers/jdk1.8.0_141
修改core-site.xml（在configuration标签里面添加）
 <property> <name>fs.defaultFS</name> <value>hdfs://bigdata-01:9000</value> </property>  <property> <name>hadoop.tmp.dir</name> <value>/export/data/hddata</value>  </property>
修改hdfs-site.xml（在configuration标签里面添加）
 <property> <name>dfs.replication</name> <value>3</value> </property>  <property> <name>dfs.namenode.secondary.http-address</name> <value>bigdata-02:50090</value> </property>
修改mapred-site.xml（在configuration标签里面添加）
 <property> <name>mapreduce.framework.name</name> <value>yarn</value> </property>
修改yarn-site.xml（在configuration标签里面添加）
 <property> <name>yarn.resourcemanager.hostname</name> <value>bigdata-01</value> </property> <property> <name>yarn.nodemanager.aux-services</name> <value>mapreduce_shuffle</value> </property>
修改slaves文件指定集群从角色所在机器
bigdata-01 bigdata-02 bigdata-03
4 修改并重新source环境变量
vi /etc/profile
export JAVA_HOME=/export/servers/jdk1.8.0_141 export HADOOP_HOME=/export/servers/hadoop-2.7.4 export PATH=$PATH:$JAVA_HOME/bin:$HADOOP_HOME/bin:$HADOOP_HOME/sbin
source /etc/profile
5 格式化（初始化）集群

1、格式化准备来说是hdfs系统的初始化创建一些自己运行所需要目录和文件
2、格式件在集群首次启动之前进行
3、只能格式化一次（本质在于格式件的时候会创建集群ID 如果多次格式化使得主从之间集群ID标识不一致）
#以下两种格式化方式选一即可，不要两个都运行 hdfs namenode -format hadoop namenode -format
6 启动/停止集群
cd /export/servers/hadoop-2.7.4/sbin #启动/停止HDFS集群 start-dfs.sh stop.dfs.sh #启动/停止YARN集群 start-yarn.sh stop.yarn.sh
访问bigdata-01:50070 (namenode) 及 bigdata-01:8088 (resourcemanager)（windows电脑上没有配置host 就输ip+port）：
查看全文

相关阅读:
汉语-词语：冷静
 汉语-词语：沉着
 汉语-词语-稳重：百科
 汉语-词语：沉稳
 汉语-词语-丘壑：百科
 Struts中的常量
 算法整理(四):浅析高速排序的优化问题
 互联网+时代，是更加开放还是封闭
 UI复习练习_优酷布局
 fread与read的差别（文件io补充）

原文地址：https://www.cnblogs.com/blazeZzz/p/9660958.html

Hadoop介绍及集群搭建

简介

Hadoop的特性优点

Hadoop集群搭建

集群简介

服务器准备

搭建步骤