hadoop入门（3）——hadoop2.0理论基础：安装部署方法

zoukankan html css js c++ java

hadoop入门（3）——hadoop2.0理论基础：安装部署方法

一、hadoop2.0安装部署流程

        1、自动安装部署：Ambari、Minos（小米）、Cloudera Manager（收费）

        2、使用RPM包安装部署：Apache hadoop不支持、HDP与CDH提供

        3、使用jar包安装部署：各版本均提供。（初期为了理解hadoop，建议使用这种方式）

        部署流程：

                准备硬件（Linux操作系统）

                准备软件安装包，并安装基础软件（主要是JDK）

                将hadoop安装包分发到各个节点的同一个目录下，并解压

                修改配置文件

                启动服务

                验证是否启动成功

二、hadoop2.0软硬件准备

        硬件准备：测试环境仅需要一台Linux机器。生成环境需要多台Linux机器。

                建议内存不小于4G（性能）

        软件准备：JDK1.6+(CDH5建议JDK7)、hadoop2.0安装包。

        1、建议使用非root用户安装hadoop。（hadoop某些功能不允许在root用户下操作）

        2、配置SSH免密码登录：为了启动hadoop集群方便。

三、hadoop2.0安装包下载

        建议选择商业公司的免费版本：主要是考虑不需要版本的选择。

http://archive.cloudera.com/cdh4/cdh/4

http://archive.cloudera.com/cdh5/cdh/5

        hadoop目录结构分析：

            bin：最基本的管理脚本和使用脚本所在目录。这些脚本是sbin目录下管理脚本的基础实现。

            etc：配置文件所在的目录，包括core-site.xml、hdfs-site.xml、mapred-site.xml等，yarn-site.xml

            include：对外提供的编程库头文件。通常用于C++程序访问HDFS。

            lib：该目录包含了hadoop对外提供的编程动态库和静态库。

            libexec：各个服务对应的shell配置文件所在目录。

            sbin：hadoop管理脚本所在目录，主要包含HDFS和YARN中各类服务的启动关闭脚本。

            share：hadoop各个模块编译后的jar包所在目录。

四、hadoop2.0测试环境（单机）搭建方法

    此处仅为理论说明。

    1、首先将安装包存放到某个目录下，并解压。

    2、修改解压后的目录中的文件夹etc/hadoop下的xml配置文件：

            hadoop-env.sh修改以下配置：export JAVA_HOME=/home/....

            Slaves文件修改为以下配置：YARN001

            mapred-site.xml中：mapreduce.framework.name=yarn

            core-site.xml：fs.default.name=hdfs://YAR001:8020

            yarn-site.xml：yarn.nodenamager.aux-services=mapreduce_shuffle

            core-site.xml：dfs.replication=1

    3、启动服务：

            格式化HDFS： bin/hadoop namenode -format

            启动HDFS：sbin/start-dfs.sh

            启动YART：sbin/start-yarn.sh

    4、验证是否成功：

            jps查看对应的服务是否已经启动：

            NameNodeDataNodeNodeManagerResourceManagerSecondaryNameNode

            访问yarn：http://yarn001:8088

            访问hdfs：http://yarn001:50070

    常见问题：

        虚拟机搭建重启后无法启动成功：原因是/tmp文件夹被清空了，配置一个非/tmp的文件夹即可。

        在core-site.xml中添加：dfs.namenode.name.dir=/xxx;   dfs.datanode.data.dir=/xxxx;

五、hadoop2.0生产环境（多机）搭建方法

    1、将安装包存放到某一目录下，并解压。

    2、修改解压目录中的文件夹etc/hadoop下的xml配置文件。

    3、格式化并启动HDFS

    4、启动YARN

    与单机环境的不同之处在于步骤2中修改的配置文件的内容有所不同。以及步骤3 的详细步骤不同。

    HDFS HA部署方法：详见后续文章

    HDFS HA+Federation的部署方法：详见后续文章

    YARN部署方法：详见后续文章

查看全文

相关阅读:
MYSQL性能优化的最佳20+条经验
 MySQL性能分析工具之PROFILE
理解事务的4种隔离级别
 二进制中1的个数
 滑动窗口最大值
 字符流中第一个不重复字符
 字符串转化为整数
 java字符，字符串，数字之间的转换
 java中数组输出的方式
 java基础知识(1)

原文地址：https://www.cnblogs.com/tq03/p/4967594.html

hadoop入门（3）——hadoop2.0理论基础：安装部署方法

一、hadoop2.0安装部署流程

二、hadoop2.0软硬件准备

三、hadoop2.0安装包下载

四、hadoop2.0测试环境（单机）搭建方法

五、hadoop2.0生产环境（多机）搭建方法