zoukankan      html  css  js  c++  java
  • hadoop入门(3)——hadoop2.0理论基础:安装部署方法

    一、hadoop2.0安装部署流程

            1、自动安装部署:Ambari、Minos(小米)、Cloudera Manager(收费)

            2、使用RPM包安装部署:Apache hadoop不支持、HDP与CDH提供

            3、使用jar包安装部署:各版本均提供。(初期为了理解hadoop,建议使用这种方式)

            部署流程:

                    准备硬件(Linux操作系统)

                    准备软件安装包,并安装基础软件(主要是JDK)

                    将hadoop安装包分发到各个节点的同一个目录下,并解压

                    修改配置文件

                    启动服务

                    验证是否启动成功

    二、hadoop2.0软硬件准备

            硬件准备:测试环境仅需要一台Linux机器。生成环境需要多台Linux机器。

                    建议内存不小于4G(性能)

            软件准备:JDK1.6+(CDH5建议JDK7)、hadoop2.0安装包。

            1、建议使用非root用户安装hadoop。(hadoop某些功能不允许在root用户下操作)

            2、配置SSH免密码登录:为了启动hadoop集群方便。

    三、hadoop2.0安装包下载

            建议选择商业公司的免费版本:主要是考虑不需要版本的选择。

    http://archive.cloudera.com/cdh4/cdh/4

    http://archive.cloudera.com/cdh5/cdh/5

            hadoop目录结构分析:

                bin:最基本的管理脚本和使用脚本所在目录。这些脚本是sbin目录下管理脚本的基础实现。

                etc:配置文件所在的目录,包括core-site.xml、hdfs-site.xml、mapred-site.xml等,yarn-site.xml

                include:对外提供的编程库头文件。通常用于C++程序访问HDFS。

                lib:该目录包含了hadoop对外提供的编程动态库和静态库。

                libexec:各个服务对应的shell配置文件所在目录。

                sbin:hadoop管理脚本所在目录,主要包含HDFS和YARN中各类服务的启动关闭脚本。

                share:hadoop各个模块编译后的jar包所在目录。

    四、hadoop2.0测试环境(单机)搭建方法

        此处仅为理论说明。

        1、首先将安装包存放到某个目录下,并解压。

        2、修改解压后的目录中的文件夹etc/hadoop下的xml配置文件:

                hadoop-env.sh修改以下配置:export JAVA_HOME=/home/....

                Slaves文件修改为以下配置:YARN001

                mapred-site.xml中:mapreduce.framework.name=yarn

                core-site.xml:fs.default.name=hdfs://YAR001:8020

                yarn-site.xml:yarn.nodenamager.aux-services=mapreduce_shuffle

                core-site.xml:dfs.replication=1

        3、启动服务:

                格式化HDFS: bin/hadoop namenode -format

                启动HDFS:sbin/start-dfs.sh

                启动YART:sbin/start-yarn.sh

        4、验证是否成功:

                jps查看对应的服务是否已经启动:

                NameNodeDataNodeNodeManagerResourceManagerSecondaryNameNode

                访问yarn:http://yarn001:8088

                访问hdfs:http://yarn001:50070

        常见问题:

            虚拟机搭建重启后无法启动成功:原因是/tmp文件夹被清空了,配置一个非/tmp的文件夹即可。

            在core-site.xml中添加:dfs.namenode.name.dir=/xxx;   dfs.datanode.data.dir=/xxxx;

    五、hadoop2.0生产环境(多机)搭建方法

        1、将安装包存放到某一目录下,并解压。

        2、修改解压目录中的文件夹etc/hadoop下的xml配置文件。

        3、格式化并启动HDFS

        4、启动YARN

        与单机环境的不同之处在于步骤2中修改的配置文件的内容有所不同。以及步骤3 的详细步骤不同。

        HDFS HA部署方法:详见后续文章

        HDFS HA+Federation的部署方法:详见后续文章

        YARN部署方法:详见后续文章

  • 相关阅读:
    Windows编译openssl3
    【转】FFmpeg采集设备
    构建FFmpeg项目时链接报错avformat_alloc_context未定义
    anaconda代理设置
    静态链接导致的一个bug分析
    Qt如果发送信号过快会如何?
    关闭Edge浏览器多窗口Alt+Tab组合键切换
    [转]Windows上的valgrinddeleaker
    在qt项目中编译错误error ::clock未声明
    使用单元测试驱动开发的方式编写flask应用
  • 原文地址:https://www.cnblogs.com/tq03/p/4967594.html
Copyright © 2011-2022 走看看