zoukankan      html  css  js  c++  java
  • Hadoop安装

    hadoop安装

    1. 安装jdk

      a.复制jdk-xx.tar.gz 到~Downloads

      b.解压

      c. 移动到/soft ; 创建软连接ln -s /soft/jdk-xxx  jdk

      d.配置环境变量

        [/etc/enviroment]

        JAVA_HOME=/soft/jdk

        PATH=".../soft/jdk/bin"

      e. 刷新环境变量:$> source /etc/enviroment

      f. 验证安装结果

        $> java -version

    2. 安装hadoop

      a. 复制解压hadoop-xxx-tar.gz 到/soft/ ;创建软连接ln -s  hadoop-xxx hadoop;

      b. 增加环境变量,source生效

        [/etc/enviroment]

        HADOOP_HOME=/soft/hadoop

      c. 重启系统,执行hadoop -version 确认安装结果

    Hadoop 包含三个模块  

      1. Hadoop Common: 支持其他模块的基础模块

      2. HDFS(Hadoop Distributed File System) 分布式文件系统,提供应用层数据的高吞吐量访问

        [进程]          节点名称    功能

        NameNode       //名称节点      存放目录

        DataNode       //数据节点      存放数据

        SecondaryNameNode  //辅助名称节点     备份目录

        启动脚本:start-dfs.sh/stop-dfs.sh

      3. Hadoop YARN:  资源调度框架(作业调度和集群资源管理)

        [进程]  

        ResourceManager    // 资源管理器--RM

        NodeManager      //节点管理器--NM

        start-yarn.sh/stop-yarn.sh

      4. MapReduce : 基于yarn系统的对大数据集进行并行处理的技术

    Hadoop 三种部署方式

      1. Standalone/local

        本地模式,安装后无需其他配置

        查看文件系统的方式

        hadoop fs -ls

        查看java进程

        jps

      2. Pseudodistributed mode伪分布式: 

        单机运行所有服务(start-all.sh)

        (name node, dataNode, 2namenode,RM 资源管理器,nameNode manager, )

        配置文件:

        [core-site.xml]

        fs.defaultFS=hdfs://localhost:8020

        [hdfs-site.xml]

        dfs.replication=1

        [mapred-site.xml]

        mapreduce.framwork.name=yarn

        

        [yarn-site.xml]

        yarn.resourcemanager.hostname=localhost

      3. Full distributed mode 完全分布式

        不同节点运行不同服务,配置文件需要各个节点一样。

        主机名:s100,s101,s102,s103,s104 为例

        [core-site.xml]

        fs.defaultFS=hdfs://s100:8020    

        [hdfs-site.xml]

        dfs.replication=3

        <name>dfs.namenode.secondary.http-address</name>

        <value>s104</value>

        [mapred-site.xml]

        mapreduce.framwork.name=yarn

        

        [yarn-site.xml]

        yarn.resourcemanager.hostname=s100

        yarn.nodemanager.aux-services=mapreduce_shuffle

        [/soft/hadoop/etc/hadoop/slaves]  #数据节点

        s101

        s103

        s103

      

      

    默认配置文件模板整理

      [core-default.xml]

        hadoop-common-2.7.2.jar/core-default.xml

      [hdfs-default.xml]

        hadoop-hdfs-2.7.2.jar/hdfs-default.xml

      [yarn-default.xml]

        hadoop-yarn-2.7.2.jar/yarn-default.xml

      [mapred-default.xml]

        hadoop-mapreduce-client-core-2.7.2.jar/mapred-default.xml

    脚本分析

    1.satart-all.sh

      libexec/hadoop-config.sh   -- 设置启动 变量

      sbin/start-dfs.sh --config $HADOOP_CONF_DIR  启动hdfs

      sbin/start-yarn.sh --config $HADOOP_CONF_DIR  启动yarn

    2. libexec/hadoop-config.sh

      各个模块的目录变量

      COMMON_DIR

      HADOOP_CONF_DIR=...

      HEAP_SIZE=1000m

      CLASS_PATH=...

     3. sbin/start-dfs.sh --config $HADOOP_CONF_DIR

      1) libexec/hdfs-config.sh

      2) # 获得名称节点地址(主机名)

        NAMENODES = hdfs getconf -namenodes

      3) 启动名称节点

      $HADOOP_PREFIX/sbin/hadoop-daemons.sh

      --config "$HADOOP_CONF_DIR"

      --hostnames "$NAMENODES"

      --script "$bin/hdfs" start  namenode $nameStartOpt

      4)启动dataNode

      $HADOOP_PREFIX/sbin/hadoop-daemons.sh

      --config "$HADOOP_CONF_DIR"

      --script "$bin/hdfs" start  datanode $nameStartOpt

      5)启动2nn

      "$HADOOP_PREFIX/sbin/hadoop-daemons.sh"

      --config "$HADOOP_CONF_DIR"

      --hostnames "$SECONDARY_NAMENODES"

      --script "$bin/hdfs" start  secondarynamenode

    4. libexec/hdfs-config.sh

      libexec/hadoop-config.sh

    5. sbin/hadoop-daemons.sh 启动守护进程脚本

      1)libexec/hdfs-config.sh启动配置脚本

      2)slaves.sh 启动数据节点

        [bin/hadoop-daemon.sh]

    常用命令

    1. 格式化文件系统

      hadoop namenode -format

    2. put 向HDFS上传文件

      hadoop fs -put  <本地文件> <hdfs目录>

      hdfs dfs -put   <本地文件> <hdfs目录>

      两种命令等价

    3. hdfs dfs

      

      

      

  • 相关阅读:
    关于TextField
    判断一个显示对象是否移除
    不争气的Discuz!NT 3.6和MVC3整合,主要实现同步登录和注册,登出。
    我的博客是英文的
    TFS不提供 Team Foundation 服务的解决办法。
    四 为提高entity framework 性能,要注意哪些事情.
    三 EF 和ado.net 的性能对比.
    一 关于大项目的经验总结
    在.net 中,ajax 如何调用本页数据源
    关于有序guid 的使用
  • 原文地址:https://www.cnblogs.com/zhangmingda/p/13785854.html
Copyright © 2011-2022 走看看