zoukankan      html  css  js  c++  java
  • HDFS和MR的配置和使用

    一、分布式HDFS的安装和启动

    ①在$HADOOP_HOME/etc/hadoop/core-site.xml文件

    <configuration>
    <property>
      <name>fs.defaultFS</name>
      <!-- 告知NN在哪个机器,NN使用哪个端口号接收客户端和DN的RPC请求. -->
      <value>hdfs://主机名:9000</value>
    </property>
    <property>
      <name>hadoop.tmp.dir</name>
      <value>/opt/module/hadoop-2.7.2/data/tmp</value>
    </property>
    </configuration>
    

    ②格式化Namenode(只需要格式化一次)
    命令:hadoop namenode -format
    目的: ①生成/opt/module/hadoop-2.7.2/data/tmp目录
    ②在目录中生成fsimage_0000000000000000000文件

    ③启动Namenode
    hadoop-daemon.sh start namenode
    启动datanode
    hadoop-daemon.sh start datanode

    ④查看
    Jps
    通过浏览器访问 http://nn所在的主机名或ip:50070

    如果NN和DN都在一台机器,且只有一个DN节点,称为伪分布式

    二、在YARN上运行MR

    ①修改 $HADOOP_HOME/etc/hadoop/mapred-site.xml文件

    <property>
      <name>mapreduce.framework.name</name>
      <value>yarn</value>
    </property>
    

    ②启动YARN
    配置RM到底在哪个机器启动
    修改 $HADOOP_HOME/etc/hadoop/yarn-site.xml文件

    <property>
    <name>yarn.resourcemanager.hostname</name>
    <value>主机名</value>
    </property>
    <!-- reducer获取数据的方式 -->
    <property>
     		<name>yarn.nodemanager.aux-services</name>
     		<value>mapreduce_shuffle</value>
    </property>
    

    ③启动RM,NM
    yarn-daemon.sh start resourcemanager
    yarn-daemon.sh start nodemanager

    ④查看
    jps
    http://RM所运行的机器主机名/ip:8088

    三、提交任务

    hadoop jar jar包 主类名 参数{多个输入目录,一个输出目录}

    输入目录中必须全部是文件!
    输出目录必须不存在!

  • 相关阅读:
    内敛函数
    墓碑文件
    java默认继承
    Question2Answer初体验
    yii 事物
    情商
    jsonp跨域
    CDbConnectionExt.php 23.2实现数据库的主从分离,该类会维护多个数据库的配置:一个主数据库配置,多个从数据库的配置
    图片服务器规划漫谈
    c语言中返回结构体的函数(结构体可以被赋值,类型相同的结构体可以相互赋值)
  • 原文地址:https://www.cnblogs.com/sunbr/p/13246199.html
Copyright © 2011-2022 走看看