zoukankan      html  css  js  c++  java
  • Hadoop2.6.0配置参数查看小工具

    前言

    使用Hadoop进行离线分析或者数据挖掘的工程师,经常会需要对Hadoop集群或者mapreduce作业进行性能调优。也许你知道通过浏览器访问http://master:18088/conf来查看配置信息,如下图所示:

    但是当Linux工程师们只面对命令行时,如何查看呢?而且如果运维工程师根据集群状况及运行历史使用shell、Python、ruby等脚本写些运维代码,甚至动态调整集群参数时,该怎么办呢?性能调优的前提是需要能准确知道目前针对Hadoop集群或者mapreduce作业配置的参数。在MySQL中可以通过以下命令查询参数值:

    SHOW VARIABLES LIKE 'some_parameter'

    也可以使用以下命令查询参数值:

    SELECT @@session.some_parameter
    SELECT @@global.some_parameter

    或者直接查询information_schema.GLOBAL_VARIABLES得到参数值。

    可惜的是Hadoop没有提供类似的方式,这对于在Linux系统下查看参数进而修改参数增加了成本和负担。尽管我们可以

    本文将针对这一需求,基于Hadoop开发一个简单实用的工具查询查看各种参数。

    准备工作

    首先在Hadoop集群的Master节点的个人目录下创建workspace目录用于存储开发的Hadoop应用代码,命令如下:

    mkdir workspace

    进入workspace目录,开始编辑HadoopConfDisplay.java代码:


    为便于大家使用,我把代码都列出来,这其实也是借鉴了网上别人的一些内容:

    import java.util.Map.Entry;
    
    import org.apache.hadoop.conf.*;
    import org.apache.hadoop.util.*;
    
    public class HadoopConfDisplay extends Configured implements Tool {
    
      static {
        Configuration.addDefaultResource("core-site.xml");
        Configuration.addDefaultResource("hdfs-site.xml");
        Configuration.addDefaultResource("mapred-site.xml");
        Configuration.addDefaultResource("yarn-site.xml");
      }
    
      @Override
      public int run(String[] args) throws Exception {
        Configuration conf = getConf();
        for (Entry<String, String> entry: conf) {
          System.out.printf("%s=%s
    ", entry.getKey(), entry.getValue());
        }
        return 0;
      }
    
      public static void main(String[] args) throws Exception {
        int exitCode = ToolRunner.run(new HadoopConfDisplay(), args);
        System.exit(exitCode);
      }
    }


    在Hadoop的根目录下创建myclass,此目录用于存储个人开发的Hadoop应用代码编译后的class或者jar包。我本地的目录为/home/jiaan.gja/install/hadoop-2.6.0/myclass/

    由于HadoopConfDisplay中使用了hadoop-common-2.6.0.jar中的类,所以编译HadoopConfDisplay.java时需要指定classpath。同时将编译后的class输出到/home/jiaan.gja/install/hadoop-2.6.0/myclass/目录下。执行命令如下:

    进入myclass目录,将编译好的HadoopConfDisplay的class打到jar包里:

    jar cvf mytest.jar *

    执行过程如下:

    成果验证

    经过以上准备,最终我们生成了mytest.jar包文件,现在到了验证输出Hadoop配置参数的时候。输入以下命令:

    hadoop jar mytest.jar HadoopConfDisplay

    输出结果如下图:

    由于参数的确很多,这里只展示了其中的一部分信息。这里显示的信息虽然很多,可是会发现很多参数并没有包括进来,比如:

    mapreduce.job.ubertask.enable

    mapreduce.job.ubertask.maxreduces

    mapreduce.job.ubertask.maxmaps

    完善

        还记得本文刚开始说的通过web界面查看Hadoop集群参数的内容吗?我在我个人搭建的集群(有关集群的搭建可以参照《Linux下Hadoop2.6.0集群环境的搭建》)上访问http://master:18088/conf页面时,可以找到以上缺失的参数如下所示:

    <configuration>
      <property>
        <name>mapreduce.job.ubertask.enable</name>
        <value>false</value>
        <source>mapred-default.xml</source>
      </property>
      <!-- 省略其它参数属性 -->
      <property>
        <name>mapreduce.job.ubertask.maxreduces</name>
        <value>1</value>
        <source>mapred-default.xml</source>
      </property>
      <!-- 省略其它参数属性 -->
      <property>
        <name>mapreduce.job.ubertask.maxmaps</name>
        <value>9</value>
        <source>mapred-default.xml</source>
      </property>
      <!-- 省略其它参数属性 -->
    </configuration>

    从以上内容我们可以看见缺失的参数都配置在mapred-default.xml中,而我之前编写的HadoopConfDisplay类的代码中并未包含此配置。此外,未包括进来的配置文件还有yarn-default.xml、core-default.xml(说明Hadoop参数默认是从*-default.xml的几个文件中读取的)。最后我们将这些内容也编辑进去,代码如下:

    import java.util.Map.Entry;
    
    import org.apache.hadoop.conf.*;
    import org.apache.hadoop.util.*;
    
    public class HadoopConfDisplay extends Configured implements Tool {
    
      static {
        Configuration.addDefaultResource("core-default.xml");
        Configuration.addDefaultResource("yarn-default.xml");
        Configuration.addDefaultResource("mapred-default.xml");
        Configuration.addDefaultResource("core-site.xml");
        Configuration.addDefaultResource("hdfs-site.xml");
        Configuration.addDefaultResource("mapred-site.xml");
        Configuration.addDefaultResource("yarn-site.xml");
      }
    
      @Override
      public int run(String[] args) throws Exception {
        Configuration conf = getConf();
        for (Entry<String, String> entry: conf) {
          System.out.printf("%s=%s
    ", entry.getKey(), entry.getValue());
        }
        return 0;
      }
    
      public static void main(String[] args) throws Exception {
        int exitCode = ToolRunner.run(new HadoopConfDisplay(), args);
        System.exit(exitCode);
      }
    }


    最后我们按照之前的方式编译打包为mytest.jar,再执行命令验证的结果如下图所示:

    之前缺失的参数都出来了,呵呵!

    这下大家可以愉快的进行性能调优了。

    后记:个人总结整理的《深入理解Spark:核心思想与源码分析》一书现在已经正式出版上市,目前京东、当当、天猫等网站均有销售,欢迎感兴趣的同学购买。

    京东:http://item.jd.com/11846120.html 

    当当:http://product.dangdang.com/23838168.html 

  • 相关阅读:
    ubuntu安装 scala
    提交jar作业到spark上运行
    在IDEA上用python来连接集群上的hive
    spark在eclipse上配置
    【Spring AOP】Spring AOP的使用方式【Q】
    【Spring 源码】ApplicationContext源码
    【Spring 源码】Spring 加载资源并装配对象的过程(XmlBeanDefinitionReader)
    【Spring Cloud】Spring Cloud使用总结
    【坑】不要使用各种框架提供的内部List
    Lombok的使用
  • 原文地址:https://www.cnblogs.com/jiaan-geng/p/5462144.html
Copyright © 2011-2022 走看看