zoukankan      html  css  js  c++  java
  • MapReduce修改输出的文件名

    MapReduce默认输出的文件名称格式如下:part-r-00000

    自定义名称,比如editName,则输出的文件名称为:editName-r-0000,此方法没有彻底修改整个文件名,只修改了一部分

    方法如下

    重写TextOutPutFormat的setOutPutName方法,因为setOutPutName是protected方法,所以只能通过重写的方式来修改

    代码如下

    /**
     * 
     */
    package com.zhen.outPutName;
    
    import org.apache.hadoop.io.IntWritable;
    import org.apache.hadoop.io.Text;
    import org.apache.hadoop.mapreduce.JobContext;
    import org.apache.hadoop.mapreduce.lib.output.TextOutputFormat;
    
    /**
     * @author FengZhen
     * setOutputName是protected方法,所以无法直接调用,只能自定义TextOutPutFormat重写该方法
     */
    public class MyOutPutFormat extends TextOutputFormat<Text, IntWritable>{
    
        protected static void setOutputName(JobContext job, String name) {  
            job.getConfiguration().set(BASE_OUTPUT_NAME, name);  
          }  
    }
    /**
     * 
     */
    package com.zhen.outPutName;
    
    import java.io.IOException;
    
    import org.apache.hadoop.conf.Configuration;
    import org.apache.hadoop.fs.Path;
    import org.apache.hadoop.io.IntWritable;
    import org.apache.hadoop.io.LongWritable;
    import org.apache.hadoop.io.NullWritable;
    import org.apache.hadoop.io.Text;
    import org.apache.hadoop.mapreduce.Job;
    import org.apache.hadoop.mapreduce.lib.input.FileInputFormat;
    import org.apache.hadoop.mapreduce.lib.output.FileOutputFormat;
    import org.apache.hadoop.mapreduce.lib.output.TextOutputFormat;
    
    /**
     * @author FengZhen
     * hadoop jar /Users/FengZhen/Desktop/Hadoop/other/mapreduce_jar/OutPutNameTest.jar com.zhen.outPutName.OutPutNameTest /user/hadoop/mapreduce/combinerTest/input /user/hadoop/mapreduce/OutPutNameTest/output/ 
     */
    public class OutPutNameTest {
    
        public static void main(String[] args) throws IOException, ClassNotFoundException, InterruptedException {
            Configuration configuration = new Configuration();
            Job job = new Job(configuration, OutPutNameTest.class.getSimpleName());
            job.setJarByClass(OutPutNameTest.class);
            job.setMapperClass(MapTest.class);
            job.setMapOutputKeyClass(Text.class);
            job.setMapOutputValueClass(IntWritable.class);
            
            job.setReducerClass(ReduceTest.class);
            job.setOutputKeyClass(Text.class);
            job.setOutputValueClass(IntWritable.class);
    //设置job的输出类型 job.setOutputFormatClass(MyOutPutFormat.
    class); job.setCombinerClass(ReduceTest.class); job.setPartitionerClass(PartitionTest.class); job.setNumReduceTasks(2); //结果名称如下:editName-r-00000,此方法只能修改part这一段 MyOutPutFormat.setOutputName(job, "editName"); FileInputFormat.addInputPath(job, new Path(args[0])); FileOutputFormat.setOutputPath(job, new Path(args[1])); System.exit(job.waitForCompletion(true)?0:1); } }

    Map Reduce两个类省略。

  • 相关阅读:
    应用程序连接hbase报错:java.net.SocketTimeoutException: callTimeout=60000
    《30岁前的每一天》读书笔记(一)
    你在为谁工作——IT帮深圳分站2019年3月线下活动回顾
    定义工作,解读自我——IT帮2019年2月线下活动回顾
    2018年终总结
    svn + nginx unit + python3自动化发布web服务方法
    关于nginx unit服务非正常关闭后,无法重新启动问题的处理
    90%以上的人都存在拖延症状,原来你没有做对这一件事
    我们没得拼爹,只能拼命,但拿什么来拼命?
    我们在努力创建自己的幸福生活,可为什么却常常感受不到幸福?
  • 原文地址:https://www.cnblogs.com/EnzoDin/p/8441107.html
Copyright © 2011-2022 走看看