zoukankan      html  css  js  c++  java
  • 关于MultipleOutputFormat若干小记

    使用版本是0.19.2,据说0.20以后,MultipleOutputFormat不好使,不知道真假

    api可以参考

    http://hadoop.apache.org/common/docs/r0.19.2/api/

    但是说老实话,光看api有的时候有点混乱,每个函数到底影响些啥呢?

    protected  K generateActualKey(K key, V value)
              Generate the actual key from the given key/value.
    protected  V generateActualValue(K key, V value)
              Generate the actual value from the given key and value.
    protected  String generateFileNameForKeyValue(K key, V value, String name)
              Generate the file output file name based on the given key and the leaf file name.
    protected  String generateLeafFileName(String name)
              Generate the leaf name for the output file name.
    protected abstract  RecordWriter<K,V> getBaseRecordWriter(FileSystem fs, JobConf job, String name, Progressable arg3)
               
    protected  String getInputFileBasedOutputFileName(JobConf job, String name)
              Generate the outfile name based on a given anme and the input file name.
     RecordWriter<K,V> getRecordWriter(FileSystem fs, JobConf job, String name, Progressable arg3)
              Create a composite record writer that can write key/value data to different output files

    现在简单介绍了下调用的过程

    ReduceTask.java文件中

     1 public void run(JobConf job, final TaskUmbilicalProtocol umbilical) throws IOException
     2 {
     3 ..........
     4 
     5 String finalName = getOutputName(getPartition());//return "part-" + NUMBER_FORMAT.format(partition);依据taskid产生诸如part-00000这样的文件名
     6 
     7 FileSystem fs = FileSystem.get(job);
     8 
     9 final RecordWriter out = job.getOutputFormat().getRecordWriter(fs, job, finalName, reporter);//finalName=part-00000
    10 
    11 .............
    12 }

     在MultipleOutputFormat.java里面,请注意这些个函数的调用顺序

        public RecordWriter<K, V> getRecordWriter(FileSystem fs, JobConf job, String name, Progressable arg3) throws IOException
        {
            final FileSystem myFS = fs;
            final String myName = generateLeafFileName(name);//在这里可以硬性的指定文件名名称
            final JobConf myJob = job;
            final Progressable myProgressable = arg3;

            return new RecordWriter<K, V>() {
                // a cache storing the record writers for different output files.
                TreeMap<String, RecordWriter<K, V>> recordWriters = new TreeMap<String, RecordWriter<K, V>>();

                public void write(K key, V value) throws IOException
                {
                    // get the file name based on the key
                    String keyBasedPath = generateFileNameForKeyValue(key, value, myName);//一般依据key来决定文件名的时候 就在这个函数

                    // get the file name based on the input file name
                    String finalPath = getInputFileBasedOutputFileName(myJob, keyBasedPath);//如果想依据jobconf配置来确定名称的话 就在这个函数里实现  finalPath 就是最终的文件名

                    // get the actual key
                    K actualKey = generateActualKey(key, value);
                    V actualValue = generateActualValue(key, value);

                    RecordWriter<K, V> rw = this.recordWriters.get(finalPath);
                    if (rw == null)
                    {
                        // if we don't have the record writer yet for the final path, create one and add it to the cache
                        rw = getBaseRecordWriter(myFS, myJob, finalPath, myProgressable);//必须自己实现的
                        this.recordWriters.put(finalPath, rw);
                    }
                    rw.write(actualKey, actualValue);//
                };
     
                 .......
     
            };
        }

     上述函数,除了getInputFileBasedOutputFileName,其他的红色函数基本上都只是简单的返回输入值.

  • 相关阅读:
    null和undefined的区别
    减少页面加载时间的方法
    html5有哪些新特性、移除了那些元素?
    cookies,sessionStorage 和 localStorage 的区别
    小程序页面
    快速保存网页图片的工具
    Flex 布局教程
    第一阶段:Python开发基础 day08 Python基础语法入门--列表元组字典集合类型的内置方法
    第一阶段:Python开发基础 day08 数据类型的内置方法 课后作业
    python学习第一周知识内容回顾与小结
  • 原文地址:https://www.cnblogs.com/xuxm2007/p/2365332.html
Copyright © 2011-2022 走看看