zoukankan      html  css  js  c++  java
  • wordCount程序中MapReduce工作过程分析

      Map处理的是一个纯文本。Mapper处理的数据是由InputFormat分解过的数据集,其中InputFormat的作用是将数据集切割成小数据集InputSplit,每一个InputSplit将由一个Mapper处理,此外,InputFormat中还提供了一个RecordReader的实现,并将一个InputSplit解析成<key,value>对提供给map函数。InputFormat的默认值是TextInputFormat,它针对文本文件,按行将文本切割成InputSplit,并用LineRecordReader将InputSplit解析成<key,value>对,key是行在文本中的位置,value是文本中的一行

      InputFormat类定义了如何分割和读取输入文件,它提供有下面的几个功能:

    • 选择作为输入的文件或对象;
    • 定义把文件划分到任务的InputSplits;
    • 为RecordReader读取文件提供了一个工厂方法;

      Hadoop自带了好几个输入格式。其中有一个抽象类叫FileInputFormat,所有操作文件的InputFormat类都是从它那里继承功能和属性。当开启Hadoop作业时,FileInputFormat会得到一个路径参数,这个路径内包含了所需要处理的文件,FileInputFormat会读取这个文件夹内的所有文件(译注:默认不包括子文件夹内的),然后它会把这些文件拆分成一个或多个的InputSplit。你可以通过Job对象的setInputFormat()方法来设定应用到你的作业输入文件上的输入格式。下表给出了一些标准的输入格式:

      

    输入格式

    描述

    TextInputFormat

    默认格式,读取文件的行(默认)

    行的字节偏移量

    行的内容

    KeyValueInputFormat

    把行解析为键值对

    第一个tab字符前的所有字符

    行剩下的内容

    SequenceFileInputFormat

    Hadoop定义的高性能二进制格式

    用户自定义

    用户自定义

      Map的结果会通过partion分发到Reducer,中间涉及到copy和merge的过程,merge的时候,具有相同key的键/值对则送到同一个Reducer上。Reducer是所有用户定制Reducer类的基础,它的输入是key和这个key对应的所有的value的一个迭代器,同时还有Reducer的上下文。Reducer做完Reduce操作后,将通过OutputFormat输出,最终由Reducer.Context的write方法输出到文件中。

    下面给出两个结点的示意图:

      下面贴一个句柄使用的例子,在很多字符串处理中都有使用,具体的是将Hadoop自身的基础数据类型的Text转化成String,再用句柄来将句子按照定义的分割符分开,获得的是标记间的多个句柄。

    String s = new String("The Java platform is the ideal platform for network computing");
    StringTokenizer st = new StringTokenizer(s);
    System.out.println( "Token Total: " + st.countTokens() );
    while( st.hasMoreElements() ){
    System.out.println( st.nextToken() );
    }

    另外如果输入的字符串带有一定的结构,可以根据相应结构进行分割、提取、计算等,具体情况以来自己想实现的功能。

  • 相关阅读:
    快速设置Scrapy随机的IP代理
    快速设置随机的UserAgent
    windows安装flask并创建虚拟环境
    数电和模电比较
    程序员如何写出一份好的文档?
    Qt简介
    基于 Qt的聊天工具
    如何将word组合图形保存成png
    2015电赛点滴
    函数定义
  • 原文地址:https://www.cnblogs.com/wzyj/p/3557444.html
Copyright © 2011-2022 走看看