zoukankan      html  css  js  c++  java
  • 理解MapReduce

    理解MapReduce

    Hadoop的MapReduce过程具有如下形式:

              1) map: (K1, V1) => list(K2, V2)
              2) reduce: (K2, list(V2)) => list(K3, V3)

    我用一个简单的例子说明它表示的含义:

    假设待分析的数据文件是一个用户名和密码的表,即"用户名,密码"格式:

    ========= input.dat=========

    zhang,123456

    wang,qazxsw

    liu,123456

    meng,xxx123

    hunan,qazxsw

    chin,qazxsw

    feifei,1008xyz

    ... ...

    ==========================

    那么我们要求统计出密码使用的次数大于1次的,即最终可以得到下面的结果:

    123456=2

    qazxsw=3

     

    用MapReduce可以这样做:

    第1步:Map

    protected void map(LongWritable key, Text value, Context context);

    Map的输入(K1, V1)默认是(文件行号,文件行),即map函数每次得到的输入都是下面的形式:

    (key=>K1, value=>V1)

    第1次:(0,  "zhang,123456")

    第2次:(1, "wang,qazxsw")

    第3次:(2, "liu,123456")

    第4次:(3, "meng,xxx123")

    ...

    我们需要在map函数的value参数V1中,提取出密码作为输出的K2=>key,而输出的value是1(次数),

    表示一个用户使用了这个密码=>K2。

    map运行完后得到了下面的结果:list(K2, V2),即:

    K2        (V2)

    123456(1)

    qazxsw(1)

    123456(1)

    xxx123(1)

    qazxsw(1)

    qazxsw(1)

    1008xyz(1)

    这个输出被系统自动归并为K2=>list(V2),即:

    123456=>(1,1)

    qazxsw=>(1,1,1)

    xxx123=>(1)

    1008xyz=>(1)

    这个(K2, list(V2)) 接着作为reduce的输入。

     

    第2步:Reduce

    protected void reduce(Text key, Iterable<IntWritable> values, Context context);

    reduce函数的输入既然是key=K2, value=list(V2),那么我们就可以把每个K2下的list(v2)的元素相加,得到下面的结果:

    123456=>(2)

    qazxsw=>(3)

    xxx123=>(1)

    1008xyz=>(1)

    我们只保留次数大于1的,所以最后的reduce输出为:

    123456=>(2)

    qazxsw=>(3)

    这个就是:list(K3, V3)。这里K3与K2类型一致,V3与V2类型一致。

    以上就是Map Reduce的全过程。

    理解MapReduce

  • 相关阅读:
    Java工程代码开发规范总结
    MySQL5.7 JSON字段性能测试
    Forest v1.5.12 发布,声明式 HTTP 框架,已超过 1.6k star
    HTTP基础系列之:一文搞懂URL
    近1000 star,Forest 1.5.0 正式版发布
    我的开源项目在五个月内超过了 600 star
    我的开源经历:为了方便处理三方 HTTP 接口而写的 Java 框架
    【约瑟夫环】C语言数组法+java循环链表法
    UNICODE编码 特殊符号
    swift3.0 保存图片到本地,申请权限
  • 原文地址:https://www.cnblogs.com/549294286/p/3582753.html
Copyright © 2011-2022 走看看