zoukankan      html  css  js  c++  java
  • MapReduce简介

    问题:如何解决海量数据的运算?

    先从一张图简单的看下mapreduce的处理过程

    MapReduce概述:

    MapReduce是一种分布式计算模型,由Google提出,主要用于搜索领域,解决海量数据的计算问题。
    MR由两个阶段组成:Map和Reduce,用户只需要实现map()和reduce()两个函数,即可实现分布式计算,非常简单。
    这两个函数的形参是key、value对,表示函数的输入信息。

    MapReduce原理:

    MapReduce执行步骤:

    执行步骤:
     1、map任务处理
    1.1 读取输入文件内容,解析成key、value对。对输入文件的每一行,解析成key、value对。每一个键值对调用一次map函数。
    1.2 写自己的逻辑,对输入的key、value处理,转换成新的key、value输出。

    2、reduce任务处理
    2.1 在reduce之前,有一个shuffle的过程对多个map任务的输出进行合并、排序。
    2.2 写reduce函数自己的逻辑,对输入的key、value处理,转换成新的key、value输出。
    2.3 把reduce的输出保存到文件中。

  • 相关阅读:
    python之道04
    python之list [ 列表 ]
    end和sep的使用方法
    pass1
    python之for (循环)
    python之range (范围)
    python之str (字符型)
    python之bool (布尔值)
    python之int (整型)
    python之道03
  • 原文地址:https://www.cnblogs.com/sMKing/p/7544785.html
Copyright © 2011-2022 走看看