MapReducer - 走看看

zoukankan html css js c++ java

MapReducer

MapReducer
   概述
       是一个分布式的计算框架（编程模型），最初由由谷歌的工程师开发，基于GFS的分布式计算框架。后来Cutting根据《Google Mapreduce》,设计了基于HDFS的Mapreduce分布式计算框架。
       MR框架对于程序员的最大意义在于，不需要掌握分布式计算编程，不需要考虑分布式编程里可能存在的种种难题，比如任务调度和分配、文件逻辑切块、位置追溯、工作。这样，程序员能够把大部分精力放在核心业务层面上，大大简化了分布式程序的开发和调试周期。
   结构
       JobTracker / ResourceManager：任务调度者，管理多个TaskTracker。ResourceManager是hadoop2.0版本之后引入了yarn，有yarn来管理hadoop之后，jobtracker就被替换成了ResourceManager
       TaskTracker / NodeManager：任务执行者
   Mapper组件
       1.Mapper组件开发方式：写一个类，继承Mapper
       2.Mapper组件的作用是定义每一个MapTask具体要怎么处理数据。比如一个文件，257MB，会生成3个MapTask。即三个MapTask处理逻辑是一样的只是每个MapTask处理的数据不一样。
   Reduce
       1.reduce组件用于接收mapper组件的输出
       2.redudce第一个泛型类型是reduce的输入key,需要和mapper的输出key类型一致
       3.第二个泛型类型是reduce的输入value，需要和mapper的输出value类型一致
       4.第三个泛型类型是reduce的输出key类型，根据具体业务决定
       5.第四个泛型类型是reduce的输出value类型，根据具体业务决定
       6.reduce收到map的输出，会按相同的key做聚合，形成:key Iterable 形式然后通过reduce方法传给程序员。
       7.reduce方法中的Iterable是一次性的，即遍历一次之后，再遍历，里面就没有数据了。所以，在某些业务场景，会涉及到多次操作此迭代器，处理的方法是：①先创建一个List ②把Iterable装到List ③多次去使用List即可

序列化机制
   由于集群工作过程中，需要用到RPC操作，所以MR处理的对象必须可以进行序列化/反序列操作。Hadoop利用的是avro实现的序列化和反序列，并且在其基础上提供了便捷的API
要序列化的对象必要实现相关的接口：
Writable接口--WritableComparable

查看全文

相关阅读:
C语言编程练习41：ACboy needs your help again!
C语言编程练习40：Ignatius and the Princess II
C语言编程练习39：Solving Oder
C语言编程练习38：火车出站
 C语言编程练习37：出栈合法性
 C语言编程练习36：赌徒
 C语言编程练习35：叠筐
 C语言编程练习34：Tr A
网购手机被坑了？
meta标签

原文地址：https://www.cnblogs.com/Striverchen/p/10557827.html