MapReduce - 走看看

zoukankan html css js c++ java

MapReduce

1、什么是mapreduce

首先我们需要知道 hadoop 的四大组件：
HDFS：分布式存储系统
MapReduce：分布式计算系统
YARN： hadoop 的资源调度系统
Common：以上三大组件的底层支撑组件，主要提供基础工具包和 RPC 框架等

Mapreduce 是一个分布式运算程序的编程框架，是用户开发“基于 hadoop 的数据分析应用”的核心框架
Mapreduce 核心功能是将用户编写的业务逻辑代码和自带默认组件整合成一个完整的分布式运算程序，并发运行在一个 hadoop 集群上
2、为什么需要 MapReduce？

(1) 海量数据在单机上处理因为硬件资源限制，无法胜任
(2) 而一旦将单机版程序扩展到集群来分布式运行，将极大增加程序的复杂度和开发难度
(3) 引入 MapReduce 框架后，开发人员可以将绝大部分工作集中在业务逻辑的开发上，而将分布式计算中的复杂性交由框架来处理。

3、mapreduce程序运行实例

在 MapReduce 组件里，官方给我们提供了一些样例程序，其中非常有名的就是 wordcount 和 pi 程序。这些 MapReduce 程序的代码都在 hadoop-mapreduce-examples-2.6.4.jar 包里，这个 jar 包在 hadoop 安装目录下的/share/hadoop/mapreduce/目录里。

4、mapreduce示例编写及编码规范

上一步，我们查看了 WordCount 这个 MapReduce 程序的源码编写，可以得出几点结论：
（1）该程序有一个 main 方法，来启动任务的运行，其中 job 对象就存储了该程序运行的必要信息，比如指定 Mapper 类和 Reducer 类
job.setMapperClass(TokenizerMapper.class);
job.setReducerClass(IntSumReducer.class);
（2）该程序中的 TokenizerMapper 类继承了 Mapper 类
（3）该程序中的 IntSumReducer 类继承了 Reducer 类

总结： MapReduce 程序的业务编码分为两个大部分，一部分配置程序的运行信息，一部分编写该 MapReduce 程序的业务逻辑，并且业务逻辑的 map 阶段和 reduce 阶段的代码分别继承 Mapper 类和 Reducer 类

查看全文

相关阅读:
JIT动态编译器的原理与实现之Interpreter（解释器）的实现（三）
java工作之后需要看的书籍
 WebService 之 REST vs SOAP
消息队列
 dreamweaver cs6 的破解方法
 jquery mobile页面跳转后js不执行的问题
 JQueryMobile页面跳转参数的传递解决方案
 HTMl5的sessionStorage和localStorage
phoneGap、JQueryMobile 简介及中文API地址
 Android 禁止响应屏幕翻转

原文地址：https://www.cnblogs.com/tianwenjing123-456/p/14203631.html