MapReduce 过程分析 - 走看看

zoukankan html css js c++ java

MapReduce 过程分析

hdfs 是分布式文件系统， yarn 类似于云 OS 资源管理器，用来调度各种资源。

mapreduce, spark, storm 是真正运行的进程，干活的，他们都是在 yarn 基础上。他们在运行时都需要调度各种数据资源和计算资源。

mapreduce 就是一个并行计算框架。可以处理日志解析，数据统计以及数据的分析挖掘。

下面分析下 mapreduce 的整个过程

1. 当一个文件提交后，需要将这个文件切分成一个个小的部分，供多个节点来处理。切分后得到的结果就是 <key，value> 对。

2. 上面的 key, value 对就作为输入传入了 map 接口。Map 框架会调用 map 函数处理 InputSplit 中的每个 key/value 对。

3. map 函数处理完成后的输出的 key/value 不需要与输入键具有相同的数据类型

4. map 后得到的数据都会根据输出 key,value 对的 key 进行分组聚合，并传递到 reduce 进行处理

5. map 后得到的数据要经过中间过程的处理，分为 3 个处理阶段：洗牌 shuffle，排序和归约

6. 洗牌和排序是同时进行的

7. reduce 就是归约，会对 <key, list of values> 进行处理

查看全文

相关阅读:
视频高清直播RTMP视频推流组件EasyRTMP-IOS版如何使用wchar_t*类型参数？
设计模式
 算法学习【第10篇】：算法之动态规划问题
 算法学习【第9篇】：算法之斐波那契数列
 算法学习【第8篇】：贪心算法找零问题
 算法学习【第7篇】：算法之迷宫问题
 算法学习【第6篇】：算法之数据结构
 算法学习【第5篇】：常用排序算法(*******)
算法学习【第4篇】：算法之---堆的简单介绍
 算法学习【第3篇】：树和二叉树简介

原文地址：https://www.cnblogs.com/reycg-blog/p/9036193.html

Copyright © 2011-2022 走看看