mapReduce和spark的shuffle

zoukankan html css js c++ java

mapReduce和spark的shuffle

MapReduce的shuffle

1.input map shuffle reduce output

2.shuffle的实现的功能：分区分组排序(key字典序)

3.map端的shuffle context.write() 写入到环形缓冲区（内存区域），假设缓冲区设置的是100M，当达到缓冲区的80%的时候，就会溢写出一个小文件，溢出到磁盘之前做了二件事，分区排序两个reduce

merge 将小文件进行合并

合并之后分区内有序

merge之后 maptask结束，会通知appmaster我已经结束任务，am通知reduce拉取数据。

reduce shullfe:
reduce启动线程通过网络到每台机器上拉取属于自己的数据

reduce1会拉取属于自己的数据：

将整体分区的数据进行排序

MapReduce shuffle 优化

1.合理设置partition 使用多个reduce处理输出结果

2.减少reducer从map拉取的数据量

（1）将map数据进行压缩（snappy 压缩质量不高但是读取速度快，）也可以在reduce输出的时候增加gzip 压缩实现保证压缩率快速输出

（2）合理使用combiner（减少reducer输入数据量）

MR的优化：

1.合理设置HDFS文件块的大小

2.增加map buff缓冲区的大小

3.map输出的key的设计均匀数据倾斜

4.增加reduce的个数通过分流加快reduce处理

5.增加reduce copybuffer缓冲区的大小增加copy线程的线程数量

6.减少reduce阶段的数据输入量在map阶段进行combiner 数据进行压缩

spark 的shuffle

ShuffleManager管理

HashShuffleManager

SortShuffleManager

抛弃了HashShuffleManager

查看全文

相关阅读:
sql server 如何查看这个数据库有多少张表并具体显示出来
 SQL Server2008 SP1安装查找安装媒体怎么解决
 检测到在集成的托管管道模式下不适用的 ASP.NET 设置。
sql不记得用户名跟密码怎么办
 必背系列之数据库常用语法
 select * from 多张表的用法
 SAP与Oracle ERP
with as的用法
 IIS启动网站--HTTP错误500.21
SqlServer2012--备份介质集不完整，介质集有2个介质簇但只提供了1个

原文地址：https://www.cnblogs.com/yyfyl/p/12844131.html