spark源码系列文章------shuffle模块详解

zoukankan html css js c++ java

spark源码系列文章------shuffle模块详解

摘要：一、Basic shuffle writer实现解析在Executor上执行shuffle Map Task时，最终会调用shuffleMapTask的runTask，核心逻辑如下： 1.从sparkEnv中获得shuffleManager； 2.

一、Basic shuffle writer实现解析

在Executor上执行shuffle Map Task时，最终会调用shuffleMapTask的runTask，核心逻辑如下：

1.从sparkEnv中获得shuffleManager；

2.从manager中获得writer

3.调用RDD开始计算，运算结果通过writer进行持久化，持久化之前通过Aggregator来确定是否需要进行Map端聚合，然后将结果通过FileShuffleManager#forMapTask的方法写入，写入完成后，会将元数据信息写入MapStatus，然后下游的Task可以通过这个MapStatus取得需要处理的数据。

这样writer通过ShuffleDependency#partitioner来获得下游partition的数量，下游的每个partition都会对应一个文件，文件名字的格式为：“shuffle_”+shuffledId+"_"+mapId+"_"+reduceId。

由于每个shuffle Map Task需要为每个下游的Task创建一个单独的文件，因此文件的数量就是number(shuffle_map_task)*number(following_task)。这样会导致创建和打开许多文件。

后来spark又引入Shuffle Consolidate Writer，原理是core上的第一个Task创建一个文件，该core上的后面的Task的shuffle操作都追加写入改文件，这样文件数量number(core)*number(following_task) 。

//todo

原文链接

查看全文

相关阅读:
pat乙级1034
getline()读入一整行
 c++ 输入split
13.缓存、三级缓存、内存溢出、AsyncTask
12、json、GridView、缓存
 11.webview、shareSDK
10.下拉刷新、加载更多、标记已读、轮播条、缓存
 9.indicate、xutils、json
8.滑动事件处理
 7.ViewPagerIndicator

原文地址：https://www.cnblogs.com/jzy996492849/p/7211618.html