bypass SortShuffleManager的bypass运行机制 - 走看看

zoukankan html css js c++ java

bypass SortShuffleManager的bypass运行机制
bypass运行机制

下图说明了bypass SortShuffleManager的原理。bypass运行机制的触发条件如下：
- shuffle map task数量小于spark.shuffle.sort.bypassMergeThreshold参数的值。
- 不是聚合类的shuffle算子（比如reduceByKey）。
此时task会为每个下游task都创建一个临时磁盘文件，并将数据按key进行hash然后根据key的hash值，将key写入对应的磁盘文件之中。当然，写入磁盘文件时也是先写入内存缓冲，缓冲写满之后再溢写到磁盘文件的。最后，同样会将所有临时磁盘文件都合并成一个磁盘文件，并创建一个单独的索引文件。

该过程的磁盘写机制其实跟未经优化的HashShuffleManager是一模一样的，因为都要创建数量惊人的磁盘文件，只是在最后会做一个磁盘文件的合并而已。因此少量的最终磁盘文件，也让该机制相对未经优化的HashShuffleManager来说，shuffle read的性能会更好。

而该机制与普通SortShuffleManager运行机制的不同在于：第一，磁盘写机制不同；第二，不会进行排序。也就是说，启用该机制的最大好处在于，shuffle write过程中，不需要进行数据的排序操作，也就节省掉了这部分的性能开销。
查看全文

相关阅读:
Android开发进阶 -- 通用适配器 CommonAdapter
如何巧妙地在基于 TCP Socket 的应用中实现用户注册功能？
如何让基于.NET 2.0的应用在高版本的系统上运行？
即时通信系统中实现全局系统通知，并与Web后台集成【附C#开源即时通讯系统（支持广域网）——QQ高仿版IM最新源码】
即时通信系统中实现聊天消息加密，让通信更安全【低调赠送：C#开源即时通讯系统（支持广域网）——GGTalk4.5 最新源码】
程序员的那些事儿 -- 高级程序员买衣服
 程序员的那些事儿 -- 皆大欢喜的加薪
 GGTalk即时通讯系统（支持广域网）终于有移动端了！（技术原理、实现、源码）
如何做到在虚拟数据库和真实数据库之间自由切换？【低调赠送：QQ高仿版GG 4.4 最新源码】
如何实现：录制视频聊天的全过程？【低调赠送：QQ高仿版GG 4.3 最新源码】

原文地址：https://www.cnblogs.com/sunpengblog/p/11915439.html

Copyright © 2011-2022 走看看