【Spark调优】：如果实在要shuffle，使用map侧预聚合的算子 - 走看看

zoukankan html css js c++ java

【Spark调优】：如果实在要shuffle，使用map侧预聚合的算子
　　因业务上的需要，无可避免的一些运算一定要使用shuffle操作，无法用map类的算子来替代，那么尽量使用可以map侧预聚合的算子。　　

map侧预聚合，是指在每个节点本地对相同的key进行一次聚合操作，类似于MapReduce中的本地combine。map-side预聚合之后，每个节点本地就只会有一条相同的key，因为多条相同的key都被聚合起来了。shuffle时，节点间拉取其他节点上的相同key时，就会大大减少需要拉取的数据数量，从而也就减少了磁盘IO以及网络传输开销。

　　对应到算子，建议使用reduceByKey或者aggregateByKey算子来代替groupByKey算子。因为reduceByKey和aggregateByKey算子都会使用用户自定义的函数对每个节点本地的相同key进行预聚合。而groupByKey算子是不会进行预聚合的，全量的数据会在集群的各个节点之间分发和传输，性能相对较差。

　　代码实践：https://github.com/wwcom614/Spark
- groupByKey
- reduceByKey
查看全文

相关阅读:
初学flask
第一次使用pyqt5解决的几个小问题
 一些细节
 关于random
go语言方法
 go 语言 struct 另类构造函数继承
 go 语言链表的增删改查
 go 语言链表
 go 语言struct
无题

原文地址：https://www.cnblogs.com/wwcom123/p/10514429.html

Copyright © 2011-2022 走看看