zoukankan html css js c++ java

32、reduceByKey和groupByKey对比

一、groupByKey

1、图解

val counts = pairs.groupByKey().map(wordCounts => (wordCounts._1, wordCounts._2.sum))

 
groupByKey的性能，相对来说，是有问题的；

因为，它是不会进行本地聚合的，而是原封不动的，把ShuffleMapTask的输出，拉取到ResultTask的内存中，所以这样的话，会导致，所有的数据，都要进行网络传输，
从而导致网络传输的性能开销很大；

但是，有些场景下，用其他算法实现不了的，比如reduceByKey,sortByKey,countByKey实现不了的话，还是只能用groupByKey().map()来实现，比如可能你需要拿到
某个key对应的所有的value，进行自定义的业务逻辑处理；

二、reduceByKey

1、图解

val counts = pairs.reduceByKey(_ + _)



HashShuffleWriter的writer()方法，是先判断了一下，如果是isMapCombined，那么就在本地进行聚合，聚合之后，再写入磁盘文件；

对于，仅仅是要对key对应的values进行聚合为一个值的场景，用reduceByKey是非常合适的，因为会先在ShuffleMapTask端写入本地磁盘文件的时候，
进行本地聚合，再写入磁盘文件，此时，就会导致数据量大幅度缩减，甚至可能达到数据量缩减了几倍，甚至十几倍、几十倍的程度；

这样的话，也就相当于，ShuffleMapTask端的数据，传输到ReduceTasl端的数据，数据量大幅度缩减，性能大幅度增加，甚至达到减少数据量的时间，几倍、十几倍、几十倍；

如果能用reduceByKey，那就用reduceByKey，因为它会在map端，先进行本地combine，可以大大减少要传输到reduce端的数据量，减小网络传输的开销。
只有在reduceByKey处理不了时，才用groupByKey().map()来替代。

查看全文

相关阅读:
Arcgis silverlight4 Sublayerlist
U盘不显示盘符
 Error: The spatial references do not match
如何让你的SQL运行得更快
 Arcgis silverlight3 layerlist
oracle客户端登陆
 Arcgis silverlight1 地图显示
 通过BAT文件部署windows服务
 在博客园安家了
 java中static作用详解

原文地址：https://www.cnblogs.com/weiyiming007/p/11263805.html