Spark笔记-treeReduce、reduce、reduceByKey - 走看看

zoukankan html css js c++ java

Spark笔记-treeReduce、reduce、reduceByKey

Spark笔记-treeReduce、reduce、reduceByKey

参考资料：

http://stackoverflow.com/questions/32281417/understadning-treereduce-in-spark

http://stackoverflow.com/questions/34078430/treereduce-vs-reducebykey-in-spark

reduceByKey和treeReduce之间有一个根本区别，reduceByKey它只对key-value pair RDDs可用，而treeReduce可以对任何RDD使用，相当于是reduce操作的泛化。 reduceByKey用于实现treeReduce，但它们在任何其他意义上都不相关。

reduceByKey对每个键执行reduce，结果生成RDD; 它不是"action"操作，而是返回ShuffleRDD，是"transformation"。这等效于groupByKey后面跟着一个map，它执行key-wise reduction（为什么使用groupByKey是低效的）。

另一方面，treeAggregate是reduce函数的泛化，灵感来自AllReduce。这在Spark中是一个"action"，将结果返回到master节点。在执行本地的reduce操作之后，普通的reduce在master上执行剩余的计算，这样的计算量可能是非常繁重的（特别是在机器学习中，reduce函数结果是大的向量或矩阵时）。相反，treeReduce使用reduceByKey并行的执行reduction（这是通过在运行时创建key-value pair RDD，其中键由树的深度确定）

treeReduce & reduce return some result to driver

treeReduce does more work on the executors

while reduce bring everything back to the driver.

分类: Spark

查看全文

相关阅读:
RS232串口通信详解
 VS2010 常用的快捷键
 Qt .pro文件详解
 Qt 编译出现 error LNK2019: 无法解析的外部符号
 LabVIEW部分视觉函数中文解说
 NI Vision 介绍
 LabVIEW的优点
 VisionPro和Halcon的详细对比
 康耐视软件VisionPro-max-u与VisionPro-plus-u的区别
 TensorFlow 介绍

原文地址：https://www.cnblogs.com/jeasonit/p/10533748.html

Copyright © 2011-2022 走看看