【knowledgebase】不要在一个很大的RDD上调用collect - 走看看

zoukankan html css js c++ java

【knowledgebase】不要在一个很大的RDD上调用collect
如果一个RDD很大以至于它的所有元素并不能在driver端机器的内存中存放下，请不要进行如下调用：
val values = myVeryLargeRDD.collect()
collect将尝试拷贝RDD中的每个元素到Driver端，容易导致OOM或者crash；

相反，如果你能通过调用take、takeSample、filter、sample等操作对返回的元素个数上限进行限制，再使用collect还是可以的；

查看RDD的collect方法源码：
def collect(): Array[T] = { val results = sc.runJob(this, (iter: Iterator[T]) => iter.toArray) Array.concat(results: _*) }
注意：

countByKey、countByValue、collectAsMap操作在使用的时候也要注意数据集的大小能存放到内存中；

如果你确实想要知道RDD(数据非常大)中的每个元素，建议将RDD导出到文件、数据库中再进行查看。

countByKey、countByValue、collectAsMap方法源码：
PairRDDFunctions.scala def countByKey(): Map[K, Long] = self.mapValues(_ => 1L).reduceByKey(_ + _).collect().toMap def collectAsMap(): Map[K, V] = { val data = self.collect() val map = new mutable.HashMap[K, V] map.sizeHint(data.length) data.foreach { pair => map.put(pair._1, pair._2) } map } RDD.scala def countByValue()(implicit ord: Ordering[T] = null): Map[T, Long] = { map(value => (value, null)).countByKey() }
查看全文

相关阅读:
Linux运维就业技术指导（九）期末架构考核
 Linux运维就业技术指导（八）：期中架构考核
 Linux就业技术指导（七）：游戏类运维重点流程解析
 Linux就业技术指导（五）：Linux运维核心管理命令详解
 Linux就业技术指导（六）：天津IDC机房项目实践
 Linux就业技术指导（四）：企业CDN缓存加速原理解密
 Linux就业技术指导（三）：IDC机房解密
 Linux就业技术指导（一）：简历撰写及面试筹备要领
 Linux就业技术指导（二）：简历项目经验示例
 Python运维开发基础10-函数基础

原文地址：https://www.cnblogs.com/luogankun/p/4277958.html

Copyright © 2011-2022 走看看