spark foreachPartition算子 - 走看看

zoukankan html css js c++ java

spark foreachPartition算子
1.foreach
val list = new ArrayBuffer() myRdd.foreach(record => { list += record })
2.foreachPartition
val list = new ArrayBuffer rdd.foreachPartition(it => { it.foreach(r => { list += r }) })
说明：

foreachPartition属于算子操作，可以提高模型效率。比如在使用foreach时，将RDD中所有数据写Mongo中，就会一条数据一条数据地写，每次函数调用可能就会创建一个数据库连接，此时就势必会频繁地创建和销毁数据库连接，性能是非常低下；但是如果用foreachPartitions算子一次性处理一个partition的数据，那么对于每个partition，只要创建一个数据库连接即可，然后执行批量插入操作，此时性能是比较高的。

参考官网的说明：

获取每个分区的索引：
rdd.foreachPartition { partitionOfRecords: Iterator[Row] => partitionOfRecords.foreach((record: Row) => { println(TaskContext.getPartitionId) print(record.get(0)) print(record.get(1)) print(record.get(2)) }) }
查看全文

相关阅读:
Python学习之路：MINST实战第一版
 Python学习之路：NumPy进阶
 Python学习之路：NumPy初识
 Python学习之路：一天搞定基础部分
 7. 整数反转（leetcode）
1. 两数之和（leetcode）
172. 阶乘后的零（leetcode）
Java模拟斗地主发牌(Collections工具类的应用)
CF刷题-Codeforces Round #481-G. Petya's Exams
【android】安卓平台版本和API版本的对应关系

原文地址：https://www.cnblogs.com/chong-zuo3322/p/15512912.html

Copyright © 2011-2022 走看看