spark小技巧－mapPartitions - 走看看

zoukankan html css js c++ java

spark小技巧－mapPartitions
与map方法类似，map是对rdd中的每一个元素进行操作，而mapPartitions(foreachPartition)则是对rdd中的每个分区的迭代器进行操作。如果在map过程中需要频繁创建额外的对象(例如将rdd中的数据通过jdbc写入数据库,map需要为每个元素创建一个链接而mapPartition为每个partition创建一个链接),则mapPartitions效率比map高的多。

SparkSql或DataFrame默认会对程序进行mapPartition的优化。

Demo

实现将每个数字变成原来的2倍的功能

比如：输入2,结果(2,4)

使用map

val a = sc.parallelize(1 to 9, 3) def mapDoubleFunc(a : Int) : (Int,Int) = { (a,a*2) } val mapResult = a.map(mapDoubleFunc) println(mapResult.collect().mkString)

结果

(1,2)(2,4)(3,6)(4,8)(5,10)(6,12)(7,14)(8,16)(9,18)

使用mapPartitions

val a = sc.parallelize(1 to 9, 3) def doubleFunc(iter: Iterator[Int]) : Iterator[(Int,Int)] = { var res = List[(Int,Int)]() while (iter.hasNext) { val cur = iter.next; res .::= (cur,cur*2) } res.iterator } val result = a.mapPartitions(doubleFunc) println(result.collect().mkString)

结果

(3,6)(2,4)(1,2)(6,12)(5,10)(4,8)(9,18)(8,16)(7,14)
查看全文

相关阅读:
1113.层级 Walker
118.防止高度塌陷 Walker
1114.实战移入切换 Walker
116.清除浮动 Walker
Vue使用——vue设置浏览器显示图标
 MFC如何高效地绘图（转）
Ugly Windows HDU2487 ACM算法设计
 CImage类的介绍与使用【图像打开,另存为,转为灰度图像(利用cimage方法实现)】
Ogre 3D 配置
 WPF文本框只允许输入数字[转]

原文地址：https://www.cnblogs.com/xiaomaohai/p/6158040.html

Copyright © 2011-2022 走看看