Scala中Iterator允许执行一次

zoukankan html css js c++ java

Scala中Iterator允许执行一次
背景

　　使用spark执行mapPartitionsWithIndex((index,iterator)=>{....})，在执行体中将iterator进行一次迭代后，再次根据iterator执行迭代，iterator迭代体未执行。

猜想及验证过程

　　猜测iterator只能执行一次迭代。

　　测试例子如下：
val rdd1 = sc.makeRDD(1 to 10,2) val rdd2 = rdd1.mapPartitionsWithIndex{(index,iterator)=>{ var result = List[String]() var sum = 0 var count = 0 while(iterator.hasNext){ sum += iterator.next() } while(iterator.hasNext){ count += 1 } result.::(index + "|" + sum + "|" + count).iterator }}

执行结果

res0: Array[String] = Array(0|15|0, 1|40|0)
　　通过执行结果可以看出sum执行了求和运算，count没有执行统计数量运算或未正确执行统计数量运算，推测可能的原因：1. iterator能够重复执行迭代，但是count的算术运算出现问题；2.iterator只能执行一次迭代；

　　对原因1的验证例子：
val rdd1 = sc.makeRDD(1 to 10,2) val rdd2 = rdd1.mapPartitionsWithIndex{(index,iterator)=>{ var result = List[String]() var sum = 0 var count = 0 while(iterator.hasNext){ sum += iterator.next() count += 1 } result.::(index + "|" + sum + "|" + count).iterator }}

执行结果

res0: Array[String] = Array(0|15|5, 1|40|5)
　　如果iterator能够重复执行迭代，但是count的统计数量计算出现问题，那么将sum和count放在同一个迭代体中，执行结果会和在两个迭代体中执行结果一致。但是执行结果却是能够正常的统计出数量，证明了推测原因1不成立。

　　对原因2的验证例子：

　　为了单纯的验证是iterator执行问题，下边的例子去掉了spark相关的函数
val iterator = Iterator(1,2,3,4,5,6,7) var sum = 0 while(iterator.hasNext){ sum += iterator.next } println("sum is " + sum) val expression = if(iterator.isEmpty) "iterator is empty" else "iterator is not empty" println(expression)
　　如果iterator只能执行一次迭代的话，expression的结果是【iterator is empty】，真实执行结果如下
sum is 28 iterator is empty iterator: Iterator[Int] = empty iterator sum: Int = 28 expression: String = iterator is empty
　　通过执行结果可以看出，expression的结果确实是【iterator is empty】，所以推测原因2成立。

结论

　　scala中iterator只能执行一次迭代，如果需要多次执行同一个迭代体，建议调用iterator.toList等方法，将迭代体转化为集合，再执行上述的验证例子就会正常。

扩展

　　1.iterator.min和iterator.max同样是通过迭代获得，所以对于同一个iterator的min和max只能获取一个。

　　2.java中Iterator类同scala的Iterator，只允许进行一次迭代，如果需要进行多次迭代，需要将iterator转化为集合类

　　3.C#中没有Iterator类，但是有IEnumerator，这个类可以通过IEnumerator.Reset方法来重置，迭代完进行重置就可以再次迭代，而对于java和scala的Iterator没有相似的方法；

补充

　　spark的mapPartitionsWithIndex中iterator尽量不要使用toList，原因：toList相当于将迭代数据进行了缓存，容易导致OutOfMemory的异常，iterator是流式的处理，处理完一条记录才会去读取下一条记录并且会丢弃已读的记录，无法重复使用；而iterator.toList会将所有的记录进行缓存，便于重复使用。
查看全文

相关阅读:
android bluetooth 蓝牙4.0 +HC-08模块
 android 调用默认浏览器打开指定网页
 checkSelfPermission 找不到 Android 动态权限问题
 C# 使用 USB转串接收数据问题
 Mysql 保留最新的10条数据
 Android Fragment 开发（一）
python IP地址转16进制
 Android Socket 遇到的Soure Not Find 错误
 Linux 修改时区不用重启
 XML Publisher 并发程序由于输出提交处理程序提交失败

原文地址：https://www.cnblogs.com/lovegmail/p/4818883.html