zoukankan      html  css  js  c++  java
  • Scala中Iterator允许执行一次

    背景

      使用spark执行mapPartitionsWithIndex((index,iterator)=>{....}),在执行体中将iterator进行一次迭代后,再次根据iterator执行迭代,iterator迭代体未执行。

    猜想及验证过程

      猜测iterator只能执行一次迭代。

      测试例子如下:

    val rdd1 = sc.makeRDD(1 to 10,2)
    val rdd2 = rdd1.mapPartitionsWithIndex{(index,iterator)=>{
    	var result = List[String]()
    	var sum = 0
    	var count = 0
    	while(iterator.hasNext){
    		sum += iterator.next()
    	}
    	while(iterator.hasNext){
    		count += 1
    	}
    	result.::(index + "|" + sum + "|" + count).iterator
    }}

    执行结果
    res0: Array[String] = Array(0|15|0, 1|40|0)

       通过执行结果可以看出sum执行了求和运算,count没有执行统计数量运算或未正确执行统计数量运算,推测可能的原因:1. iterator能够重复执行迭代,但是count的算术运算出现问题;2.iterator只能执行一次迭代;

      对原因1的验证例子:

    val rdd1 = sc.makeRDD(1 to 10,2)
    val rdd2 = rdd1.mapPartitionsWithIndex{(index,iterator)=>{
    	var result = List[String]()
    	var sum = 0
    	var count = 0
    	while(iterator.hasNext){
    		sum += iterator.next()
                    count += 1
    	}
    	result.::(index + "|" + sum + "|" + count).iterator
    }}

    执行结果
    res0: Array[String] = Array(0|15|5, 1|40|5)

      如果iterator能够重复执行迭代,但是count的统计数量计算出现问题,那么将sum和count放在同一个迭代体中,执行结果会和在两个迭代体中执行结果一致。但是执行结果却是能够正常的统计出数量,证明了推测原因1不成立。

      对原因2的验证例子:

      为了单纯的验证是iterator执行问题,下边的例子去掉了spark相关的函数

    val iterator = Iterator(1,2,3,4,5,6,7)
    var sum = 0
    while(iterator.hasNext){
    	sum += iterator.next
    }
    println("sum is " + sum)
    val expression = if(iterator.isEmpty) "iterator is empty" else "iterator is not empty"
    println(expression)

      如果iterator只能执行一次迭代的话,expression的结果是【iterator is empty】,真实执行结果如下

    sum is 28
    iterator is empty
    iterator: Iterator[Int] = empty iterator
    sum: Int = 28
    expression: String = iterator is empty
    

      通过执行结果可以看出,expression的结果确实是【iterator is empty】,所以推测原因2成立。

    结论

      scala中iterator只能执行一次迭代,如果需要多次执行同一个迭代体,建议调用iterator.toList等方法,将迭代体转化为集合,再执行上述的验证例子就会正常。

    扩展

      1.iterator.min和iterator.max同样是通过迭代获得,所以对于同一个iterator的min和max只能获取一个。

      2.java中Iterator类同scala的Iterator,只允许进行一次迭代,如果需要进行多次迭代,需要将iterator转化为集合类

      3.C#中没有Iterator类,但是有IEnumerator,这个类可以通过IEnumerator.Reset方法来重置,迭代完进行重置就可以再次迭代,而对于java和scala的Iterator没有相似的方法;

    补充

      spark的mapPartitionsWithIndex中iterator尽量不要使用toList,原因:toList相当于将迭代数据进行了缓存,容易导致OutOfMemory的异常,iterator是流式的处理,处理完一条记录才会去读取下一条记录并且会丢弃已读的记录,无法重复使用;而iterator.toList会将所有的记录进行缓存,便于重复使用。

  • 相关阅读:
    登录界面
    冲刺一阶段(5月9日)-个人总结07
    冲刺一阶段(5月8日)-个人总结06
    冲刺一阶段(5月7日)-个人总结05
    冲刺一阶段(5月6日)-个人总结04
    冲刺一阶段(5月5日)-个人总结03
    冲刺一阶段(5月4日)-个人总结02
    第一阶段冲刺--个人总结01(忘记发了)
    软件需求分析(补发)
    第八周工作进程表
  • 原文地址:https://www.cnblogs.com/lovegmail/p/4818883.html
Copyright © 2011-2022 走看看