zoukankan      html  css  js  c++  java
  • 理解Spark里的闭包

    版权声明:本文为博主原创文章,未经博主同意不得转载。 https://blog.csdn.net/rlnLo2pNEfx9c/article/details/80650309

    闭包的概念例如以下图:

    640?</p><p>wx_fmt=png

    在spark应用里,变量及函数的作用范围和声明周期在spark的集群运行模式下是比較难理解的。尤其是对刚開始学习的人来说。

    RDD的操作。要改动其作用范围的变量。常常会出点叉子。以下。能够举个用foreach,改动一个计数器的样例。

    样例

    求和RDD元素的样例,该样例会依据该段代码是否运行在同一个jvm里面有不同的输出结果,比方local模式,运行于同一个jvm。输出是15。cluster模式运行于不同jvm输出是0。

    val data = Array(1, 2, 3, 4, 5)

    var counter =0

    var rdd = sc.parallelize(data)

     

    // Wrong: Don't do this!!

    rdd.foreach(x => counter += x)

     

    println("Counter value: "+ counter)

    本地或集群模式

    上述代码的行为是未定义的,而且不同模式下运行情况不同。为了运行作业。Spark将RDD操作的处理分解为tasks,每一个task由Executor运行。在运行之前,Spark会计算task的闭包。闭包是Executor在RDD上进行计算的时候必须可见的那些变量和方法(在这样的情况下是foreach())。

    闭包会被序列化并发送给每一个Executor。

    发送给每一个Executor的闭包中的变量是副本,因此。当foreach函数内引用计数器时。它不再是driver节点上的计数器。driver节点的内存中仍有一个计数器,但该变量是Executor不可见的。运行者仅仅能看到序列化闭包的副本。因此。计数器的终于值仍然为零,由于计数器上的全部操作都引用了序列化闭包内的值。

    在本地模式下,在某些情况下,该foreach函数实际上将在与driver同样的JVM内运行,而且会引用同样的原始计数器,并可能实际更新它。

    为了确保在这些场景中明白定义的行为,应该使用一个Accumulator。

    Spark中的累加器专门用于提供一种机制。用于在集群中的工作节点之间运行拆分时安全地更新变量。

    一般来说。closures - constructs像循环或本地定义的方法,不应该被用来改变一些全局状态。Spark并未定义或保证从闭包外引用的对象的改变行为。这样做的一些代码能够在本地模式下工作。但这仅仅是偶然,而且这样的代码在分布式模式下的行为不会像你想的那样。假设须要某些全局聚合,请改用累加器。

    打印RDD的元素

    还有一个常见的习惯使用方法是尝试使用rdd.foreach(println)或rdd.map(println)打印出RDD的元素。在单台机器上,这将产生预期的输出并打印全部RDD的元素。可是,在cluster模式下,由Executor运行输出写入的是Executor的stdout,而不是driver上的那个stdout,所以driver的stdout不会显示这些!要在driver中打印全部元素,能够使用该collect()方法首先将RDD数据带到driver节点:rdd.collect().foreach(println)。但这可能会导致driver程序内存不足,由于collect()会将整个RDD数据提取到driver端; 假设您仅仅须要打印RDD的一些元素,则更安全的方法是使用take():rdd.take(100).foreach(println)。

  • 相关阅读:
    【BZOJ 1455】罗马游戏
    【UR #2】树上GCD
    1067: [SCOI2007]降雨量
    1068: [SCOI2007]压缩
    1066: [SCOI2007]蜥蜴
    1065: [NOI2008]奥运物流
    1064: [Noi2008]假面舞会
    1063: [Noi2008]道路设计
    2329: [HNOI2011]括号修复
    2734: [HNOI2012]集合选数
  • 原文地址:https://www.cnblogs.com/ldxsuanfa/p/9905626.html
Copyright © 2011-2022 走看看