zoukankan html css js c++ java

Spark之Pipeline处理模式

一.简介

　　Pipeline管道计算模式：只是一种计算思想，在数据处理的整个流程中，就想水从管道流过一下，是顺序执行的。

二.特点

　　1.数据一直在管道中，只有在对RDD进行持久化【cache,persist...】或shuffle write时才会落地。

　　2.管道中的处理也是懒加载的，只有遇到action算子之后才会执行。

三.代码验证

package big.data.analyse.scala.pipeline

import org.apache.log4j.{Level, Logger}
import org.apache.spark.sql.SparkSession

/**
  * Created by zhen on 2019/4/4.
  */
object RDDPipelineAnalyse {

  Logger.getLogger("org").setLevel(Level.INFO) // 设置日志级别

  def main(args: Array[String]) {
    val spark = SparkSession.builder().appName("检测spark数据处理pipeline")
      .master("local[2]").getOrCreate()

    val sc = spark.sparkContext
    val rdd = sc.parallelize(Array(1,2,3,4,5,6))

    println("rdd partition size : " + rdd.partitions.length)
    val rdd1 = rdd.map{ x => {
      println("map--------"+x)
      x * 10
    }}
    val rdd2 = rdd1.filter{ x => {
      println("fliter========"+x)
      true
    } }

    rdd2.collect()
    sc.stop()
  }
}

四.执行结果

五.分析

　　管道处理是先进先出的，也就是先进先执行，这只对具体到每条数据而言，不同条数据的执行先后没有固定的顺序。

因此不能根据原始数据的顺序确定处理的顺序。

查看全文

相关阅读:
HDU——1061Rightmost Digit（高次方，找规律）
HDU——1019Least Common Multiple（多个数的最小公倍数）
HDU——1013Digital Roots（九余数定理）
HDU——1020Encoding（水题，string过）
HDU——2093考试排名（string类及其函数的运用以及istringstream）
廖雪峰Java3异常处理-2断言和日志-4使用Log4j
廖雪峰Java3异常处理-2断言和日志-3使用Commons Logging
廖雪峰Java3异常处理-2断言和日志-2使用JDK Logging
廖雪峰Java3异常处理-2断言和日志-1使用断言
 Charles问题

原文地址：https://www.cnblogs.com/yszd/p/10653994.html