zoukankan      html  css  js  c++  java
  • Spark RDD-行动算子

    2.4 Action

    行动算子:触发运算,在 Executor 执行,如果想直接在 Driver 端看到结果可以使用 collect 和 foreach 都可以将数据拉取到 Driver 端。

    2.4.1 reduce(func) 案例

    1. 作用:通过 func 函数聚集 RDD 中的所有元素,先聚合分区内数据,再聚合分区间数据。
     
    2. 需求:创建一个 RDD,将所有元素聚合得到结果
     
    (1)创建一个 RDD[Int]
    scala> val rdd1 = sc.makeRDD(1 to 10,2)
    rdd1: org.apache.spark.rdd.RDD[Int] = ParallelCollectionRDD[85] at makeRDD at <console>:24
    (2)聚合 RDD[Int]所有元素
    scala> rdd1.reduce(_+_)
    res50: Int = 55
    (3)创建一个 RDD[String]
    scala> val rdd2 = sc.makeRDD(Array(("a",1),("a",3),("c",3),("d",5)))
    rdd2: org.apache.spark.rdd.RDD[(String, Int)] = ParallelCollectionRDD[86] at makeRDD at <console>:24
    (4)聚合 RDD[String]所有数据
    scala> rdd2.reduce((x,y)=>(x._1 + y._1,x._2 + y._2))
    res51: (String, Int) = (adca,12)

    测试:

    scala> val rdd = sc.parallelize(1 to 5)
    rdd: org.apache.spark.rdd.RDD[Int] = ParallelCollectionRDD[28] at parallelize at <console>:24
    
    scala> rdd.reduce(_+_)
    res17: Int = 15

    2.4.2 collect() 案例

    从 Executor 端拉取数据到 Driver 端操作:一般用在测试环境中。

    1. 作用:在驱动程序中,以数组的形式返回数据集的所有元素。
     
    2. 需求:创建一个 RDD,并将 RDD 内容收集到 Driver 端打印
     
    (1)创建一个 RDD
    scala> val rdd = sc.parallelize(1 to 10)
    rdd: org.apache.spark.rdd.RDD[Int] = ParallelCollectionRDD[0] at parallelize at <console>:24
    (2)将结果收集到 Driver 端
    scala> rdd.collect
    res0: Array[Int] = Array(1, 2, 3, 4, 5, 6, 7, 8, 9, 10)

    2.4.3 count() 案例

    1. 作用:返回 RDD 中元素的个数
     
    2. 需求:创建一个 RDD,统计该 RDD 的条数
     
    (1)创建一个 RDD
    scala> val rdd = sc.parallelize(1 to 10)
    rdd: org.apache.spark.rdd.RDD[Int] = ParallelCollectionRDD[0] at parallelize at <console>:24
    (2)统计该 RDD 的条数
    scala> rdd.count
    res1: Long = 10

    2.4.4 first() 案例

    1. 作用:返回 RDD 中的第一个元素
     
    2. 需求:创建一个 RDD,返回该 RDD 中的第一个元素
     
    (1)创建一个 RDD
    scala> val rdd = sc.parallelize(1 to 10)
    rdd: org.apache.spark.rdd.RDD[Int] = ParallelCollectionRDD[0] at parallelize at <console>:24
    (2)统计该 RDD 的条数
    scala> rdd.first
    res2: Int = 1

    2.4.5 take(n) 案例

    1. 作用:返回一个由 RDD 的前 n 个元素组成的数组
     
    2. 需求:创建一个 RDD,统计该 RDD 的条数
     
    (1)创建一个 RDD
    scala> val rdd = sc.parallelize(Array(2,5,4,6,8,3))
    rdd: org.apache.spark.rdd.RDD[Int] = ParallelCollectionRDD[2] at parallelize at <console>:24
    (2)统计该 RDD 的条数
    scala> rdd.take(3)
    res10: Array[Int] = Array(2, 5, 4)

     2.4.6 takeSample(WithReplacement,num,[seed])

    返回一个数组,该数组由从数据集中随机采样的 num 个元素组成,可以选择是否随机数

    替换不足的部分,seed 用于指定随机数生成器种子。

    2.4.7 takeOrdered(n) 案例

    1. 作用:返回该 RDD 排序后的前 n 个元素组成的数组
    --相当于先执行 sortBy() 再执行 take()
     
    2. 需求:创建一个 RDD,统计该 RDD 的条数
     
    (1)创建一个 RDD
    scala> val rdd = sc.parallelize(Array(2,5,4,6,8,3))
    rdd: org.apache.spark.rdd.RDD[Int] = ParallelCollectionRDD[2] at parallelize at <console>:24
    (2)统计该 RDD 的条数
    scala> rdd.takeOrdered(3)
    res18: Array[Int] = Array(2, 3, 4)

    2.4.8 aggregate 案例

    1. 参数:(zeroValue: U)(seqOp: (U, T) ⇒ U, combOp: (U, U) ⇒ U)
     
    2. 作用:aggregate 函数将每个分区里面的元素通过 seqOp 和初始值进行聚合,然后用
    combine 函数将每个分区的结果和初始值(zeroValue)进行 combine 操作。这个函数最终返回
    的类型不需要和 RDD 中元素类型一致。
     
    3. 需求:创建一个 RDD,将所有元素相加得到结果
     
    (1)创建一个 RDD
    scala> var rdd1 = sc.makeRDD(1 to 10,2)
    rdd1: org.apache.spark.rdd.RDD[Int] = ParallelCollectionRDD[88] at makeRDD at <console>:24
    (2)将该 RDD 所有元素相加得到结果
    scala> rdd.aggregate(0)(_+_,_+_)
    res22: Int = 55

    2.4.9 fold(num)(func) 案例

    1. 作用:折叠操作,aggregate 的简化操作,seqop 和 combop 一样。
     
    2. 需求:创建一个 RDD,将所有元素相加得到结果
     
    (1)创建一个 RDD
    scala> var rdd1 = sc.makeRDD(1 to 10,2)
    rdd1: org.apache.spark.rdd.RDD[Int] = ParallelCollectionRDD[88] at makeRDD at <console>:24
    (2)将该 RDD 所有元素相加得到结果
    scala> rdd.fold(0)(_+_)
    res24: Int = 55

    2.4.10 saveAsTextFile(path)

    作用:将数据集的元素以 textfile 的形式保存到 HDFS 文件系统或者其他支持的文件系统,
    对于每个元素,Spark 将会调用 toString 方法,将它装换为文件中的文本
    开发中常用的读入(textFile)和 写出(saveAsTextFile)
     
     

    2.4.11 saveAsSequenceFile(path)

    作用:将数据集中的元素以 Hadoop sequencefile 的格式保存到指定的目录下,可以使
    HDFS 或者其他 Hadoop 支持的文件系统。
     
     

    2.4.12 saveAsObjectFile(path)

    作用:用于将 RDD 中的元素序列化成对象,存储到文件中。
     
     

    2.4.13 countByKey() 案例

    1. 作用:针对(K,V)类型的 RDD,返回一个(K,Int)的 map,表示每一个 key 对应的元素个数。
     
    2. 需求:创建一个 PairRDD,统计每种 key 的个数
     
    (1)创建一个 PairRDD
    scala> val rdd = sc.parallelize(List((1,3),(1,2),(1,4),(2,3),(3,6),(3,8)),3)
    rdd: org.apache.spark.rdd.RDD[(Int, Int)] = ParallelCollectionRDD[95] at parallelize at <console>:24
    (2)统计每种 key 的个数
    scala> rdd.countByKey
    res63: scala.collection.Map[Int,Long] = Map(3 -> 2, 1 -> 3, 2 -> 1)

    测试:

    scala> sc.parallelize(Array(1,2,1,2,3,3,3)).map((_,1)).countByKey()
    res19: scala.collection.Map[Int,Long] = Map(1 -> 2, 2 -> 2, 3 -> 3

    在开发中可以搭配 Sample 查看数据是否倾斜

    2.4.14 foreach(func) 案例

    1. 作用:在数据集的每一个元素上,运行函数 func 进行更新。
      源码:
      def foreach(f: T => Unit): Unit = withScope {
        val cleanF = sc.clean(f)
        sc.runJob(this, (iter: Iterator[T]) => iter.foreach(cleanF))
      }
     
    2. 需求:创建一个 RDD,对每个元素进行打印
     
    (1)创建一个 RDD
    scala> var rdd = sc.makeRDD(1 to 5,2)
    rdd: org.apache.spark.rdd.RDD[Int] = ParallelCollectionRDD[107] at makeRDD at <console>:24
    (2)对该 RDD 每个元素进行打印
    scala> rdd.foreach(println(_))
    3
    4
    5
    1
    2

     测试:

    scala> rdd.foreach(println)
    2
    1
    4
    5
    3
  • 相关阅读:
    git版本控制工具的使用(1)。
    python ui学习过程,使用pyqt5实现
    python下使用opencv拍照
    python的数字图像处理学习(3)
    python的数字图像处理学习(2)
    python的数字图像处理学习(1)
    tensorflow下识别手写数字基于MLP网络
    使用tensorflow下的GPU加速神经网络训练过程
    LSTM长短期记忆神经网络模型简介
    RNN模型(递归神经网络)简介
  • 原文地址:https://www.cnblogs.com/LXL616/p/11144946.html
Copyright © 2011-2022 走看看