zoukankan      html  css  js  c++  java
  • 【knowledgebase】如何知道partition数

    对于调优和排错来说,查看一个RDD有多少个partition是非常有用的。常用的查看方法有如下几种:

    1、通过SparkUI查看Task执行的partition数

    当一个stage执行时,能通过SparkUI界面查看到指定stage的partiton数目

    val someRDD = sc.parallelize(1 to 100, 4)
    someRDD.map(x => x).collect

    2、通过SparkUI查看cache过的partition数

    当persist或者cache一个RDD后,知道有多少个partition被缓存了是很有用的。

    someRDD.setName("toy").cache
    someRDD.map(x => x).collect

    3、通过代码角度透视RDD的parition数

    在Scala API中,RDD持有一个partition数组的引用,通过该引用我们可以得知partition数

    scala> val someRDD = sc.parallelize(1 to 100, 30)
    someRDD: org.apache.spark.rdd.RDD[Int] = ParallelCollectionRDD[30] at parallelize at <console>:12
    
    scala> someRDD.partitions.size
    res15: Int = 30
  • 相关阅读:
    解题报告:luogu P1156
    解题报告:AT3605
    矩阵乘法与斐波那契数列
    九、模块
    八、异常
    七、文件处理
    六、对象和内存分析
    五、函数和内存分析
    四、控制语句
    三、序列
  • 原文地址:https://www.cnblogs.com/luogankun/p/4277962.html
Copyright © 2011-2022 走看看