有时用Spark 运行Job 的时候,输出可能会出现一些空或者小内容。这时重新将输出的Partition 进行重新调整,可以减少RDD中Patition的数目。 两种方式: 1. coalesce(numPartitions:Int, shuffle:Boolean = false) 2. repartition(numPartitions:Int)
coalesce(numPartitions:Int, shuffle:Boolean = false)
repartition(numPartitions:Int)