zoukankan      html  css  js  c++  java
  • join shuffle

    什么是宽窄依赖,及特殊join算子,join时何时产生shuffle,何时不产生shuffle

    1、 什么是宽窄依赖,
    宽依赖: 发生shuffle时,一定会产生宽依赖,宽依赖是一个RDD中的一个Partition被多个子Partition所依赖(一个父亲多有儿子),也就是说每一个父RDD的Partition中的数据,都可能传输一部分到下一个RDD的多个partition中,此时一定会发生shuffle

    窄依赖: 一个RDD中的一个 Partition最多 被一个 子 Partition所依赖(一个父亲有一个儿子)

    2、 Spark中产生宽窄依赖的依据是shuffle,当发生shuffle时,会产生宽依赖,基本上shuffle算子都会产生宽依赖,但是join除外,在执行join算子之前如果先执行groupByKey,执行groupByKey之后,会把相同的key分到同一个分区,再执行join算子,join算子是把key相同的进行join(只是对于k v形式的数据可以使用),不一定会产生shuffle ,有可能发生shuffle,也有可能不发生

    最后返回的结果是(Key,(rdd1的v,rdd2的v)),如下平行化创建,两个RDD,对其进行Join。这中情况下就不一定会产生shuffle,根据具体情况而言

    #第一种情况, 不使用groupByKey直接进行join
     val rdd1 = sc.parallelize(List("aa"->5,"bb"->5,"dd"->6,"aa"->3,"tt"->2))	   
     val rdd2 = sc.parallelize(List("bb"->1,"aa"->3,"dd"->3,"ss"->6))

    对于join,第一种情况,在join之前不是groupByKey,发生shuffle

    val rdd1 = sc.parallelize(List("aa"->5,"bb"->5,"dd"->6,"aa"->3"tt"->2),1)	   
    val rdd2 = sc.parallelize(List("bb"->1,"aa"->3,"dd"->3,"ss"->6),1)
    //设置两个rdd的分区都是1,相同,
    val joind: RDD[(String, (Int, Int))] = rdd1.join(rdd2)
    

    通过UI界面可以观察到,一共有三个stage,在join 时进行了shuffle
    在这里插入图片描述

    #第二种情况,分区相同,join之前进行groupByKey
     val rdd1 = sc.parallelize(List("aa"->5,"bb"->5,"dd"->6,"aa"->3"tt"->2),2)	   
     val rdd2 = sc.parallelize(List("bb"->1,"aa"->3,"dd"->3,"ss"->6),2)
     //设置两个rdd的分区相同,在进行join之前使用groupBykey()
     val gb1 = rdd1.groupByKey()
     val gb2 = rdd2.groupByKey()
     val joind: RDD[(String, (Int, Int))] = gb1.join(gb2)

    通过UI界面观察到,一个共有3个stage,虽然使用了两个shuffle算子,但是和使用一个join的stage相同
    从平行化到groupByKey是一个stage,这样就是两个stage,groupByKey到saveAsTextFile是一个stage
    rdd1经过groupByKey后,假设两个分区分别是P1:(aa,5)(aa,3) ,P2:(bb,5),(dd,6),(tt,2)
    rdd2经过groupByKey后,假设两个分区分别是P1:(aa,3), P2:(bb,1),(dd,3).(ss,6)
    在进行join时按key 进行join,不会发生shuffle
    在这里插入图片描述

    #第三种情况,两个rdd的分区数不同,在join之前进行groupByKey
     val rdd1 = sc.parallelize(List("aa"->5,"bb"->5,"dd"->6,"aa"->3"tt"->2),1)	   
     val rdd2 = sc.parallelize(List("bb"->1,"aa"->3,"dd"->3,"ss"->6),5)
     //设置两个rdd的分区不同相同,在进行join之前使用groupBykey()
     //注:在分区不同时进行join,最后在join时的分区,和rdd分区的数相同
     //这种情况下一共 会 产生1+1+5+5个task
     val gb1 = rdd1.groupByKey()
     val gb2 = rdd2.groupByKey()
     val joind: RDD[(String, (Int, Int))] = gb1.join(gb2)

    有stage的图可以看出来,分区数小的rdd,在join时发生shuffle,
    分区数大的rdd,在join时没有发生shuffle
    在这里插入图片描述

    #第四种情况,两个rdd的分区数不同,在join之前进行groupByKey,在join时从新指定分区
    val rdd1 = sc.parallelize(List("aa"->5,"bb"->5,"dd"->6,"aa"->3"tt"->2),1)	   
     val rdd2 = sc.parallelize(List("bb"->1,"aa"->3,"dd"->3,"ss"->6),5)
     //设置两个rdd的分区不同相同,在进行join之前使用groupBykey()
     //注:在分区不同时进行join,最后在join时的分区,和rdd分区的数相同
    
     val gb1 = rdd1.groupByKey()
     val gb2 = rdd2.groupByKey()
     val joind: RDD[(String, (Int, Int))] = gb1.join(gb2,6)
    // val joind: RDD[(String, (Int, Int))] = gb1.join(gb2,5)
     //val joind: RDD[(String, (Int, Int))] = gb1.join(gb2,6)

    在这里插入图片描述
    在这里插入图片描述
    在这里插入图片描述

  • 相关阅读:
    Windows PowerShell 学习之——Cmdlet处理生命周期
    xgqfrms™, xgqfrms® : xgqfrms's offical website of GitHub!
    xgqfrms™, xgqfrms® : xgqfrms's offical website of GitHub!
    xgqfrms™, xgqfrms® : xgqfrms's offical website of GitHub!
    xgqfrms™, xgqfrms® : xgqfrms's offical website of GitHub!
    xgqfrms™, xgqfrms® : xgqfrms's offical website of GitHub!
    xgqfrms™, xgqfrms® : xgqfrms's offical website of GitHub!
    xgqfrms™, xgqfrms® : xgqfrms's offical website of GitHub!
    xgqfrms™, xgqfrms® : xgqfrms's offical website of GitHub!
    xgqfrms™, xgqfrms® : xgqfrms's offical website of GitHub!
  • 原文地址:https://www.cnblogs.com/jeasonit/p/12019424.html
Copyright © 2011-2022 走看看