zoukankan      html  css  js  c++  java
  • 025 Spark中的广播变量原理以及测试(共享变量是spark中第二个抽象)

    一:来源

    1.说明

      为啥要有这个广播变量呢。

      一些常亮在Driver中定义,然后Task在Executor上执行。

      如果,有多个任务在执行,每个任务需要,就会造成浪费。

        

    二:共享变量的官网

    1.官网

      有两种方式。

      

     三:程序实现

    1.Accumulators

      类似于mapreduce中的用于累加数据的共享变量

      这是一个官方的案例。

       

    2.官网上的程序

      

    3.广播变量程序实现

      作用:

        可以减少网络传输量

        可以解决大表join小表的问题(将小表的数据广播出去)

      注意:

        不能广播RDD,可以广播RDD中的数据。

      

  • 相关阅读:
    C语言I博客作业08
    作业7
    作业6
    作业5
    作业--4
    java基础学习--I/O流
    刷题记录--[CISCN2019 华北赛区 Day2 Web1]Hack World
    ADB测试Android真机
    sqli-labs通关笔记
    Tensorflow入门
  • 原文地址:https://www.cnblogs.com/juncaoit/p/6429052.html
Copyright © 2011-2022 走看看