zoukankan      html  css  js  c++  java
  • Spark源码走读7——Broadcast

    Broadcast变量是Spark所支持的两种共享变量。主要共享分布式计算过程中各个task都会用到的只读变量。

    广播变量允许程序员在每台机器上保持一个只读变量的缓存,而不是发送它的一个副本任务。他们可以用于:给一个大量输入数据集的副本以有效的拷贝到每个节点。Spark也尝试使用高效广播算法来降低通信成本。

    以下是源码结构:


    Spark目前提供了两种广播形式:

    l  HttpBroadcast:实现HTTP Server作为广播机制。第一次HTTP广播变量(发送一部分任务)反序列化执行。从driver(在driver上执行的HTTP Server)抓取广播数据,然后存储到Block中,以便下次更快速度访问

    l  TorrentBroadcast:一个BT实现。driver将序列化对象划分一个个小块,教给BlockManager处理存储。每一个执行器executor将首先尝试从BlockManager获取的对象。如果没有找到,它然后使用远程从driver或者其他执行器抓取数据块。一旦它得到的这个数据块,它会把块在自己的BlockManager,准备其他执行人从获取。

    HttpBroadcast

    实现HTTP Server作为广播机制。第一次HTTP广播变量(发送一部分任务)反序列化执行。从driver(在driver上执行的HTTP Server)抓取广播数据,然后存储到Block中,以便下次更快速度访问。

    Initialize方法:

    源码如下:


    1、在driver端创建createServer。


    1、创建定时器

    MetadataCleaner封装了一个定时器TimerTask,用于定时清理元数据。

    TorrentBroadcast

    一种BT实现。driver将序列化对象划分一个个小块,教给BlockManager处理存储。每一个执行器executor将首先尝试从BlockManager获取的对象。如果没有找到,它然后使用远程从driver或者其他执行器抓取数据块。一旦它得到的这个数据块,它会把块在自己的BlockManager,准备其他执行人从获取。

    Initialize:


    Torrent在此处没做什么,这也可以看出和Http的区别,Torrent的处理方式就是p2p,去中心化。而Http是中心化服务,需要启动服务来接受请求。



  • 相关阅读:
    路径
    JSTL-3
    JSTL-2
    JSTL-1
    EL和JSTL的关系
    Mybatis控制台打印SQL语句的两种方式
    centOS7安装JDK
    centOS7下安装GUI图形界面
    centOS7配置IP地址
    Office2016专业增强版永久激活
  • 原文地址:https://www.cnblogs.com/huwf/p/4273373.html
Copyright © 2011-2022 走看看