Broadcast变量是Spark所支持的两种共享变量。主要共享分布式计算过程中各个task都会用到的只读变量。
广播变量允许程序员在每台机器上保持一个只读变量的缓存,而不是发送它的一个副本任务。他们可以用于:给一个大量输入数据集的副本以有效的拷贝到每个节点。Spark也尝试使用高效广播算法来降低通信成本。
以下是源码结构:
Spark目前提供了两种广播形式:
l HttpBroadcast:实现HTTP Server作为广播机制。第一次HTTP广播变量(发送一部分任务)反序列化执行。从driver(在driver上执行的HTTP Server)抓取广播数据,然后存储到Block中,以便下次更快速度访问
l TorrentBroadcast:一个BT实现。driver将序列化对象划分一个个小块,教给BlockManager处理存储。每一个执行器executor将首先尝试从BlockManager获取的对象。如果没有找到,它然后使用远程从driver或者其他执行器抓取数据块。一旦它得到的这个数据块,它会把块在自己的BlockManager,准备其他执行人从获取。
HttpBroadcast
实现HTTP Server作为广播机制。第一次HTTP广播变量(发送一部分任务)反序列化执行。从driver(在driver上执行的HTTP Server)抓取广播数据,然后存储到Block中,以便下次更快速度访问。
Initialize方法:
源码如下:
1、在driver端创建createServer。
1、创建定时器
MetadataCleaner封装了一个定时器TimerTask,用于定时清理元数据。
TorrentBroadcast
一种BT实现。driver将序列化对象划分一个个小块,教给BlockManager处理存储。每一个执行器executor将首先尝试从BlockManager获取的对象。如果没有找到,它然后使用远程从driver或者其他执行器抓取数据块。一旦它得到的这个数据块,它会把块在自己的BlockManager,准备其他执行人从获取。
Initialize:
Torrent在此处没做什么,这也可以看出和Http的区别,Torrent的处理方式就是p2p,去中心化。而Http是中心化服务,需要启动服务来接受请求。