Spark共享变量和自定义分区 - 走看看

zoukankan html css js c++ java

Spark共享变量和自定义分区

1.共享变量分两种：广播变量和累加器，实现任务间变量共享访问；
2.广播变量：
　　将变量以缓存并只读的方式分发至每个机器节点上。类似于hadoop中的分布式缓存。
　　特点：a.只读；b.在每个节点中缓存；
　　创建方式：调用sc.broadcast()创建广播变量；获取广播变量：bc.value
3.累加器：类似以hadoop中的计数器，进行“加”处理，用于统计处理。
　　创建方式：旧版本-->调用val acc = sc.accumulator(0)创建累加器；
　　　　　　　新版本-->调用val acc = sc.longAccumulator创建累加器，使用acc.add(Long l)

1.自定义分区实现方式：重写继承partitioner类
　　numPartitions: Int：返回创建出来的分区数。
　　getPartition(key: Any): Int：返回给定键的分区编号（0 到numPartitions-1）。
　　equals()：Java 判断相等性的标准方法。这个方法的实现非常重要，Spark 需要用这个
　　方法来检查你的分区器对象是否和其他分区器实例相同，这样Spark 才可以判断两个
RDD 的分区方式是否相同。

查看全文

相关阅读:
本周四，CODING DevOps 深度解析系列最后一课等你来
 CODING DevOps 深度解析系列第二课报名倒计时！
9 月 22 日，CODING DevOps 深度解析系列第一课线上开讲！
9 月直播课预告 | CODING DevOps 深度解析系列上线啦
 LNMP Wordpress phpMyAdmin的部署记录
 在centos上部署docker与wordpress
flask项目集成swagger
windows局域网搭建本地git代码版本管理仓库
 docker部署的经验
 现有 Vue.js 项目快速实现多语言切换的一种思路

原文地址：https://www.cnblogs.com/lyr999736/p/9591576.html

Copyright © 2011-2022 走看看