spark推测执行的坑 - 走看看

zoukankan html css js c++ java

spark推测执行的坑

1、spark推测执行开启

设置 spark.speculation=true即可

2、spark开启推测执行的好处

推测执行是指对于一个Stage里面运行慢的Task，会在其他节点的Executor上再次启动这个task，如果其中一个Task实例运行成功则将这个最先完成的Task的计算结果作为最终结果，同时会干掉其他Executor上运行的实例，从而加快运行速度

3、问题

我们的spark任务会将计算结果写入kafka，再有logstash写入es。

最近由于kafka集群写入慢，甚至写不进去，spark任务直接卡住，为防止卡住的情况发生，加了推测执行，但发现跑出来的数据存在重复的情况。同一条数据写了2次，排查发现是由于推测执行的问题，像这种讲执行结果写入kafka的场景，不适用推测执行，因为一个task虽然没有执行完，但是一部分结果已经输出了，启动多个task就会造成数据重复，所以具体的配置还是要看应用的场景来做权衡

查看全文

相关阅读:
当Table中td内容为空时，让它显示边框的办法
 超链接可以是JS代码
 学习Filter
关于SQL语句的拼接问题
 复习JSP时遇到的几个问题
 凡是项目中的增删改都要加事务
 Xshell和SecureCRT连不上VMware虚拟机linux系统
 IBM AIX定义数组变量
 Python模块之re 正则表达式
 Python模块之itertools 用于创建和使用迭代器的函数工具

原文地址：https://www.cnblogs.com/felixzh/p/9233870.html

Copyright © 2011-2022 走看看