昨天下午集群在跑shell脚本的时候出现了,oozie出现了JA017: Could not lookup launched hadoop Job ID [job_1537350421540_0007] which was associated with action [0000003-180919174749982-oozie-oozi-W@shell-9865]. Failing this action!
一看失败了不知道什么情况,早上跑过的脚本怎么就失败了那。什么情况。
然后查看集群的整个状态,发现了集群当中CM安装的cdh的Hadoop集群中的server和agent之间的通讯有问题。然后停止了各个服务然后重启了一下agent。发现集群不在报红了。然而我在去执行同样的脚本的时候还是出现下面这个问题JA017: Could not lookup launched hadoop Job ID [job_1537350421540_0007] which was associated with action [0000003-180919174749982-oozie-oozi-W@shell-9865]. Failing this action!
这下不知道怎么办了,但是提交的任务跑完了啊。就是oozie的laucher挂掉了。这个时候我去hue的界面去点发现不管是yarn的界面还是oozie的界面都是点不进去的都是爆404的错误。好像是集群各个组件的通信出现了问题导致的这个我问题。
今天上班跑了一下之前的程序发现好了,这个任务也执行成功了。
这里其实oozie报的错只是warning不是error的错误,截图如下:
至此问题得到解决了。
注意在重启了agent之后等一会等集群的整个环境稳定了之后再去执行相应任务。