zoukankan      html  css  js  c++  java
  • Open MPI集群运行

    部署完之后,代码也能正确跑起来了,也确实集群分散了。跑一下各种各样的代码,发现了一个错误:

    $ ~/OpenMpi/bin/mpiexec  -np 10  ~/NetWorkTest
    My rank is 2
    My rank is 7
    My rank is 0
    My rank is 3
    My rank is 6
    My rank is 8
    My rank is 4
    My rank is 1
    My rank is 5
    -------------------------------------------------------
    Primary job  terminated normally, but 1 process returned
    a non-zero exit code. Per user-direction, the job has been aborted.
    -------------------------------------------------------
    --------------------------------------------------------------------------
    mpiexec detected that one or more processes exited with non-zero status, thus causing
    the job to be terminated. The first process to do so was:
    
      Process name: [[18656,1],2]
      Exit code:    14
    --------------------------------------------------------------------------

    这份代码是什么问题导致的呢?然后我不小心把  MPF_Finalize() 函数注释掉了,那么就是说明有一个进程先错误返回了。Master 进程捕获到了。

    这里反映了一个事实: 集群中如果有一个进程挂掉了,那么整个进程集都会挂掉

    加回去 MPF_Finalize() 函数,这个错误就没了

  • 相关阅读:
    SpringBoot------异步任务的使用
    SpringBoot------定时任务
    MySQL中文编码设置为utf-8
    MySQL 中文未正常显示
    使用postman测试接口时需要先登录怎么办
    python 查询数据库返回的数据类型
    数据库和数据仓库的关系
    distinct 用法
    Hbase学习
    顺序访问数据和随机访问数据
  • 原文地址:https://www.cnblogs.com/HelloGreen/p/8782790.html
Copyright © 2011-2022 走看看