近期遇到的问题以及解决方案
1.用户ch190673的作业(181489 .admin3)运行时间快截止了(700h),但是作业没有执行完,需要将walltime延长(800h)
方案: qalter -l walltime =800:00:00 181489 .admin3
2.修改用户密码
passwd username
3.用户在二期登陆失败问题解决方案
(1)在longin7上使用命令 vi/etc/passwd 文件,添加用户对应的信息
(2)passwd username,输入密码
(3)在admin3上使用命令, vi/etc/passwd,添加用户对应信息
(4)passwd username,输入密码
(5)make -C /var/yp 就成功了
4.当用户作业无法提交时怎么办?
(1)首先使用showq命令查看当前集群中的节点利用率以及核数利用率
(2)在使用qstat -a 查看所有作业
(3)在利用率较低的情况下[一期70%以下,二期80%以下] 使用 diagnose -u 查看当前的限制策略
(4)如果有限制策略,那么应该将策略禁用 使用命令 cd /opt/gridview/dispatcher-sched/ 然后 vim maui.cfg
(5)进入这个文件之后 将所有用户的内个限制注释掉
(6)重新启动 systemctl restart maui.d.service
(7)再次使用 diagnose -u 指令 查看刚才更改的是否生效
5。当集群的利用率过高的时候,需要开启限制策略/或者某一个用户提交作业太多的时候
(1)使用命令 cd /opt/gridview/dispatcher-sched/ 然后 vim maui.cfg
(2)进入这个文件之后 将所有用户的限制策略开启 会有作业数+节点数的策略 或者作业数+核心数的策略 自行选择即可
(3)重新启动 systemctl restart maui.d.service
(4)再次使用 diagnose -u 指令 查看刚才更改的是否生效
6.用户增加磁盘配额
进入到Parastor-点击管理-配额管理-找到要修改的用户即可
7.为什么有的节点任务书为0 却处于busy状态
(1)首先进入该节点 ssh 节点数
(2)top命令查看当前节点的县城状态
(3)如果存在zombie[僵尸]线程,就应该将这些线程杀死
(4)然后在重新启动节点
(5)在进行挂载