基本情况
系统:
ubuntu16.04
症状:
who命令可以用,w命令用不了
sudo iotop命令会卡住,黑屏
nvidia-smi命令和nvl命令都用不了,卡住
排查步骤
strace ps xauf
可以看到,是编号为42943的进程出问题了,卡在I/O上了。
第一想法尝试kill它,发现top或ps -ef找不到此进程。
查看进程状态的另一方式是直接cat文件:
sudo cat /proc/42943/stat
D状态表示“uninterruptible sleep”。这种进程没法被kill -9杀掉的。解决办法只能是重启系统,如果重启后还有这个问题就是磁盘问题了。当然,还要一种可能,NFS的问题。但是我们这里应该是没有用NFS,所以没考虑NFS。
看看这个进程大概是做什么,读写哪个文件:
sudo ls /proc/42943/fd -l
参考
https://unix.stackexchange.com/questions/10980/suggestions-needed-to-debug-why-ps-ef-gets-stuck