第五章中,有一个例子模拟客户端并发的终止TCP连接,服务器捕捉并处理SIGCHLD信号并调用waitpid函数防止僵死进程的出现。信号处理函数中核心的一句是:
1 while ( (pid = waitpid(-1, &statloc, WNOHANG)) > 0 ) 2 { 3 printf("wait child pid:%ld ",(long)pid); 4 }
这是在使用wait函数时不能解决N个子进程同时终止时导致只有1个子进程被wait而其他N-1个子进程变成僵死进程的问题而采用的改进方法,使用wait的信号处理函数
1 pid = wait(&statloc);
什么是僵死进程?
僵死进程就是,进程本身退出了,而它的父进程未退出,并且父进程没有对它进行wait类处理,导致进程占有的资源,例如进程pid,记录进程信息的结构没有被释放,进程进入僵死态,这样的进程就叫僵死进程。
僵死进程的危害
一旦僵死进程累积,比如有一个长期运行的程序不断的产生僵死进程,那么最终会耗尽系统可用的pid和内存,这样就无法创建新的进程了。就算未耗尽这些,过多的僵死进程对内存的消耗也会影响机器的性能。
如何防止僵死进程的出现?
父进程在调用wait类函数时,就可以释放子进程的资源,子进程就不会变成僵死进程。通常都是通过捕捉SIGCHLD信号,在信号处理函数里面调用wait类函数。
先man下wait和waitpid
#include <sys/types.h> #include <sys/wait.h> pid_t wait(int *status); pid_t waitpid(pid_t pid, int *status, int options);
wait:
函数阻塞,直到任意一个子进程终止,或者被一个信号中断。终止的这个子进程的退出状态返回存储在参数 status的低位字节,返回值为结束的子进程pid。
waitpid:
根据pid和options做出不同的响应。
pid > 0,wait进程id为pid的子进程
pid = 0,wait进程组id为调用进程ID的任意一个子进程
pid = -1,wait任意一个子进程
pid < -1, wait 进程组id为|pid|的任意一个子进程
而options又提供不同的选项,它可以为0或者一个或多个选项的or组合
WNOHANG
当未发现有任何子进程退出时立即返回。
WUNTRACED
WCONTINUED
由于linux信号机制是不进行排队的,所以对于同时发出的多个信号,信号处理程序最多捕捉2次,而wait函数每次最多处理一个子进程,所以,当同时结束的子进程超过2个后,必然会出现僵死进程。那么为什么 1 while ( (pid = waitpid(-1, &statloc, WNOHANG)) > 0 ) 可以解决这个问题呢?
假设有5个子进程,p1,p2....p5,首先p1,p2结束,捕获到信号,上面的while+waitpid语句将一次性把所有已结束的子进程处理完毕,此时仍有3个子进程未结束,那么waitpid返回0,退出循环,如果在处理函数调用期间,又有一个p3结束,等到处理函数返回时,马上又捕捉到了信号,再次进入处理函数对p3进行处理,这样一来不管子进程是在处理函数处理期间结束还是之前之后结束,信号都能被捕捉,不管结束的是1个子进程还是多个子进程,每个都能被waitpid处理,这样就不再会有僵死进程出现了。
为什么是用 while ( (pid = waitpid(-1, &statloc, WNOHANG)) > 0 ) ,而不是 '>= 0'??等于0是指仍然存在运行的子进程,但是子进程未结束,如果使用>=0,那么只要有一个子进程未结束,处理函数将在while中循环,这样父进程将不能被执行,所以不采用 >=。
一直对于采用while+waitpid为什么能防止僵死进程出现存在不解,其根本原因在于我认为一旦信号丢失,那么与之对于的那个子进程也将不会被waitpid处理。其实信号在这里只是起一个通知作用,比如,我可以在父进程里面采用轮询waitpid,不用信号处理函数也能wait所有结束的子进程。我一个小时前结束了一个子进程,一个小时后才用waitpid来处理,照样可以让这个处于僵死态的子进程得到正确的处理。
关于以上问题的讨论http://bbs.chinaunix.net/thread-828942-1-1.html这个帖子做了比较好的解释。