zoukankan      html  css  js  c++  java
  • Linux Socket编程中的心跳机制

    在TCP网络通信中,经常会出现客户端和服务器之间的非正常断开,需要实时检测查询链接状态。常用的解决方法就是在程序中加入心跳机制。

    从网络上找到,主要有以下方法实现TCP异常断开的检测:

    SO_KEEPALIVE,SIO_KEEPALIVE_VALS 和Heart-Beat线程。
    (1)SO_KEEPALIVE 机制
            这是socket库提供的功能,设置接口是setsockopt API:
       BOOL bSet=TRUE;
       setsockopt(hSocket,SOL_SOCKET,SO_KEEPALIVE,(const char*)&bSet,sizeof(BOOL));

           根据MSDN的文档,如果为socket设置了KEEPALIVE选项,TCP/IP栈在检测到对方掉线后,
       任何在该socket上进行的调用(发送/接受调用)就会立刻返回,错误号是WSAENETRESET ;
       同时,此后的任何在该socket句柄的调用会立刻失败,并返回WSAENOTCONN错误。

       该机制的缺点:

    一、SO_KEEPALIVE无法控制,它会每时每刻都发;

    二、SO_KEEPALIVE设置空闲2小时才发送一个“保持存活探测分节”,不能保证实时检测。对于判断网络断开时间太长,对于需要及时响应的程序不太适应。
       当然也可以修改时间间隔参数,但是会影响到所有打开此选项的套接口!关联了完成端口的socket可能会忽略掉该套接字选项。
    (2)SIO_KEEPALIVE_VALS 机制 
         设置接口是WSAIoctl API:
         DWORD dwError = 0L ;
         tcp_keepalive sKA_Settings = {0}, sReturned = {0} ;
         sKA_Settings.onoff = 1 ;
         sKA_Settings.keepalivetime = 5500 ; // Keep Alive in 5.5 sec.
         sKA_Settings.keepaliveinterval = 3000 ; // Resend if No-Reply
         if (WSAIoctl(skNewConnection, SIO_KEEPALIVE_VALS, &sKA_Settings,
              sizeof(sKA_Settings), &sReturned, sizeof(sReturned), &dwBytes,
              NULL, NULL) != 0)
         {
               dwError = WSAGetLastError() ;
         }
         实现时需要添加tcp_keepalive and SIO_KEEPALIVE_VALS的定义文件MSTCPiP.h
         该选项不同于SO_KEEPALIVE 机制的就是它是针对单个连接的,对系统其他的套接
         口并不影响。
            针对完成端口的socket,设置了SIO_KEEPALIVE_VALS后,激活包由TCP STACK来负责。
         当网络连接断开后,TCP STACK并不主动告诉上层的应用程序,但是当下一次RECV或者SEND操作
         进行后,马上就会返回错误告诉上层这个连接已经断开了.如果检测到断开的时候,在这个连接
         上有正在PENDING的IO操作,则马上会失败返回.
        该机制的缺点:

        不通用。MS的API只能用于Windows。   
    (3)Heart-Beat线程
        这个是最常用的简单方法。在接收和发送数据时个人设计一个守护进程,定时发送Heart-Beat包,客户端/服务器收到该小包后,立刻返回相应的包即可检测对方是否实时在线。

        该方法的好处是通用,但缺点就是会改变现有的通讯协议!大家一般都是使用业务层心跳来处理,主要是灵活可控。

    UNIX网络编程不推荐使用SO_KEEPALIVE来做心跳检测,还是在业务层以心跳包做检测比较好,也方便控制,楼上给的代码是UNIX下的,WIN下不适用。Windows下此处的”非正常断开”指TCP连接不是以优雅的方式断开,如网线故障等物理链路的原因,还有突然主机断电等原因。
    有两种方法可以检测:1.TCP连接双方定时发握手消息 2.利用TCP协议栈中的KeepAlive探测
    第二种方法简单可靠,只需对TCP连接两个Socket设定KeepAlive探测。

     

    第一种方法是自己给SOCKET设置个timeout,如果超时则认为对方客户端断掉,需重新连接.

    //处理通信

     

    1. void do_client_work(int client_sock,struct sockaddr_in client)  
    2. {  
    3.     unsigned char cmd;  
    4.     int val;  
    5.     char *VideoPtr;  
    6.     send_client_info(client_sock,"hello",5);  
    7.     TCP_VIDEO_AGAIN_FLAG = 1;  
    8.     printf(" recv start ... ");  
    9.     while(1) {  
    10.        fd_set rds;  
    11.        struct timeval step;  
    12.        int ret;  
    13.        FD_ZERO(&rds);  
    14.        FD_SET(client_sock,&rds);  
    15.        step.tv_sec = 0;  
    16.        step.tv_usec = 1000;  
    17.        ret = select(client_sock+1,&rds,NULL,NULL,&step);  
    18.        if(ret < 0) {  
    19.         perror("select");  
    20.         exit(-1);  
    21.        }  
    22.        if(ret == 0) {  
    23.            ...//执行等待超时命令  
    24.        } else if(FD_ISSET(client_sock,&rds)) {  
    25.           val = recv_client_info(client_sock,&cmd,1);  
    26.           if(val < 0) {  
    27.              break;  
    28.           } else {  
    29.            ...//执行读写客户端数据操作  
    30.            if(TcpOutFlag==1) {  
    31.              TcpOutFlag=0;  
    32.              break;  
    33.            }  
    34.           }  
    35.        }  
    36.     }  
    37. }  

     

     

    //TCP接收数据

     

    1. int  recv_client_info(int client_sock,char* info,int length)  
    2. {  
    3.     int num;  
    4.     struct timeval tv;  
    5.     tv.tv_sec = 15;  
    6.     tv.tv_usec = 0;  
    7.     if (setsockopt(client_sock, SOL_SOCKET, SO_RCVTIMEO, &tv, sizeof(tv))>=0) {  
    8.         num = recv(client_sock,info,length,MSG_NOSIGNAL);  
    9.         if(num < 0) {  
    10.          perror("recv");  
    11.          return 0;  
    12.         } else if(num == 0) {  
    13.          printf("recv over ");  
    14.          return -2;  
    15.         } else {  
    16.          pthread_mutex_lock(&mutex);  
    17.          TCP_Timeout = 0;  
    18.          pthread_mutex_unlock(&mutex);  
    19.          return 0;  
    20.         }  
    21.     } else {  
    22.          printf("TCP CONNECT超时... ");  
    23.          return -1;  
    24.     }  
    25. }  

     

    第二种方法在Linux,Window2000下的实现Windows 2000平台下
    头文件

    1. #include <mstcpip.h>  
    2. //定义结构及宏  
    3. struct TCP_KEEPALIVE {  
    4. u_longonoff;  
    5. u_longkeepalivetime;  
    6. u_longkeepaliveinterval;  
    7. } ;  
    8. tcp_keepalive live,liveout;    
    9. live.keepaliveinterval=500;    
    10. live.keepalivetime=3000;    
    11. live.onoff=TRUE;    
    12. int iRet = setsockopt(Socket,SOL_SOCKET,SO_KEEPALIVE,(char *)Opt,sizeof(int));    
    13. if(iRet == 0){    
    14.     DWORD dw;    
    15.     if(WSAIoctl(Socket,SIO_KEEPALIVE_VALS,&live,sizeof(live),&liveout,sizeof(liveout),&dw,NULL,NULL)== SOCKET_ERROR){    
    16.         //Delete Client    
    17.         return;    
    18.     }    
    19. }    
    20.  ACE下代码  
    21.   int Opt = 1;  
    22.   //在测试过程中,发现检测的次数是5次,即下面的设置中,从最近一次消息开始计算的10秒后,每次间隔5秒,连续发送5次,即  
    23.   //35秒发现网络断了  
    24. tcp_keepalive live,liveout;    
    25. live.keepaliveinterval=5000; //每次检测的间隔 (单位毫秒)  
    26. live.keepalivetime=10000;  //第一次开始发送的时间(单位毫秒)  
    27. live.onoff=TRUE;    
    28. int iRet = stream.set_option(SOL_SOCKET,SO_KEEPALIVE,&Opt,sizeof(int));    
    29. if(iRet == 0){    
    30.    DWORD dw;    
    31.    //此处显示了在ACE下获取套接字的方法,即句柄的(SOCKET)化就是句柄  
    32.    if(WSAIoctl((SOCKET)h,SIO_KEEPALIVE_VALS,&live,sizeof(live),&liveout,sizeof(liveout),&dw,NULL,NULL)== SOCKET_ERROR){    
    33.           //Delete Client    
    34.           return;    
    35.    }    
    36. }    

     

    Linux平台下

     

    1. #include    "/usr/include/linux/tcp.h"  
    2. #include "/usr/include/linux/socket.h"  
    3. ////KeepAlive实现,单位秒  
    4. //下面代码要求有ACE,如果重生之大文豪没有包含ACE,则请把用到的ACE函数改成linux相应的接口  
    5. int keepAlive = 1;//设定KeepAlive  
    6. int keepIdle = 5;//开始首次KeepAlive探测前的TCP空闭时间  
    7. int keepInterval = 5;//两次KeepAlive探测间的时间间隔  
    8. int keepCount = 3;//判定断开前的KeepAlive探测次数  
    9. if(setsockopt(s,SOL_SOCKET,SO_KEEPALIVE,(void*)&keepAlive,sizeof(keepAlive)) == -1)  
    10. {  
    11. ACE_DEBUG ((LM_INFO,  
    12. ACE_TEXT ("(%P|%t) setsockopt SO_KEEPALIVE error!n")));  
    13. }  
    14.   
    15. if(setsockopt(s,SOL_TCP,TCP_KEEPIDLE,(void *)&keepIdle,sizeof(keepIdle)) == -1)  
    16. {  
    17. ACE_DEBUG ((LM_INFO,  
    18. ACE_TEXT ("(%P|%t) setsockopt TCP_KEEPIDLE error!n")));  
    19. }  
    20.   
    21. if(setsockopt(s,SOL_TCP,TCP_KEEPINTVL,(void *)&keepInterval,sizeof(keepInterval)) == -1)  
    22. {  
    23. ACE_DEBUG ((LM_INFO,  
    24. ACE_TEXT ("(%P|%t) setsockopt TCP_KEEPINTVL error!n")));  
    25. }  
    26.   
    27. if(setsockopt(s,SOL_TCP,TCP_KEEPCNT,(void *)&keepCount,sizeof(keepCount)) == -1)  
    28. {  
    29. ACE_DEBUG ((LM_INFO,  
    30. ACE_TEXT ("(%P|%t)setsockopt TCP_KEEPCNT error!n")));  
    31. }  

     

    假设一种情况:一个socket TCP监听进程监听数据的时候如何接收关闭文件的socket连接?

    不用并发

     read/recv函数返回0均表示正常结束。此时关闭即可。如果用select/poll/epoll管理,该套接字也会读就绪,然后调用recv/read返回0。
      对于异常关闭如网络崩溃、主机宕机等,可通过设置SO_KEEPALIVE设置保活,协议会按照设定间隔自动发送探测分节。该选项分为设置无数据首次探测时间、探测间隔、探测次数控制TCP是否出错。如果你设置首次探测在10秒之后、探测间隔3次,探测次数3次,则最多30秒之后将给应用层返回一个对方非正常关闭的异常,此时可通过获得errno得到对应错误,read/recv返回为-1。具体代码是:

    1. void setKeepAlive( int iSockfd , socklen_t iIdleTime , socklen_t iInterval , socklen_t iCount )  
    2. {  
    3.     setsockopt( iSockfd , SOL_SOCKET , SO_KEEPALIVE , (const char*)&iSockAttrOn , sizeof(iSockAttrOn) );  
    4.     setsockopt( iSockfd , SOL_TCP , TCP_KEEPIDLE , (const char*)&iIdleTime , sizeof(iIdleTime) );  
    5.     setsockopt( iSockfd , SOL_TCP , TCP_KEEPINTVL , (const char*)&iInterval,sizeof(iInterval) );  
    6.     setsockopt( iSockfd , SOL_TCP , TCP_KEEPCNT , (const char*)&iCount,sizeof(iCount) );  
    7. }  
  • 相关阅读:
    格式化你的git message
    git merge
    Git远程操作详解
    Limit
    EmailService
    RequestContextHolder getHttpServletRequest
    spring boot GlobalExceptionHandler @RestControllerAdvice @ExceptionHandler
    redis 的雪崩和穿透?
    FileUtil
    getWeekDay TimeUtil
  • 原文地址:https://www.cnblogs.com/jiangye/p/3496461.html
Copyright © 2011-2022 走看看