zoukankan      html  css  js  c++  java
  • TCP/IP详解V2(三)之TCP协议

    TCP

    TCP是一种面向连接的传输协议,为两端的应用程序提供可靠的端到端的数据流传输服务。

    数据结构

    struct tcphdr {
    	u_short	th_sport;		//源端口
    	u_short	th_dport;		//目的端口
    	tcp_seq	th_seq;			//数据序列号
    	tcp_seq	th_ack;			//确认序列号
    
    	u_char	th_off:4,		//TCP头部长度,以4字节计算
    		th_x2:4;		/* (unused) */
    	u_char	th_flags;    //标志
    #define	TH_FIN	0x01        //发送方字节流结束标志
    #define	TH_SYN	0x02        //建立连接的同步标志
    #define	TH_RST	0x04        //连接复位
    #define	TH_PUSH	0x08        //接收方应该立刻将数据交给用户
    #define	TH_ACK	0x10        //确认序号
    #define	TH_URG	0x20        //紧急数据
    	u_short	th_win;			//窗口大小
    	u_short	th_sum;			//校验和=TCP header + data
    	u_short	th_urp;			//紧急数据的偏移量
    };
    
    struct tcpiphdr {
    	struct 	ipovly ti_i;		/* overlaid ip structure */
    	struct	tcphdr ti_t;		/* tcp header */
    };
    
    struct ipovly {
    	caddr_t	ih_next, ih_prev;	/* for protocol sequence q's */
    	u_char	ih_x1;			/* (unused) */
    	u_char	ih_pr;			        //协议域
    	short	ih_len;			        //这个相当于IP头部,len = data Len + udp HeaderLen + ip header
    	struct	in_addr ih_src;		//源地址
    	struct	in_addr ih_dst;		//目标地址
    };
    

    TCP专用控制块:

    struct tcpcb {
    	struct	tcpiphdr *seg_next;	        //对乱序到达数据报进行排队
    	struct	tcpiphdr *seg_prev;
    	short	t_state;		//TCP的状态
    	short	t_timer[TCPT_NTIMERS];	//TCP用到的计数器,作为定时器使用,默认为4
    	short	t_rxtshift;		//当前的指数,用于指数退避,最大为12
    	short	t_rxtcur;		//当前的重传值
    	short	t_dupacks;		//重复的ACK计数
    	u_short	t_maxseg;		//MSS
    	char	t_force;		/* 1 if forcing out a byte */
    	u_short	t_flags;
    #define	TF_ACKNOW	0x0001		//立即发送ACK
    #define	TF_DELACK	0x0002		//延迟发送ACK
    #define	TF_NODELAY	0x0004		//立即发送用户数据,不等待形成最大报文段(禁止Nagle算法)
    #define	TF_NOOPT	0x0008		//不使用TCP选项
    #define	TF_SENTFIN	0x0010		//FIN已发送
    #define	TF_REQ_SCALE	0x0020		/* have/will request window scaling */
    #define	TF_RCVD_SCALE	0x0040		/* other side has requested scaling */
    #define	TF_REQ_TSTMP	0x0080		/* have/will request timestamps */
    #define	TF_RCVD_TSTMP	0x0100		/* a timestamp was received in SYN */
    #define	TF_SACK_PERMIT	0x0200		/* other side said I could SACK */
    
    	struct	tcpiphdr *t_template;	//保存一个TCP/IP首部模板
    	struct	inpcb *t_inpcb;		//指向Internet PCB
    /*
     * The following fields are used as in the protocol specification.
     * See RFC783, Dec. 1981, page 21.
     */
    /* send sequence variables */
    	tcp_seq	snd_una;		//最早的未确认过的seq
    	tcp_seq	snd_nxt;		//下一个将要发送的seq
    	tcp_seq	snd_up;		//发送紧急数据的指针
    	tcp_seq	snd_wl1;		//用于记录最后接收的报文段的序号,用于更新发送窗口
    	tcp_seq	snd_wl2;		//用于记录最后接收的报文段的确认序号,用于更新发送窗口
    	tcp_seq	iss;			//初始化发送ISS number
    	u_long	snd_wnd;		//发送窗口大小
    /* receive sequence variables */
    	u_long	rcv_wnd;		//接收窗口大小
    	tcp_seq	rcv_nxt;		//预计下一个接收的seq
    	tcp_seq	rcv_up;		//接收紧急数据的指针
    	tcp_seq	irs;			//初始化接收ISS number
    /*
     * Additional variables for this implementation.
     */
    /* receive variables */
    	tcp_seq	rcv_adv;		//通告窗口最大值+1
    /* retransmit variables */
    	tcp_seq	snd_max;		//最大发送序号
    /* congestion control (for slow start, source quench, retransmit after loss) */
    	u_long	snd_cwnd;		//拥塞窗口
    	u_long	snd_ssthresh;		//慢启动门限
    /*
     * transmit timing stuff.  See below for scale of srtt and rttvar.
     * "Variance" is actually smoothed difference.
     */
    	short	t_idle;			//空闲时间
    	short	t_rtt;			//RTT
    	tcp_seq	t_rtseq;		//被定时计算RTT的序列号
    	short	t_srtt;			//平滑往返时间
    	short	t_rttvar;		//RTT方差
    	u_short	t_rttmin;		//允许的最小 的RTT
    	u_long	max_sndwnd;		//对端提供的最大的窗口
    
    /* out-of-band data */
    	char	t_oobflags;		/* have some */
    	char	t_iobc;			/* input character */
    #define	TCPOOB_HAVEDATA	0x01
    #define	TCPOOB_HADDATA	0x02
    	short	t_softerror;		/* possible error not yet reported */
    
    /* RFC 1323 variables */
    	u_char	snd_scale;		/* window scaling for send window */
    	u_char	rcv_scale;		/* window scaling for recv window */
    	u_char	request_r_scale;	/* pending window scaling */
    	u_char	requested_s_scale;
    	u_long	ts_recent;		/* timestamp echo data */
    	u_long	ts_recent_age;		/* when last updated */
    	tcp_seq	last_ack_sent;
    
    /* TUBA stuff */
    	caddr_t	t_tuba_pcb;		/* next level down pcb for TCP over z */
    };
    
    

    TCP数据报图示:

    TCP状态变迁图:


    TCP的定时器

    TCP为了每条连接维护了七个定时器,从三个角度描述:连接建立,数据传输以及连接终止

    • 连接建立:
      • 连接建立定时器:定时器在发送SYN报文段的时候启动,如果没有在75S内收到响应,连接建立终止。
    • 数据传输:
      • 重传定时器:定时器在数据发送时建立。如果定时器已经超时但依旧没有收到对端对数据的确定,TCP将重传数据。重传定时器的取值依赖于RTO(动态计算)。
      • 延迟ACK定时器:定时器在TCP收到必须被确认的数据时,延迟ACK的发送,期待在等待期间有数据传输,即数据可以携带ACK一起发送。
      • 持续定时器:定时器在对端窗口通知为0,阻止TCP发送数据时启动。在超时后向对端发送1字节的数据,判断对端的接收窗口是否打开。与重传定时器的值类似,超时的值依赖于动态计算的RTO。
      • 保活定时器:定时器在应用进程设置了Keep-Alive时生效,如果连续的空闲时间超过了2小时,保活定时器向对端发送连续探测报文,强迫对端响应。
    • 连接终止:
      • FIN_WAIT_2定时器:主动关闭的一端需要这个定时器,防止对端一直不发送FIN,状态一直处于FIN_WAIT_2
      • TIME_WAIT定时器:主动关闭的一端需要这个定时器,防止收到错误的报文段,影响新的连接。

    因为其中有一些定时器是互斥的,不可能同时出现,比如说:连接建立定时器与保活定时器,FIN_WAIT_2定时器与TIME_WAIT定时器。因此,TCP使用4个500ms精度的计数器描述除了延迟ACK定时器除外的6个定时器。
    而且,重传定时器和持续定时器都有最大值与最小值的限制,因为他们的取值都是给予测量的动态计算得到的,其他定时器都是常值。

    定时器的取值范围:

    重传定时器的计算

    重传定时器与持续定时器依赖于连接上测算的RTT。TCP计算重传时限不仅需要测量RTT,还需要计算已平滑的RTT估计器(SRTT)以及已平滑的RTT平均方差估计器(RTTVAR)。

    DELTA = RTT - SRTT        //计算新测量的往返时间(RTT)与已经平滑的SRTT之间的差值
    SRTT = SRTT + g × DELTA        //g = 1/8,更新RTT
    RTTVAL = RTTVAL + h × (|DELTA| - RTTVAR)        //h=1/4,更新RTTVAL
    RTO = SRTT + 4 × RTTVAR        //更新计算RTO
    

    tcp_canneltimers

    • 功能A:进入TIME_WAIT状态时,tcp_input在设定2MSL定时器之前会将所有的定时器清零。
    void
    tcp_canceltimers(tp)
    	struct tcpcb *tp;
    {
    	register int i;
    
    	for (i = 0; i < TCPT_NTIMERS; i++)
    		tp->t_timer[i] = 0;
    }
    

    tcp_fasttimo

    • 功能A:每200ms调用一次,用于操作ACK延迟定时器操作
    void
    tcp_fasttimo()
    {
    	register struct inpcb *inp;
    	register struct tcpcb *tp;
    	int s = splnet();
    
    	inp = tcb.inp_next;    //获取TCP的Internet PCB
    	if (inp)
    	for (; inp != &tcb; inp = inp->inp_next)
    		if ((tp = (struct tcpcb *)inp->inp_ppcb) &&
    		    (tp->t_flags & TF_DELACK)) {        //如果TCP PCB存在,且DELAY已经置位
    			tp->t_flags &= ~TF_DELACK;    //清楚DELAY标志
    			tp->t_flags |= TF_ACKNOW;    //置位ACK标志
    			tcpstat.tcps_delack++;    //记录全局变量
    			(void) tcp_output(tp);    //立刻发送ACK以及数据
    		}
    	splx(s);
    }
    

    tcp_slowtimo

    • 功能A:每500ms调用一次,用于操作其他六个定时器
    void
    tcp_slowtimo()
    {
    	register struct inpcb *ip, *ipnxt;
    	register struct tcpcb *tp;
    	int s = splnet();
    	register int i;
    
    	tcp_maxidle = TCPTV_KEEPCNT * tcp_keepintvl;    //初始化为10min,这是TCP向对端发送报文后,用于等待的最长时间。FIN_WAIT_2定时器也使用了这个变量
    	/*
    	 * Search through tcb's and update active timers.
    	 */
    	ip = tcb.inp_next;    //如果TCP协议层没有合适的PCB存在,直接返回
    	if (ip == 0) {
    		splx(s);
    		return;
    	}
    	for (; ip != &tcb; ip = ipnxt) {    //遍历协议层所有的PCB
    		ipnxt = ip->inp_next;
    		tp = intotcpcb(ip);    //从Internet PCB获取TCP PCB
    		if (tp == 0)    //如果TCP PCB为空,直接返回
    			continue;
    		for (i = 0; i < TCPT_NTIMERS; i++) {    //遍历TIMERS,总共遍历四次
    			if (tp->t_timer[i] && --tp->t_timer[i] == 0) {    //如果在某一次的遍历过程中发现有超时存在,调用相应的函数进行处理,注意倒数第二个参数,使用i标记是那个定时器超时了
    				(void) tcp_usrreq(tp->t_inpcb->inp_socket,
    				    PRU_SLOWTIMO, (struct mbuf *)0,
    				    (struct mbuf *)i, (struct mbuf *)0);
    				if (ipnxt->inp_prev != ip)    //在返回之前检查这个Internet PCB是否存在(可能在某一次的操作之后,TCP放弃了连接,比如说2MSL超时等)
    					goto tpgone;
    			}
    		}
    		tp->t_idle++;    //记录空闲时间,如果有数据报文到达,就会清理这个计数器。
    		if (tp->t_rtt)    //增加RTT计数器
    			tp->t_rtt++;
    tpgone:
    		;
    	}
    	tcp_iss += TCP_ISSINCR/PR_SLOWHZ;		//递增ISS
    	tcp_now++;					//递增时间
    	splx(s);
    }
    

    tcp_timers

    • 功能A:处理超时请求
    struct tcpcb *
    tcp_timers(tp, timer)
    	register struct tcpcb *tp;
    	int timer;
    {
    	register int rexmt;
    
    	switch (timer) {
    	case TCPT_2MSL:    //使用这个变量实现了两个定时器:FIN_WAIT_2和2MSL
    		if (tp->t_state != TCPS_TIME_WAIT &&
    		    tp->t_idle <= tcp_maxidle)    //如果当前的状态处于FIN_WAIT_2期间,并且空闲时间小于10min,那么会再次将定时器设置为75s;
    			tp->t_timer[TCPT_2MSL] = tcp_keepintvl;
    		else    //如果此时处于TIME_WAIT状态,定时器超时意味着TIME_WAIT定时器超期,直接关闭TCP PCB。或者空闲的时间>10min(处于FIN_WAIT_2),也会引发关闭
    			tp = tcp_close(tp);
    		break;
    
    	case TCPT_REXMT:    //重传定时器超时
    		if (++tp->t_rxtshift > TCP_MAXRXTSHIFT) {    //如果重传的次数超过了12次,TCP将丢弃连接,直接退出
    			tp->t_rxtshift = TCP_MAXRXTSHIFT;
    			tcpstat.tcps_timeoutdrop++;
    			tp = tcp_drop(tp, tp->t_softerror ?
    			    tp->t_softerror : ETIMEDOUT);
    			break;
    		}
    		tcpstat.tcps_rexmttimeo++;    //修改全局变量
    		rexmt = TCP_REXMTVAL(tp) * tcp_backoff[tp->t_rxtshift];    //通过指数退避,计算新的RTO值
    		TCPT_RANGESET(tp->t_rxtcur, rexmt,
    		    tp->t_rttmin, TCPTV_REXMTMAX);
    		tp->t_timer[TCPT_REXMT] = tp->t_rxtcur;    //填充新的超时值
    
    		if (tp->t_rxtshift > TCP_MAXRXTSHIFT / 4) {    //如果报文段已经重传4次以上
    			in_losing(tp->t_inpcb);    //释放缓存中的路由
    			tp->t_rttvar += (tp->t_srtt >> TCP_RTT_SHIFT);    //计算RTT方差
    			tp->t_srtt = 0;    //并清除RTT估计器
    		}
    		tp->snd_nxt = tp->snd_una;    //将即将发送的报文段位置调整为未被确认的位置
    		tp->t_rtt = 0;    //将RTT置为0
    
    		{      //超时重传引发的拥塞避免。如果最后收到了对方发送的ACK,就进行慢启动
    		u_int win = min(tp->snd_wnd, tp->snd_cwnd) / 2 / tp->t_maxseg;      //先将窗口设置为(接收方的通告窗口和发送方的拥塞窗口中较小值的一半)
    		if (win < 2)    //如果窗口小于2
    			win = 2;    //将窗口置为2
    		tp->snd_cwnd = tp->t_maxseg;    //将拥塞窗口设置为一个报文段
    		tp->snd_ssthresh = win * tp->t_maxseg;    //将慢启动门限设置为WIN个报文段,最小为2
    		tp->t_dupacks = 0;    //将重复的ACK计数置为0
    		}
    		(void) tcp_output(tp);    //发送最早的未经过确认的报文段
    		break;
    
    	case TCPT_PERSIST:    //如果持续定时器超时
    		tcpstat.tcps_persisttimeo++;    //修改全局变量
    		tcp_setpersist(tp);    //计算定时器的下一个超时值
    		tp->t_force = 1;    //并强制定时器发送1字节的数据
    		(void) tcp_output(tp);
    		tp->t_force = 0;
    		break;
    
    	case TCPT_KEEP:    //描述了两种定时器,keep-alive和SYN_SEND状态    
    		tcpstat.tcps_keeptimeo++;    //记录全局变量
    		if (tp->t_state < TCPS_ESTABLISHED)    //如果在75s内没有成功的建立连接。连接建立定时器和重传定时器会保证对端在没有相应的时候重传SYN
    			goto dropit;
    		if (tp->t_inpcb->inp_socket->so_options & SO_KEEPALIVE &&
    		    tp->t_state <= TCPS_CLOSE_WAIT) {    //如果设置了Keep-Alive的选项并且状态<CLOSE_WAIT
    		    	if (tp->t_idle >= tcp_keepidle + tcp_maxidle)    //如果空闲的时间超过了限制,就丢弃连接
    				goto dropit;
    			tcpstat.tcps_keepprobe++;
    
    			tcp_respond(tp, tp->t_template, (struct mbuf *)NULL,
    			    tp->rcv_nxt, tp->snd_una - 1, 0);    //否则话发送一个探测报文并重置计数器
    			tp->t_timer[TCPT_KEEP] = tcp_keepintvl;
    		} else
    			tp->t_timer[TCPT_KEEP] = tcp_keepidle;
    		break;
    	dropit:
    		tcpstat.tcps_keepdrops++;    //从TCP PCBs的链表中移除这个TCP PCB,并返回连接超时的错误
    		tp = tcp_drop(tp, ETIMEDOUT);
    		break;
    	}
    	return (tp);
    }
    

    tcp_newtcpcb

    • 功能A:新分配一个TCP PCB并完成初始化
    struct tcpcb *
    tcp_newtcpcb(inp)
    	struct inpcb *inp;
    {
    	register struct tcpcb *tp;
    
    	tp = malloc(sizeof(*tp), M_PCB, M_NOWAIT);    //分配一个TCP PCB
    	if (tp == NULL)
    		return ((struct tcpcb *)0);
    	bzero((char *) tp, sizeof(struct tcpcb));
    	tp->seg_next = tp->seg_prev = (struct tcpiphdr *)tp;        //将两个指针都指向自身(转换为TCP/IP Header)
    	tp->t_maxseg = tcp_mssdflt;    //设置MSS
    
    	tp->t_flags = tcp_do_rfc1323 ? (TF_REQ_SCALE|TF_REQ_TSTMP) : 0;    
    	tp->t_inpcb = inp;        //指向Internet PCB
    	
    	tp->t_srtt = TCPTV_SRTTBASE;        //将SRTT初始化为0
    	tp->t_rttvar = tcp_rttdflt * PR_SLOWHZ << 2;        //将RTTVAR初始化为3s
    	tp->t_rttmin = TCPTV_MIN;    //将RTT_MIN初始化为500ms
    	TCPT_RANGESET(tp->t_rxtcur, 
    	    ((TCPTV_SRTTBASE >> 2) + (TCPTV_SRTTDFLT << 2)) >> 1,
    	    TCPTV_MIN, TCPTV_REXMTMAX);        //将RTO初始化为6s
    	tp->snd_cwnd = TCP_MAXWIN << TCP_MAX_WINSHIFT;        //将cwnd和ssthresh初始化为1G
    	tp->snd_ssthresh = TCP_MAXWIN << TCP_MAX_WINSHIFT;
    	inp->inp_ip.ip_ttl = ip_defttl;    //初始化Internet PCB中的TLL
    	inp->inp_ppcb = (caddr_t)tp;    //确定Internet PCB中的TCP PCB的指向
    	return (tp);
    }
    

    tcp_setpersist

    • 功能A:持续定时器到期后调用这个函数,根据RTO的值计算下一次的超时时间
    void
    tcp_setpersist(tp)
    	register struct tcpcb *tp;
    {
    	register t = ((tp->t_srtt >> 2) + tp->t_rttvar) >> 1;    //计算RTO
    
    	if (tp->t_timer[TCPT_REXMT])    //判断这个定时器是否超时
    		panic("tcp_output REXMT");    
    	/*
    	 * Start/restart persistance timer.
    	 */
    	TCPT_RANGESET(tp->t_timer[TCPT_PERSIST],
    	    t * tcp_backoff[tp->t_rxtshift],
    	    TCPTV_PERSMIN, TCPTV_PERSMAX);        //根据指数退避设置下一次的超时时间
    	if (tp->t_rxtshift < TCP_MAXRXTSHIFT)    //递增当前的指数
    		tp->t_rxtshift++;
    }
    
  • 相关阅读:
    Phonon
    qt 的mysql的库
    vwmare下安装fedora
    C++标准库
    C#命名空间
    用谷歌Chrome浏览器来当手机模拟器
    Javascript实现ECMAScript 5中的map、reduce和filter函数
    页面变灰实现方案
    jQuery检查元素是否在视口内(屏幕可见区域内)
    兼容浏览器的获取指定元素(elem)的样式属性(name)的方法
  • 原文地址:https://www.cnblogs.com/ukernel/p/9190965.html
Copyright © 2011-2022 走看看