最近工作接触到了网络服务同步和异步,所以学习了下《UNIX网络编程》,在此作下总结。
一、I/O模型
输入/输出(I/O)是在主存和外部设备(如磁盘驱动器、终端和网络)之间拷贝数据的过程。输入是从I/O设备拷贝数据到主存,而输出是从主存拷贝数据到I/O设备。比如,网络可视为一个I/O设备,作为数据源和数据接收方。系统可以经过网络读取其他机器发送来的数据,并将数据复制到自己主存中。
下面分别介绍Unix的5种I/O模型:
- 阻塞式IO
- 非阻塞IO
- IO复用
- 信号驱动IO
- 异步IO
一个输入操作通常为以下两个阶段:
(1)等待数据准备好;
(2)从内核复制数据到进程;
拿网络中客户端请求服务的例子说明五种模型。
在网络请求中,套接字(socket)是实现通信的一个端点,应用程序可以通过它发送或接收数据,可对其进行像对文件一样的打开、读写和关闭等操作。
对于一个soket上的输入操作:
(1)等待数据从网络中到达。数据到达时被复制到内核中的缓冲区;
(2)把数据从内核缓冲区复制到应用进程缓冲区。
1. 阻塞式IO模型
阻塞式IO模型是最常用的,我们将recvfrom作为系统调用,来观察应用进程和内核之间的区别。下图中进程调用recvfrom,该系统调用直到数据报准备好且拷贝到应用缓冲区或者出错才返回,也就是说在数据返回之前,进程被阻塞,当进程返回成功指示后,才可以开始下面的处理。
2. 非阻塞式IO模型
下图中,前三次调用recvfrom,数据还没准备好,内核会立即返回一个EWOULDBLOCK错误,直到第四次调用时,数据准备好被拷贝到应用缓冲区,该系统调用返回成功指示,接下来开始处理数据。当应用进程像这样对一个非阻塞描述字循环调用recvfrom时,这实际上就是轮询(polling)。
应用程序不断地查询内核,检查数据是否准备好,这对CPU来说是一种浪费,所以这种模型比较少见。
3. IO复用模型
IO复用是指通过调用select,poll或者epoll函数,监听多个socket连接,每新来一个socket连接,就会被加入到监听列表,实现单个线程同时处理多个网络连接的IO。基本原理是通过select,poll或epoll不断轮询负责的全部socket,当其中一个数据准备好,就通知进程。然后调用recvfrom拷贝数据从内核到进程,返回成功指示后,进行下一步处理。
应用进程虽然不会被socket的IO阻塞,但一直被select,poll或epoll阻塞。如果socket数不是很多的话,使用IO复用模型可能比多线程 + 阻塞IO延迟更大,因为IO复用模型相对比之前的模型需要两次系统调用,它的优势在于能处理较多的连接。
4. 信号驱动IO模型
该模型通过系统调用sigaction安装一个信号处理程序。当内核准备好数据后,发送信号告知进程。在信号处理程序中调用recvfrom读取数据,并通知主循环。这种模型的好处是当等待数据报到达时,IO不被阻塞。主循环可以继续执行,只是等待信号处理程序的通知:数据已准备好被读。
5. 异步IO模型
异步IO模型让内核完成整个操作(包括将数据从内核拷贝到进程缓冲区)后才进行通知应用进程。这个模型和信号驱动模型的主要区别在于:信号驱动IO是由内核通知我们何时可以启动一个IO操作,而异步IO是由内核通知我们IO操作何时完成。
下图中调用aio_read,传递内核描述字、缓冲区指针、缓冲区大小、文件偏移,并告诉内核整个操作完成时如何通知我们。该系统调用立即返回,不阻塞于IO操作。该图中,内核在操作完成后传递一个信号,该信号直到数据被拷贝到缓冲区才产生,这是和信号驱动IO的不同之处。
二、IO模型区别
1. 对比
从这两个阶段来看,前四种模型在第一阶段有所不同,但第二个阶段基本相同,把数据从内核拷贝到应用进程的缓冲区时,进程被阻塞于recvfrom调用。异步IO模型的两个阶段都不同于前四种模型。
2. 同步vs异步
同步IO操作会阻塞请求进程,直到IO操作完成。
异步IO操作不会阻塞请求进程。
前四种模型:阻塞IO模型、非阻塞IO模型、IO复用模型和信号驱动IO都是同步IO模型,因为真正的IO操作(recvfrom)阻塞进程。