14.1:引言
本章内容包括非阻塞I/O、记录锁、系统V流机制、I/O多路转接(select和poll函数)、readv和writev函数以及存储映射I/O(mmap),这些都称为高级I/O。
14.2:非阻塞I/O
非阻塞I/O使我们可以调用open、read和write这样的I/O操作,并使这些操作不会永远阻塞。如果这种操作不能完成,则调用立即出错返回,表示该操作如继续执行将阻塞。
对于一个给定的描述符有两种方法对其指定非阻塞I/O:
(1)如果调用open获得描述符,则可指定O_NONBLOCK标志。
(2)对于已经打开的一个描述符,则可调用fcntl,由该函数打开O_NONBLOCK文件状态标志。
实例 14-1:长的非阻塞write
14.3:记录锁
记录锁(record lock)的功能是:当一个进程正在修改或读文件的某以部分时,它可以阻止其他进程修改同以文件区。
1. fcntl记录锁
#include <fcntl.h> int fcntl(int filedes, int cmd, .../* struct flock *flockpty */); // 返回值:若成功则依赖于cmd,若失败则返回-1
对于记录锁,cmd是F_GETLK、F_SETLK或F_SETLKW。第三个参数是一个指向flock结构的指针:
struct flock { short l_type; // F_RDLCK、F_WRLCK、or F_UNLCK off_t l_start; // offset in bytes, relative to l_whence short l_whence; // SEEK_SET、SEEK_CUR、or SEEK_END off_t l_len; // length, in bytes; 0 means lock to EOF pid_t l_pid; // returned with F_GETLK };
对flock结果说明如下:
所希望的锁类型:F_RDLCK共享读锁、F_WRLCK独占性写锁、F_UNLCK解锁一个区域
要加锁或解锁区域的起始偏移量。这由l_start和l_whence决定
区域的字节长度,由l_len表示。
具有能阻塞当前进程的锁,其持有进程的进程ID放在l_pid中(仅由F_GETLK返回)
关于加锁和解锁区域的说明还要注意下列几点:
l_start是相对偏移量,l_whence则决定了相对偏移量的起点。l_whence的可选值是SEEK_SET、SEEK_CUR、SEEK_END。
如若l_len是0,则表示锁的区域从其起点(由l_start和l_whence决定)直至最大可能偏移量为止,也就是不管文件添加多少数据,它们都在锁的范围之内。
为了锁整个文件,我们设置l_start和l_whence,使锁的起点位于文件开始处,并且说明长度(l_len)为0。(有多种方法可以指定文件开始处,但最常见的方法是设置l_start为0,l_whence为SEEK_SET。)
锁的兼容性
共享锁和独占锁的基本规则是:多个进程在一个给定的字节可以有一把共享的读锁,但是在给定的字节上,只能有一个进程有一把独占的写锁。进一步而言,如果在给定的字节上有一把或多把读锁,则不能在该字节上加写锁;同样,如果再给定的字节上有一个写锁,则不能在字节上加读锁。
上述规则适用于不同进程提出的锁请求,并不适用于单个进程提出的多个锁请求。如果一个进程对一个文件区间有一把锁,后来该进程又企图在该文件区间上加另外一把锁,则新锁将替换老锁。
加读锁时,该文件必须是读打开;加写锁时,该文件必须是写打开。
以下说明fcntl函数的三种命令:
F_GETLK:判断由flockptr所描述的锁是否被另一把锁所排斥。如果一把排斥flockptr所描述的锁,则把该现存锁的信息写到flockptr指向的结构中。如果不存在一把排斥的锁,则只将l_type设置为F_UNLCK,flockptr指向的结构的其他信息不变。该函数的作用就是测试由flockptr所指向的锁能不能加到执行文件区间。
F_SETLK:设置由flockptr描述的锁。如果要建立一把读锁或写锁,按上述兼容性规则,如果不能创建该锁,则fcntl出错返回,此时errno设置为EAGAIN。此命令也用于清除锁,把l_type设置为F_UNLCK。
F_SETLKW:这是F_SETLK的阻塞版本(W表示wait)。如果当前所请求的区间的某一部分,另一个进程已有一把锁,而按兼容性规则由flockptr描述的锁无法创建,则进程休眠。如果请求的锁已可用,或者休眠由信号中断,则该进程被唤醒。
注意:
用F_GETLK测试一把锁,然后用F_SETLK或者F_SETLKW来设置锁,这两步不是一个原子操作。因此不能保证在使用F_SETLK时,测试的结果依然不变。
2. 锁的隐含继承和释放
关于记录锁的继承和释放有三条规则:
(1)锁与进程和文件两方面有关。这有两重含义:第一重很明显,当一个进程终止时,它所建立的锁全部释放;第二重意思就不很明显了,任何时候关闭一个描述符时,则进程通过这一描述符可以引用的文件上的任何一把锁都被释放(这些锁都是该进程设置的)。
(2)由fork产生的子进程不继承父进程所设置的锁。
(3)在执行exec后,新程序可以继承原执行程序的锁。但是请注意,如果对一个文件描述符设置了close-on-exec标志,那么当作为exec的一部分关闭该文件描述符时,对相应文件的所有锁都被释放了。
3.实例 在文件整体上加锁
我们了解到,守护进程可以利用一把锁来保证只有守护进程的唯一副本在运行。下面函数实现了这种机制。
#include <unistd.h> #include <fcntl.h> int lockfile(int fd) { struct flock fl; fl.l_type = F_WRLCK; fl.l_start = 0; fl.l_whence = SEEK_SET; fl.l_len = 0; return fcntl(fd, F_SETLK, &fl); }
还有另一种方法,是使用write_lock来实现:
#define lockfile(fd) write_lock((fd), 0, SEEK_SET, 0)
4.在文件尾端加锁
在接近文件尾端加锁或解锁一定要小心。
如下代码:
write_lock(fd, 0, SEEK_END, 0); write(fd, buf, 1); un_lock(fd, 0, SEEK_END); write(fd, buf, 1);
该代码所做的可能不是你所期望的。首先,它得到一把写锁,它从当前文件尾端起,包括以后可能添加到文件中的所有字节。然后,它在文件尾端添加了一个字节,该字节将被加锁。随后,解锁,但是刚才增加的那个字节将仍旧被锁着。最后,第二个写,这次写入的一个字节是不被加锁的。
所以,这段代码执行完之后,该文件中倒数第二个字节是被锁着的。跟我们的预期差别很远吧。
5.建议性锁和强制性锁
14.4:STREAMS
不太理解STREAMS机制、STREAMS设备是什么意思。
14.5:I/O多路转接
当从一个描述符读,然后又写入到另外一个描述符时,可以在下列形式的循环中使用阻塞I/O:
while ((n = read(STDIN_FILENO, buf, BUFSIZE)) > 0) { if (write(STDOUT_FILENO, buf, n) != n) { perror("write error!"); } }
这种形式的阻塞I/O到处可见。但是如果必须从两个描述符读,又将如何呢?如果仍旧使用阻塞I/O,那么就可能长时间阻塞在一个描述符上,而另一个描述符虽有很多数据却不能得到及时处理。所以为了处理这种情况显然需要另一种不同的技术。
处理这种问题的一个方法是PPC或者TPC。即一个连接一个进程、一个连接一个线程,但是这样做也会增加进程间通信和线程间同步的复杂度。
还有一种方法是使用非阻塞I/O(nonblocking I/O)
基本方法是将两个输入描述符设置为非阻塞的,对第一个描述符发出read操作,如果有数据则处理,如果没有数据,则read立即返回。然后对第二个描述符做同样的操作。在此之后等待若干秒,循环上述操作。这种方式成为轮询。
这种方式的不足之处是浪费CPU。
还有一种技术称之为异步I/O(asynchronous I/O)
其基本思想是进程告诉内核,当一个描述符已准备好可以进行I/O时,用一个信号通知它。这种技术有两个问题。第一,并非所有系统都支持。其次,这种信号对每个进程而言只有一个,在接到该信号时进程无法判断是哪一个描述符已准备好可以进行I/O。为了确定是哪一个,仍需将这两个描述符都设置为非阻塞的,并顺序试执行I/O。
一种比较好的技术是使用I/O多路转接(I/O multiplexing)
先构造一张有关描述符的列表,然后调用一个函数,直到该描述符列表中的一个已准备好I/O时,该函数才返回。在返回时,它告诉进程哪些描述符已准备好可以进行I/O。
poll、select、pselect这三个函数可以让我们实现I/O多路转接。
14.5.1:select、pselect函数
在所有依从POSIX的平台上,select函数使我们可以执行I/O多路转接。传向select的参数告诉内核:
我们所关心的描述符。
对每个描述符,我们所关心的状态。(是否读一个给定描述符,是否写一个给定描述符,是否关心一个描述符的异常状态)
愿意等待多久。
从select返回时,内核告诉我们:
已准备好I/O的描述符个数。
对于读、写、异常这三个状态中的每一个,哪些描述符已准备好。
使用这些信息就可以调用相应的I/O函数,并且确定这些I/O函数不会阻塞。
#include <sys/select.h> int select(int maxfdp1, fd_set *restrict readfds, fd_set *restrict writefds, fd_set *restrict exceptfds, struct timeval *restrict tvptr); // 返回值:准备就绪的描述符数,若超时返回0,若出错返回-1
先说明最后一个参数,它说明愿意等待的时间:
struct timeval { long tv_sec; // seconds long tv_usec; // microseconds };
有三种情况:
tvptr=NULL 永远等待。
tvptr->tv_sec==0 && tvptr->tv_usec=0 完全不等待。
tvptr->tv_sec!=0 || tvptr->tv_usec != 0 等待指定时间。若超时,则返回0。
POSIX允许实现中修改timeval的值,所以在select返回后,你不能指望该结构保持之前的值。在Linux 2.4.22中,若在该指定时间尚未超时就返回,那么就将用余下的时间值更新该结构。注意与poll函数中对应参数做对比。
中间三个参数readfds、writefds和exceptfds是指向描述符集的指针。这三个描述符集说明了我们关心的可读、可写或处于异常条件的各个描述符。
对fd_set类型可以进行的处理是:分配一个这种类型的变量;将这种类型的一个变量赋值给同类型的另一个变量;或对于这种类型的变量使用下列四个函数中的一个:
#include <sys/select.h> int FD_ISSET(int fd, fd_set *fdset); // 返回值:若fd在描述符集中则返回非0,否则返回0 void FD_CLR(int fd, fd_set *fdset); void FD_SET(int fd, fd_set *fdset); void FD_ZERO(fd_sete *fdset);
调用FD_ZERO将一个指定fd_set变量的所有位置为0;调用FD_SET设置一个fd_set变量的指定位;调用FD_CLR清除一个fd_set变量的指定位;然后调用FD_ISSET测试fd_set变量的指定位是否设置。
select函数的中间三个参数的任意一个或全部都可以为NULL。如果三个都是NULL,则select提供一个高精度的计时器。
select函数的第一位参数maxfdp1的意思是“最大描述符加1”。
select有三个可能的返回值:
返回-1表示出错。
返回0表示没有描述符准备好。
返回正值表示已经准备好的描述符数。该值是三个描述符集中已准备好的描述符的和。
14.5.2:poll函数
poll函数类似于select,但其程序员接口不同。
#include <poll.h> int poll(struct pollfd fdarray[], nfds_t nfds, int timeout); // 返回值:准备就绪的描述符数,若超时返回0,若出错返回-1
与select不同,poll不是为每个状态构造一个描述符集,而是构造一个poll结构数组,每个数组元素指定一个描述符编号及其所关心的状态。
struct pollfd { int fd; // file descriptor to check short events; // events of interest on fd short revents; // events that occurred on fd };
fdarray的个数由nfds参数指定。
应将events成员设置成以下值。通过这些值,告诉内核对该描述符我们关心哪些状态。返回时,内核设置revents成员,以说明对于该描述符已发生了什么事件。(注意,poll没有更改events成员,这与select不同,select修改其参数以指示哪一个描述符已准备好了。)
----------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------
标志名 输入致events 从reevents得到结果 说明
----------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------
POLLIN * * 不阻塞的可读高优先级外的数据
POLLRDNORM * * 不阻塞的可读普通数据
POLLRDBAND * * 不阻塞的可读非0优先级波段数据
POLLPRI * * 不阻塞的可读高优先级数据
----------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------
POLLOUT * * 不阻塞的可写普通数据
POLLWRNORM * * 与POLLOUT相同
POLLWRBAND * * 不阻塞的可写非0优先级波段数据
----------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------
POLLERR * 已出错
POLLHUP * 已挂断
POLLNVAL * 描述符不引用一个打开文件
----------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------
前四行测试可读性,中间三行测试可写性,最后三行测试异常状态。最后三行是由内核在返回时设置的,即使在events中没有设置这三个值,如果有异常情况发生,也会在reevents中返回它们。
poll的最后一个参数表示我们愿意等待多长时间。与select类似,有三种情况:
timeout == -1 永远等待。捕捉信号返回,则poll返回-1,errno设置为EINTR。
timeout == 0 不等待。
timeout > 0 等待timeout毫秒。超时返回0
应当理解文件结束和挂断的区别。如果正从终端输入数据,并键入文件结束符,POLLIN被打开,于是就可读文件结束指示(read 0)。POLLHUP在revents中没有打开。如果正读调制解调器,电话线已挂断,则在revents中将接到POLLHUP通知。
与select一样,不论描述符是否阻塞,都不影响poll是否阻塞。
select与poll的可中断性
在接到信号后,select和poll都不自动重启。
14.6:异步I/O
使用上一节的select、poll可以实现异步形式的通知。关于描述符的状态,系统并不主动告诉我们,需要我们主动查询(调用select或poll)。信号机构提供一种以异步形式通知某种事件已发生的方法。
但是异步I/O的一个限制是每个进程只有一个信号。如果要对几个描述符进行异步I/O,那么在进程收到该信号时并不知道信号对应于哪一个描述符。
14.7:readv和writev函数
readv和writev函数用于在一次函数调用中读取、写入多个缓冲区。也称为散布读、聚集写。
#include <sys/uio.h> ssize_t readv(int filedes, const struct iovec *iov, int iovcnt); ssize_t writev(int filedes, const struct iovec *iov, int iovcnt); // 两个函数返回值,若成功,返回已读、写的字节数,若失败返回-1
这两个函数的第二个参数是指向iovec结构数组的指针:
struct iovec { void *iov_base; // starting address of buffer size_t iov_len; // size of buffer };
14.8:readn和writen函数
管道、FIFO及某些设备,特别是终端、网络和STREAMS设备有以下两种性质:
(1)一次read返回的数据可能少于要求的数据。
(2)一次write返回的个数也可能小于要写入的数据长度。
readn、writen的功能是读写指定的N字节数据,并处理返回值小于要求值的情况。这两个函数只是按需多次调用了read、write直至读写了N字节数据。
#include "apue.h" ssize_t readn(int filedes, void *buf, size_t nbytes); ssize_t writen(int filedes, void *buf, size_t nbytes);
// 两个函数返回值:已读写字节数,若出错返回-1
注意:这两个函数并非任何标准,而是apue这本书中作者写出来的,方便以后使用。
14.9:存储映射I/O
存储映射I/O使一个磁盘文件和存储空间中的一个缓冲区相映射,于是当从缓冲区中读取数据,就相当于读文件中的相应字节。与此类似,将数据存入缓冲区,则相应字节就自动写入文件。
为了使用这种功能,应首先告诉内核将一个给定文件映射到一个存储区中。这是由mmap函数实现的:
#include <sys/mmap.h> void *mmap(void *addr, size_t len, int prot, int flag, int filedes, off_t off); // 返回值:若成功则返回映射区的起始地址,若出错则返回MAP_FAILED
addr参数用于指定映射存储区的起始地址。通常将其设置为0,这表示由操作系统选择该映射区的起始地址。此函数的返回地址是该映射区的起始地址。
filedes指定要被映射问价的描述符。在映射该文件到一个地址空间之前,先要打开该文件。len是映射的字节数。off是要映射字节在文件中的起始偏移量。
prot参数说明对映射存储区的保护要求。
PROT_READ 映射区可读
PROT_WRITE 映射区可写
PROT_EXEC 映射区可执行
PROT_NONE 映射区不可访问
flag参数影响映射存储区的多种属性
MAP_FIXED 返回值必须等于addr。因为这不利于可移植性,所以不建议使用此标志。如果未指定此标志,而addr非0,则内核只把addr视为一种建议,但是不保证会使用该起始地址。
MAP_SHARED 这一标志说明了本进程对映射存储区所进行的存储操作配置。此标志指定存储操作修改映射文件,也就是说,存储操作相当于对该文件的write操作。必须指定本标志或下一个标志,但不能同时指定。
MAP_PRIVATE 本标志说明,对映射区的存储操作导致创建该映射文件一个私有副本。所有后来对该映射区的引用都是引用该副本,而不是原始文件。
调用mprotect可以更改一个现存的映射存储区的权限:
#include <sys/mman.h> int mprotect(void *addr, size_t len, int prot); // 返回值:若成功返回0,若出错则返回-1
如果在共享映射存储区中的页已被修改,那么我们可以调用msync将该页冲洗到被映射的文件中。msync函数类似与fsync,但作用于共享存储区。
#include <sys/mman.h> int msync(void *addr, size_t len, int flag); //返回值:若成功则返回0,若出错则返回-1
如果映射是私有的,那么不修改被映射的文件。flags参数使我们对如何冲洗存储区有某种程度的控制。我们可以指定MS_ASYNC标志以简化被写页的调度。如果我们希望在返回之前等待写操作完成,则可以指定MS_SYNC标志。一定要指定MS_ASYNC和MS_SYNC中的一个。
进程终止时,或调用了munmap函数之后,存储映射区就被自动解除映射。关闭文件描述符filedes并不解除映射区。
#include <sys/mman.h> int munmap(caddr_t addr, size_t len); // 返回值:若成功则返回0,若出错则返回-1
munmap不会影响被映射对象,调用munmap不会将映射存储区的内容写到磁盘文件上。对于MAP_SHARED区磁盘文件的更新,在写到存储映射区时按内核虚存算法自动进行。
在解除了映射后,对于MAP_PRIVATE存储区的修改被丢弃。
实例 14-12:用存储映射I/O复制一个文件。
14.10:小结
本章说明了很多高级I/O功能。
非阻塞I/O--发一个I/O操作,不使其阻塞。
记录锁
系统V流机制
I/O多路转接--select、poll函数
readv和writev函数
存储映射I/O(mmap)