KVM虚拟机IO处理过程(一) ----Guest VM I/O 处理过程

zoukankan html css js c++ java

KVM虚拟机IO处理过程(一) ----Guest VM I/O 处理过程
虚拟化技术主要包含三部分内容:CPU虚拟化,内存虚拟化,设备虚拟化.本系列文章主要描述磁盘设备的虚拟化过程,包含了一个读操作的I/O请求如何从Guest Vm到其最终被处理的整个过程.本系列文章中引用到的linux内核代码版本为3.7.10,使用的虚拟化平台是KVM,qemu的版本是1.6.1.

用户程序想要访问IO设备需要调用操作系统提供的接口,即系统调用.当在用户程序中调用一个read操作时,系统先保存好read操作的参数,然后调用int 80命令(也可能是sysenter)进入内核空间,在内核空间中,读操作的逻辑由sys_read函数实现.

在讲sys_read的实现过程之前,我们先来看看read操作在内核空间需要经历的层次结构.从图中可以看出,read操作首先经过虚拟文件系统曾(vfs), 接下来是具体的文件系统层,Page cache层,通用块层(generic block layer),I/O调度层(I/O scheduler layer),块设备驱动层(block device driver layer),最后是块物理设备层(block device layer).
- 虚拟文件系统层:该层屏蔽了下层的具体操作,为上层提供统一的接口,如vfs_read,vfs_write等.vfs_read,vfs_write通过调用下层具体文件系统的接口来实现相应的功能.
- 具体文件系统层:该层针对每一类文件系统都有相应的操作和实现了,包含了具体文件系统的处理逻辑.
- page cache层:该层缓存了从块设备中获取的数据.引入该层的目的是避免频繁的块设备访问,如果在page cache中已经缓存了I/O请求的数据,则可以将数据直接返回,无需访问块设备.
- 通过块层:接收上层的I/O请求,并最终发出I/O请求.该层向上层屏蔽了下层设备的特性.
- I/O调度层: 接收通用块层发出的 IO 请求，缓存请求并试图合并相邻的请求（如果这两个请求的数据在磁盘上是相邻的）。并根据设置好的调度算法，回调驱动层提供的请求处理函数，以处理具体的 IO 请求
- 块设备驱动层:从上层取出请求,并根据参数,操作具体的设备.
- 块设备层:真正的物理设备.
了解了内核层次的结构,让我们来看一下read操作的代码实现.

sys_read函数声明在include/linux/syscalls.h文件中,
[cpp] view plain copy

asmlinkage long sys_read(unsigned int fd, char __user *buf, size_t count);

其函数实现在fs/read_write.c文件中:

[cpp] view plain copy

SYSCALL_DEFINE3(read, unsigned int, fd, char __user *, buf, size_t, count)

{

    struct fd f = fdget(fd);

    ssize_t ret = -EBADF;



    if (f.file) {

        loff_t pos = file_pos_read(f.file);

        ret = vfs_read(f.file, buf, count, &pos); //调用vfs layer中的read操作

        file_pos_write(f.file, pos);//设置当前文件的位置

        fdput(f);

    }

    return ret;

}
vfs_read函数属于vfs layer,定义在fs/read_write.c, 其主要功能是调用具体文件系统中对应的read操作,如果具体文件系统没有提供read操作,则使用默认的do_sync_read函数.
[cpp] view plain copy

ssize_t vfs_read(struct file *file, char __user *buf, size_t count, loff_t *pos)

{

    ssize_t ret;



    if (!(file->f_mode & FMODE_READ))

        return -EBADF;

    if (!file->f_op || (!file->f_op->read && !file->f_op->aio_read))

        return -EINVAL;

    if (unlikely(!access_ok(VERIFY_WRITE, buf, count)))

        return -EFAULT;



    ret = rw_verify_area(READ, file, pos, count);

    if (ret >= 0) {

        count = ret;

        if (file->f_op->read) {

            ret = file->f_op->read(file, buf, count, pos); //该函数由具体的文件系统指定

        } else

            ret = do_sync_read(file, buf, count, pos);  //内核默认的读文件操作

        if (ret > 0) {

            fsnotify_access(file);

            add_rchar(current, ret);

        }

        inc_syscr(current);

    }



    return ret;

}
file->f_op的类型为struct file_operations, 该类型定义了一系列涉及文件操作的函数指针,针对不同的文件系统,这些函数指针指向不同的实现.以ext4 文件系统为例子,该数据结构的初始化在fs/ext4/file.c,从该初始化可以知道,ext4的read操作调用了内核自带的do_sync_read()函数

[cpp] view plain copy

const struct file_operations ext4_file_operations = {

    .llseek     = ext4_llseek,

    .read       = do_sync_read,

    .write      = do_sync_write,

    .aio_read   = generic_file_aio_read,

    .aio_write  = ext4_file_write,

    .unlocked_ioctl = ext4_ioctl,

#ifdef CONFIG_COMPAT

    .compat_ioctl   = ext4_compat_ioctl,

#endif

    .mmap       = ext4_file_mmap,

    .open       = ext4_file_open,

    .release    = ext4_release_file,

    .fsync      = ext4_sync_file,

    .splice_read    = generic_file_splice_read,

    .splice_write   = generic_file_splice_write,

    .fallocate  = ext4_fallocate,

};
do_sync_read()函数定义fs/read_write.c中,

[cpp] view plain copy

ssize_t do_sync_read(struct file *filp, char __user *buf, size_t len, loff_t *ppos)

{

    struct iovec iov = { .iov_base = buf, .iov_len = len };

    struct kiocb kiocb;

    ssize_t ret;



    init_sync_kiocb(&kiocb, filp);//初始化kiocp,描述符kiocb是用来记录I/O操作的完成状态

    kiocb.ki_pos = *ppos;

    kiocb.ki_left = len;

    kiocb.ki_nbytes = len;



    for (;;) {

        ret = filp->f_op->aio_read(&kiocb, &iov, 1, kiocb.ki_pos);//调用真正做读操作的函数,ext4文件系统在fs/ext4/file.c中配置

        if (ret != -EIOCBRETRY)

            break;

        wait_on_retry_sync_kiocb(&kiocb);

    }



    if (-EIOCBQUEUED == ret)

        ret = wait_on_sync_kiocb(&kiocb);

    *ppos = kiocb.ki_pos;

    return ret;

}
在ext4文件系统中filp->f_op->aio_read函数指针只想generic_file_aio_read, 该函数定义于mm/filemap.c文件中,该函数有两个执行路径,如果是以O_DIRECT方式打开文件,则读操作跳过page cache直接去读取磁盘,否则调用do_generic_sync_read函数尝试从page cache中获取所需的数据.

[cpp] view plain copy

ssize_t

generic_file_aio_read(struct kiocb *iocb, const struct iovec *iov,

        unsigned long nr_segs, loff_t pos)

{

    struct file *filp = iocb->ki_filp;

    ssize_t retval;

    unsigned long seg = 0;

    size_t count;

    loff_t *ppos = &iocb->ki_pos;



    count = 0;

    retval = generic_segment_checks(iov, &nr_segs, &count, VERIFY_WRITE);

    if (retval)

        return retval;



    /* coalesce the iovecs and go direct-to-BIO for O_DIRECT */

    if (filp->f_flags & O_DIRECT) {

        loff_t size;

        struct address_space *mapping;

        struct inode *inode;



        struct timex txc;

        do_gettimeofday(&(txc.time));



        mapping = filp->f_mapping;

        inode = mapping->host;

        if (!count)

            goto out; /* skip atime */

        size = i_size_read(inode);

        if (pos < size) {

            retval = filemap_write_and_wait_range(mapping, pos,

                    pos + iov_length(iov, nr_segs) - 1);

            if (!retval) {

                retval = mapping->a_ops->direct_IO(READ, iocb,

                            iov, pos, nr_segs);

            }

            if (retval > 0) {

                *ppos = pos + retval;

                count -= retval;

            }



            /*

             * Btrfs can have a short DIO read if we encounter

             * compressed extents, so if there was an error, or if

             * we've already read everything we wanted to, or if

             * there was a short read because we hit EOF, go ahead

             * and return.  Otherwise fallthrough to buffered io for

             * the rest of the read.

             */

            if (retval < 0 || !count || *ppos >= size) {

                file_accessed(filp);

                goto out;

            }

        }

    }



    count = retval;

    for (seg = 0; seg < nr_segs; seg++) {

        read_descriptor_t desc;

        loff_t offset = 0;



        /*

         * If we did a short DIO read we need to skip the section of the

         * iov that we've already read data into.

         */

        if (count) {

            if (count > iov[seg].iov_len) {

                count -= iov[seg].iov_len;

                continue;

            }

            offset = count;

            count = 0;

        }



        desc.written = 0;

        desc.arg.buf = iov[seg].iov_base + offset;

        desc.count = iov[seg].iov_len - offset;

        if (desc.count == 0)

            continue;

        desc.error = 0;

        do_generic_file_read(filp, ppos, &desc, file_read_actor);

        retval += desc.written;

        if (desc.error) {

            retval = retval ?: desc.error;

            break;

        }

        if (desc.count > 0)

            break;

    }

out:

    return retval;

}
do_generic_file_read定义在mm/filemap.c文件中,该函数调用page cache层中相关的函数.如果所需数据存在与page cache中,并且数据不是dirty的,则从page cache中直接获取数据返回.如果数据在page cache中不存在,或者数据是dirty的,则page cache会引发读磁盘的操作.该函数的读磁盘并不是简单的只读取所需数据的所在的block,而是会有一定的预读机制来提高cache的命中率,减少磁盘访问的次数.
page cache层中真正读磁盘的操作为readpage系列,readpage系列函数具体指向的函数实现在fs/ext4/inode.c文件中定义,该文件中有很多个struct address_space_operation对象来对应与不同日志机制,我们选择linux默认的ordered模式的日志机制来描述I/O的整个流程, ordered模式对应的readpage系列函数如下所示.

[cpp] view plain copy

static const struct address_space_operations ext4_ordered_aops = {

    .readpage       = ext4_readpage,

    .readpages      = ext4_readpages,

    .writepage      = ext4_writepage,

    .write_begin        = ext4_write_begin,

    .write_end      = ext4_ordered_write_end,

    .bmap           = ext4_bmap,

    .invalidatepage     = ext4_invalidatepage,

    .releasepage        = ext4_releasepage,

    .direct_IO      = ext4_direct_IO,

    .migratepage        = buffer_migrate_page,

    .is_partially_uptodate  = block_is_partially_uptodate,

    .error_remove_page  = generic_error_remove_page,

};
为简化流程,我们选取最简单的ext4_readpage函数来说明,该函数实现位于fs/ext4/inode.c中,函数很简单,只是调用了mpage_readpage函数.mpage_readpage位于fs/mpage.c文件中,该函数生成一个IO请求,并提交给Generic block layer.

[cpp] view plain copy

int mpage_readpage(struct page *page, get_block_t get_block)

{

    struct bio *bio = NULL;

    sector_t last_block_in_bio = 0;

    struct buffer_head map_bh;

    unsigned long first_logical_block = 0;



    map_bh.b_state = 0;

    map_bh.b_size = 0;

    bio = do_mpage_readpage(bio, page, 1, &last_block_in_bio,

            &map_bh, &first_logical_block, get_block);

    if (bio)

        mpage_bio_submit(READ, bio);

    return 0;

}
Generic block layer会将该请求分发到具体设备的IO队列中,由I/O Scheduler去调用具体的driver接口获取所需的数据.

至此,在Guest vm中整个I/O的流程已经介绍完了,后续的文章会介绍I/O操作如何从Guest vm跳转到kvm及如何在qemu中模拟I/O设备.

参考资料:

1. read系统调用剖析:http://www.ibm.com/developerworks/cn/linux/l-cn-read/

转载：http://blog.csdn.net/dashulu/article/details/16820281
查看全文

相关阅读:
linux下java调用.so文件的方法1： JNI
在Eclipse中用SWT设计界面
 转：中文编码杂谈
 使用ObjectInputStream的readObject()方法如何判断读取到多个对象的结尾
 Java log4j详细教程
 java没有条件编译
 HTML参考手册
 javadoc 生成帮助文档时，注意以下几点
 Java中取小数点后两位(四种方法)
iOS开发UI篇—使用UItableview完成一个简单的QQ好友列表（二）

原文地址：https://www.cnblogs.com/wuchanming/p/4689701.html