zoukankan      html  css  js  c++  java
  • PCI 和 PCI-E iommu

    本文将分析 PCI/PCIe 设备直接分配(Pass-through)和 SR-IOV, 以及三种 I/O 虚拟化方式的比较。

    1. PCI/PCI-E 设备直接分配给虚机 (PCI Pass-through)

    设备直接分配 (Device assignment)也称为 Device Pass-Through。

    先简单看看PCI 和 PCI-E 的区别(AMD CPU):

    (简单点看,PCI 卡的性能没有 PCI-E 高,因为 PCI-E 是直接连在 IOMMU 上,而 PCI 卡是连在一个 IO Hub 上。)

    主要的 PCI 设备类型:

    • Network cards (wired or wireless)
    • SCSI adapters
    • Bus controllers: USB, PCMCIA, I2C, FireWire, IDE
    • Graphics and video cards
    • Sound cards

    1.1 PCI/PCIe Pass-through 原理

    这种方式,允许将宿主机中的物理 PCI 设备直接分配给客户机使用。较新的x86平台已经支持这种类型,Intel 定义的 I/O 虚拟化技术成为 VT-d,AMD 的称为 AMD-V。KVM 支持客户机以独占方式访问这个宿主机的 PCI/PCI-E 设备。通过硬件支持的 VT-d 技术将设备分给客户机后,在客户机看来,设备是物理上连接在PCI或者PCI-E总线上的,客户机对该设备的I/O交互操作和实际的物理设备操作完全一样,不需要或者很少需要 KVM 的参与。运行在 VT-d 平台上的 QEMU/KVM,可以分配网卡、磁盘控制器、USB控制器、VGA 显卡等设备供客户机直接使用。
     
    几乎所有的 PCI 和 PCI-E 设备都支持直接分配,除了显卡以外(显卡的特殊性在这里)。PCI Pass-through 需要硬件平台 Intel VT-d 或者 AMD IOMMU 的支持。这些特性必须在 BIOS 中被启用。Red Hat Enterprise Linux 6.0 及以上版本支持热插拔的 PCI 设备直接分配到虚拟机。
     
    网卡直接分配:
     

    硬盘直接分配:

    • 一般 SATA 或者 SAS 等类型的硬盘的控制器都是直接接入到 PCI 或者  PCI-E 总线的,所以也可以将硬盘作为普通的PCI设备直接分配个客户机。需要注意的是,当分配硬盘时,实际上将其控制器作为一个整体分配到客户机中,因此需要在硬件平台上至少有另两个或者多个SATA或者 SAS控制器。 

    1.2 在 RedHat Linux 6 上使用 virt-manger 分配一个光纤卡给虚机

    准备工作:

    (1)在 BIOS 中打开 Intel VT-d 

    (2)在 Linux 内核中启用 PCI Pass-through

    添加 intel_iommu=on 到 /boot/grub/grub.conf 文件中。(在我的 RedHat Linux 6上,该文件是 /boot/grub.conf)

    (3)重启系统,使得配置生效

    实际分配:

    (1)使用 lspci -nn 命令找到待分配的 PCI 设备。这里以一个 FC 卡为例:

    使用 lspci 命令得到的 PCI 数字的含义,以后使用 libvirt API 分配设备时会用到:

    (2)使用 virsh nodedev-list 命令找到该设备的 PCI 编号

    (3)将设备从主机上解除

    (4)使用 virt-manager 将设备直接分配给一个启动了的虚拟机

     

    (5)添加好了后的效果

    (6)在虚机中查看该PCI设备

    (7)不再使用的话,需要在 virt-manager 中首先将该设备移除,然后在主机上重新挂载该设备

      

    1.3 在 RedHat Linux 6 上使用 qemu-kvm 分配一个光纤卡给虚机

    除了步骤(4),其他步骤同上面。

    1.4 设备直接分配让客户机的优势和不足

    • 好处:在执行 I/O 操作时大量减少甚至避免 VM-Exit 陷入到 Hypervisor 中,极大地提高了性能,可以达到几乎和原生系统一样的性能。VT-d 克服了 virtio 兼容性不好和 CPU 使用频率较高的问题。
    • 不足:(1)一台服务器主板上的空间比较有限,因此允许添加的 PCI 和 PCI-E 设备是有限的。大量使用 VT-d 独立分配设备给客户机,让硬件设备数量增加,这会增加硬件投资成本。(2)对于使用 VT-d 直接分配了设备的客户机,其动态迁移功能将受限,不过也可以使用热插拔或者libvirt 工具等方式来缓解这个问题。
    • 不足的解决方案:(1)在一台物理宿主机上,仅少数 I/O 如网络性能要求较高的客户机使用 VT-d直接分配设备,其他的使用纯模拟或者 virtio 已达到多个客户机共享同一个设备的目的 (2)对于网络I/O的解决办法,可以选择 SR-IOV 是一个网卡产生多个独立的虚拟网卡,将每个虚拟网卡分配个一个客户机使用。

    2. SR-IOV 设备分配

    2.1 原理

        VT-d 的性能非常好,但是它的物理设备只能分配给一个客户机使用。为了实现多个虚机共享一个物理设备,并且达到直接分配的目的,PCI-SIG 组织发布了 SR-IOV (Single Root I/O Virtualization and sharing) 规范,它定义了一个标准化的机制用以原生地支持实现多个客户机共享一个设备。不过,目前 SR-IOV (单根 I/O 虚拟化)最广泛地应用还是网卡上。 
     
    SR-IOV 使得一个单一的功能单元(比如,一个以太网端口)能看起来像多个独立的物理设备。一个带有 SR-IOV 功能的物理设备能被配置为多个功能单元。SR-IOV 使用两种功能(function):
    • 物理功能(Physical Functions,PF):这是完整的带有 SR-IOV 能力的PCIe 设备。PF 能像普通 PCI 设备那样被发现、管理和配置。
    • 虚拟功能(Virtual Functions,VF):简单的 PCIe 功能,它只能处理I/O。每个 VF 都是从 PF 中分离出来的。每个物理硬件都有一个 VF 数目的限制。一个 PF,能被虚拟成多个 VF 用于分配给多个虚拟机。
     
    Hypervisor 能将一个或者多个 VF 分配给一个虚机。在某一时刻,一个 VF 只能被分配给一个虚机。一个虚机可以拥有多个 VF。在虚机的操作系统看来,一个 VF 网卡看起来和一个普通网卡没有区别。SR-IOV 驱动是在内核中实现的。
     
    网卡 SR-IOV 的例子:

     

    光纤卡 SR-IOV 的例子:

    2.2 SR-IOV 的条件

    1. 需要 CPU 支持 Intel VT-x 和 VT-D (或者 AMD 的 SVM 和 IOMMU) 
    2. 需要有支持 SR-IOV 规范的设备:目前这种设备较多,比如Intel的很多中高端网卡等。
    3. 需要 QEMU/KAM 的支持。
     RedHat Linux 6.0 官方只完整测试了下面的几款 SR-IOV 网卡:
    • Intel® 82576NS Gigabit Ethernet Controller ( igb 驱动)
    • Intel® 82576EB Gigabit Ethernet Controller ( igb 驱动)
    • Intel® 82599ES 10 Gigabit Ethernet Controller ( ixgbe 驱动)
    • Intel® 82599EB 10 Gigabit Ethernet Controller ( ixgbe 驱动)

    2.3 分配 SR-IOV 设备的步骤

    手头没有支持SR-IOV的设备。这是 RedHat 上 SR-IOV 的配置步骤: Using SR-IOV

    简单来说,SR-IOV 分配步骤和设备直接分配相比基本类似,除了要使 PF 虚拟化成多个 VF 以外。

    2.4 优势和不足

    优势 不足
    1. 真正实现设备共享 (多个客户机共享一个 SR-IOV 设备的物理端口)
    2. 接近原生性能
    3. 相比 VT-d, SR-IOV 可以使用更少的设备来支持更多的客户机,可以提高数据中心的空间利用率。
    1. 对设备有依赖,目前只有部分设备支持 SR-IOV。RedHat Linux 只是测试了 Intel 的几款高端网卡。
    2. 使用 SR-IOV 时不方便动态迁移客户机。 这是因为这时候虚机直接使用主机上的物理设备,因此虚机的迁移(migiration)和保存(save)目前
  • 相关阅读:
    Using Resource File on DotNet
    C++/CLI VS CSharp
    JIT VS NGen
    [Tip: disable vc intellisense]VS2008 VC Intelisense issue
    UVa 10891 Game of Sum(经典博弈区间DP)
    UVa 10723 Cyborg Genes(LCS变种)
    UVa 607 Scheduling Lectures(简单DP)
    UVa 10401 Injured Queen Problem(简单DP)
    UVa 10313 Pay the Price(类似数字分解DP)
    UVa 10635 Prince and Princess(LCS N*logN)
  • 原文地址:https://www.cnblogs.com/dream397/p/13656294.html
Copyright © 2011-2022 走看看