zoukankan      html  css  js  c++  java
  • Dell服务器安装vGPU

    环境信息

    服务器型号

    系统版本

    驱动版本

    Dell R740xd

    ESXi6.5u3 15177306

    NVIDIA-VMware-440.87-1OEM.650.0.0.4598673.x86

    Dell R940xa

    ESXi6.5u3 15177306

    NVIDIA-VMware-440.87-1OEM.650.0.0.4598673.x86

    GPU型号

    Nvidia Tesla V100

     

    备注:驱动版本和系统版本一定要对应,系统版本必须是ESXi6.5u3或以上,建议使用6.7版本

    一、ESXi主机配置

    1ESXi主机安装GPU驱动

    ESXi主机开启ssh,用winscp软件将驱动传到主机下,迁移或者关闭主机上所有虚拟机,然后将主机置入维护模式,并安装驱动

     安装驱动,返回值successfully则表示安装成

     卸载驱动用如下命令

     查看驱动是否安装成功

    2、修改BIOS设置

    Memory Mapped I/O Base 设置为 512 GB(默认为 56 TB)或 12 TB(如果服务器的 RAM 大于 512 GB):重新引导系统后生效

     

    此问题在 R740 用户硬件手册中介绍如下:

    Memory Mapped I/O above 4 GB - 启用或禁用要求大量内存的 PCIe 设备支持。仅 64 位操作系统可启用此选项。此选项默认为已启用。

    Memory Mapped I/O above Base - 当设置为 12 TB 时,系统将 MMIO 库映射到 12 TB。需要 44 PCIe 寻址的操作系统可启用此选项。
    当设置为 512 GB 时,系统将 MMIO 库映射到 512 GB,并将最大内存支持减少到低于 512 GB。仅针对 4 GPU DGMA 问题启用此选项。此选项默认设置为 56 TB

    注意:设置此选项会将内存限制为512GB(如果已设置为512GB

    3、查看GPU信息

    使用命令nvidia-smi查看是否显示GPU信息,如下:

    4vCenter设置图形共享模式

    在确认驱动状态没问题以后,我们登陆vCenter,定位到主机-配置-图形,编辑主机图形设置,可以看到默认是共享模式,也就是vsga,我们需要切换到“直接共享“才能使用vGPU

     

    2GPU分配策略,在有多个GPU的时候生效。

    默认最佳性能模式,会在所有可能的GPU上去运行虚拟机,即VM1运行在GPU1VM2运行在GPU2,以此类推,尽可能平均的分布虚拟机,不会让GPU闲着。

    GPU整合模式,会在一个GPU核心上运行先启动的虚拟机,直到当前GPU没有资源才会去使用下一个GPU核心,这个模式多用在同一台服务器上运行多个vGPU profile的情况下。

     

     除了主机的图形选项,针对每个GPU也都可以单独设置共享模式,第一次使用需要在这里再切换一下,主要是需要重启xorg服务来改变配置,不同vSphere版本界面可能不能,部分vSphere 6.5早期版本需要手动重启xorg服务

     二、虚拟机配置vGPU

    版本兼容性列表

    1windows配置vGPU

    系统版本:win2008R2win2012R2win2016R2win2012R2官网没有企业版,所以只能安装标准版)

    系统安装完成后关闭防火墙,打开远程桌面。

    注:虚拟机添加vGPU安装驱动后,虚拟桌面连接失效,必须开启远程桌面连接或删除共享pci直通

    安装驱动后Nvidia控制面板打不开或者报错,解决办法:安装驱动精灵,升级显卡驱动后重启。

    授权vGPU,打开Nvidia控制面板,输入License Server IP以及固定的端口号7070 ,重启后查看授权服务器是否生效

    2Centos7.8配置vGPU

    2.1、关闭防火墙和selinux

    修改/etc/selinux/config文件

    SELINUX=disabled

    2.2、查看最新内核版本并更新

     当前版本为3.10.0-1127.el7,最新版为以下3.10.0-1127.13.1.el7

     安装以下更新包,重启后查看是否生效

     

    检测NVIDIA驱动是否存在

     

    2.3、禁用Nouveau驱动

    查看nouveau是否运行,如有输出结果即为运行

    修改/lib/modprobe.d/dist-blacklist.conf 文件

    blacklist nvidiafb注释,并添加以下两行内容

    blacklist nouveau

    options  nouveau modeset=0

     

    2.4重建 initramfs image

    # mv /boot/initramfs-$(uname -r).img  /boot/initramfs-$(uname -r).img.bak

    # dracut /boot/initramfs-$(uname -r).img $(uname -r)

     安装gccgcc-c++

    2.5、安装NVIDIA驱动

    添加可执行权限

    # chmod +x NVIDIA-Linux-x86_64-440.87-grid.run

    退出X-server图形,进入文本模式

    # init 3

    进入驱动目录安装驱动程序

    默认Yes

     

    Install and overwrite exis

     

     

     结束安装后重启虚拟机

    2.6、修改授权配置文件

    进入/etc/nvidia目录,查看是否有gridd.conf文件

    如果没有,复制gridd.conf.template此文件,然后命名gridd.conf,在修改此文件内容

     

    添加vGPU授权服务器IP和端口号

     

    2.7vGPU授权

    重启nvidia服务,登录授权服务器查看是否已有授权

    # systemctl restart nvidia-gridd.service

     登陆license服务器查看是否有授权

    http://10.86.192.8:8080/licserver

     关于单个VM使用多个vGPUESXi版本必须是6.7u3及以上,首先ESXi需要升级到6.7U3的版本才支持,其次虚拟机兼容性也需要修改为vSphere 6.7 Update 2或之后的版本,第三只有多个Q或者C系列的vGPU能添加到单个虚拟机上,而且也会有最低显存设置。

     

     

     

  • 相关阅读:
    git(1)-git关联GitHub-windows-转载
    jenkins(4)-jenkins配置邮件通知
    jenkins(3)-linux下安装jenkins(yum install方式)
    【PAT甲级】1090 Highest Price in Supply Chain (25 分)(DFS)
    【PAT甲级】1087 All Roads Lead to Rome (30 分)(MAP【int,string】,邻接表,DFS,模拟,SPFA)
    【PAT甲级】1018 Public Bike Management (30 分)(DFS,SPFA)
    Educational Codeforces Round 61 (Rated for Div. 2) G(线段树,单调栈)
    Atcoder Grand Contest 032C(欧拉回路,DFS判环)
    Educational Codeforces Round 62 (Rated for Div. 2)E(染色DP,构造,思维,组合数学)
    Atcoder Grand Contest 031C(构造,思维,异或,DFS)
  • 原文地址:https://www.cnblogs.com/xiaoren112/p/14060599.html
Copyright © 2011-2022 走看看