zoukankan      html  css  js  c++  java
  • 在linux服务器上搭建nvidia-docker环境

    docker相当于一个容器,其可以根据你所需要的运行环境构建相应的运行环境,此时各个环境之间彼此隔离,就不会存在在需要跑一个新的代码的时候破坏原来跑的代码所需要的环境,各个环境之间彼此隔离开,好像一个个容器将其隔离开一样

    由于docker只针对在CPU上面跑的情况,对于需要在GPU上面运行的服务器,其提供了一个nvidia-docker

    sudo apt-get install -y nvidia-docker2
    sudo pkill -SIGHUP docker

    对于怎么在服务器子账户上面搭建nvidia-docker,在百度上个个地方讲的都不一样,因此,在谷歌上查阅了相关的文档之后,将在服务器子账户上搭建nvidia-docker的方法陈列如下

    简单的来说,要安装nvidia-docker总共的步骤分为三步:

    Install NVIDIA driver
    Install docker
    Install nvidia-docker
    • 安装显卡驱动

    对于我们的服务器甚至大多数服务器来说,这一步都是在装机的时候必备的,因此这一步我们直接忽略,具体问题可以百度

    • 安装docker

    docker有两种可用的版本:社区办(CE)和企业版(EE),正如英伟达显卡驱动器,我们需要知道linux版本来选择合适的安装文件,以下的安装版本是在ubuntu16.04上面安装社区版

    安装docker步骤如下

    • 首先,我们需要将存在于电脑上的老的版本的docker移除,如果你可以确定这是你第一次在你的机器上安装docker,那么这一步就可以省略,否则你最好执行一下以下的命令
    sudo apt-get remove docker docker-engine docker.io

    如果docker没有在你的机器上安装,那么apt-get将会告诉你这个问题

    • 接下来,我们将安装docker,推荐从repository(知识库)里面安装docker,这样可以实现当新的版本出现的时候,我们也可以从repository里面很容易的获得更新

             我们为了从repository里面安装docker,我们需要首先建立docker repository,通常,我们需要更新apt包

    • 更新apt package index
    sudo apt-get update
    • 然后,安装软件包以允许apt通过HTTP
    sudo apt-get install 
        apt-transport-https 
        ca-certificates 
        curl 
        software-properties-common
    • 接下来,加入docker的官方GPG密钥
    curl -fsSL https://download.docker.com/linux/ubuntu/gpg | sudo pt-key add -
    • 验证下列指令输出的是9DC8 5822 9FC7 DD38 854A E2D8 8D81 803C 0EBF CD88
    sudo apt-key fingerprint 0EBFCD88
    •  接下来,通过运行下面的指令告诉apt用stable repository
    sudo add-apt-repository 
        "deb [arch=amd64] https://download.docker.com/linux/ubuntu 
         (usb_release -cs) 
         stable"
    • 在这里,我们就已经完成了对知识库的建立,接下来,我们将更新apt package index并且安装Docker CE
    sudo apt-get update && apt-get install docker-ce

    然后这一步过后就是,等待安装等待安装,会下载很久,继续等待

    • 安装完docker之后,当然我们需要验证一下我们所安装的是否成功

    利用著名的hello-world 镜像来测验我们安装的docker是否成功

    sudo docker run hello-world

    如果得到如下的界面,证明docker安装成功

    • 安装nvidia-docker

    在下一步,我们将通过安装nvidia-docker来完成我们的工作,其是在docker中的一个plug来帮助容器在GPU环境下的使用

    首先,我们需要将已有的nvidia-docker移除

    docker volume ls -q -f driver=nvidia-docker |xargs -r -I{} -n1 docker ps -q -a -f volum={} | xargs -r docker
    sudo apt-get purge -y nvidia-docker

    以前没有安装过的话这一步可以直接跳过

    接下来,我们将加入必要的repository,然后更新apt package index

    curl -s -L https://nvidia.github.io/nvidia-docker/gpgkey | 
        sudo apt-key add -
    
    curl -s -L https://nvidia.github.io/nvidia-docker/ubuntu16.04/amd64/nvidia-docker.list | 
        sudo tee /etc/apt/sources.list.d/nvidia-docker.list
    
    sudo apt-get update

    最后,我们将安装nvidia-docker

    sudo apt-get install -y nvidia-docker2
    sudo pkill -SIGHUP dockerd

    安装成功之后,对我们所安装的nvidia-docker进行验证

    docker run --runtime=nvidia --rm nvidia/cuda nvidia-smi

    如果这是你第一次用如下的指令,你可以看到docker正在尝试下载一些东西

    到这里,整个安装步骤全部结束了

    号外!在有一次服务器显卡崩了之后,重新安装显卡驱动之后,竟然“惊喜”地发现我的nvidia-docker环境竟然不在了,但是输入

    docker version

    时显示docker是存在的,因此就只需要按照前面的安装步骤安装nvidia-docker就可以,安装成功之后会发现之前根据dockerfile搭建的实验环境仍然是在的,万幸!

    转载于:https://www.cnblogs.com/Cucucudeblog/p/10425978.html

  • 相关阅读:
    花儿飘落何处
    别了,攀枝花
    致我心爱的梦中女孩
    解锁华为云AI如何助力无人车飞驰“新姿势”,大赛冠军有话说
    技术实操丨HBase 2.X版本的元数据修复及一种数据迁移方式
    技术实践丨手把手教你使用MQTT方式对接华为IoT平台 华为云开发者社区
    必须收藏:20个开发技巧教你开发高性能计算代码
    原来AI也可以如此简单!教你从0到1开发开源知识问答机器人
    诸多老牌数据仓库厂商当前,Snowflake如何创近12年最大IPO金额
    详解GaussDB(DWS) explain分布式执行计划
  • 原文地址:https://www.cnblogs.com/klausage/p/11865054.html
Copyright © 2011-2022 走看看