我正在寻找一种从docker容器内使用GPU的方法。

容器将执行任意代码,所以我不想使用特权模式。

任何建议吗?

从以前的研究中,我了解到运行-v和/或LXC cgroup是要走的路,但我不确定如何把它拉下来


当前回答

NVIDIA最近的改进提供了一种更健壮的方式来实现这一点。

从本质上讲,他们已经找到了一种方法,可以避免在容器内部安装CUDA/GPU驱动程序,并使其与主机内核模块匹配。

相反,驱动程序在主机上,容器不需要它们。 现在需要修改docker-cli。

这很好,因为现在容器更加便携了。

Ubuntu上的一个快速测试:

# Install nvidia-docker and nvidia-docker-plugin
wget -P /tmp https://github.com/NVIDIA/nvidia-docker/releases/download/v1.0.1/nvidia-docker_1.0.1-1_amd64.deb
sudo dpkg -i /tmp/nvidia-docker*.deb && rm /tmp/nvidia-docker*.deb

# Test nvidia-smi
nvidia-docker run --rm nvidia/cuda nvidia-smi

详情见: 启用gpu的Docker容器 和:https://github.com/NVIDIA/nvidia-docker

其他回答

要从docker容器中使用GPU,而不是使用本地docker,使用Nvidia-docker。要安装Nvidia docker,请使用以下命令

curl -s -L https://nvidia.github.io/nvidia-docker/gpgkey |  sudo apt-key add -
curl -s -L https://nvidia.github.io/nvidia-docker/ubuntu16.04/amd64/nvidia-
docker.list | sudo tee /etc/apt/sources.list.d/nvidia-docker.list
sudo apt-get update
sudo apt-get install -y nvidia-docker
sudo pkill -SIGHUP dockerd # Restart Docker Engine
sudo nvidia-docker run --rm nvidia/cuda nvidia-smi # finally run nvidia-smi in the same container

写一个更新的答案,因为大多数已经出现的答案现在已经过时了。

Docker 19.03之前的版本需要nvidia-docker2和——runtime=nvidia标志。

从Docker 19.03开始,你需要安装nvidia-container-toolkit包,然后使用——gpu all标志。

下面是一些基本原理,

包安装

根据Github的官方文档安装nvidia-container-toolkit包。

对于Redhat操作系统,执行以下命令:

$ distribution=$(. /etc/os-release;echo $ID$VERSION_ID)
$ curl -s -L https://nvidia.github.io/nvidia-docker/$distribution/nvidia-docker.repo | sudo tee /etc/yum.repos.d/nvidia-docker.repo

$ sudo yum install -y nvidia-container-toolkit
$ sudo systemctl restart docker

对于Debian操作系统,需要执行以下命令:

# Add the package repositories
$ distribution=$(. /etc/os-release;echo $ID$VERSION_ID)
$ curl -s -L https://nvidia.github.io/nvidia-docker/gpgkey | sudo apt-key add -
$ curl -s -L https://nvidia.github.io/nvidia-docker/$distribution/nvidia-docker.list | sudo tee /etc/apt/sources.list.d/nvidia-docker.list

$ sudo apt-get update && sudo apt-get install -y nvidia-container-toolkit
$ sudo systemctl restart docker

运行支持GPU的docker

docker run --name my_all_gpu_container --gpus all -t nvidia/cuda

请注意,标记——gpu all用于将所有可用的gpu分配给docker容器。

为docker容器分配特定的gpu(如果你的机器中有多个gpu可用)

docker run --name my_first_gpu_container --gpus device=0 nvidia/cuda

Or

docker run --name my_first_gpu_container --gpus '"device=0"' nvidia/cuda

NVIDIA最近的改进提供了一种更健壮的方式来实现这一点。

从本质上讲,他们已经找到了一种方法,可以避免在容器内部安装CUDA/GPU驱动程序,并使其与主机内核模块匹配。

相反,驱动程序在主机上,容器不需要它们。 现在需要修改docker-cli。

这很好,因为现在容器更加便携了。

Ubuntu上的一个快速测试:

# Install nvidia-docker and nvidia-docker-plugin
wget -P /tmp https://github.com/NVIDIA/nvidia-docker/releases/download/v1.0.1/nvidia-docker_1.0.1-1_amd64.deb
sudo dpkg -i /tmp/nvidia-docker*.deb && rm /tmp/nvidia-docker*.deb

# Test nvidia-smi
nvidia-docker run --rm nvidia/cuda nvidia-smi

详情见: 启用gpu的Docker容器 和:https://github.com/NVIDIA/nvidia-docker

在ubuntu 16.04上为cuda-8.0更新

安装docker https://www.digitalocean.com/community/tutorials/how-to-install-and-use-docker-on-ubuntu-16-04 构建以下映像,其中包括nvidia驱动程序和cuda工具包

Dockerfile

FROM ubuntu:16.04
MAINTAINER Jonathan Kosgei <jonathan@saharacluster.com>

# A docker container with the Nvidia kernel module and CUDA drivers installed

ENV CUDA_RUN https://developer.nvidia.com/compute/cuda/8.0/prod/local_installers/cuda_8.0.44_linux-run

RUN apt-get update && apt-get install -q -y \
  wget \
  module-init-tools \
  build-essential 

RUN cd /opt && \
  wget $CUDA_RUN && \
  chmod +x cuda_8.0.44_linux-run && \
  mkdir nvidia_installers && \
  ./cuda_8.0.44_linux-run -extract=`pwd`/nvidia_installers && \
  cd nvidia_installers && \
  ./NVIDIA-Linux-x86_64-367.48.run -s -N --no-kernel-module

RUN cd /opt/nvidia_installers && \
  ./cuda-linux64-rel-8.0.44-21122537.run -noprompt

# Ensure the CUDA libs and binaries are in the correct environment variables
ENV LIBRARY_PATH=$LD_LIBRARY_PATH:/usr/local/cuda-8.0/lib64
ENV PATH=$PATH:/usr/local/cuda-8.0/bin

RUN cd /opt/nvidia_installers &&\
    ./cuda-samples-linux-8.0.44-21122537.run -noprompt -cudaprefix=/usr/local/cuda-8.0 &&\
    cd /usr/local/cuda/samples/1_Utilities/deviceQuery &&\ 
    make

WORKDIR /usr/local/cuda/samples/1_Utilities/deviceQuery

运行容器

sudo docker命令-ti——device /dev/ nvidaa0:/dev/ nvidaa0——device /dev/ nvidaactl:/dev/ nvidaactl——device /dev/nvidia-uvm:/dev/nvidia-uvm <built-image> ./deviceQuery . uvm:/dev/nvidia-uvm

你应该看到类似的输出:

deviceQuery, CUDA Driver = CUDART, CUDA Driver Version = 8.0, CUDA Runtime Version = 8.0, NumDevs = 1, Device0 = GRID K520 结果=通过

我们刚刚发布了一个实验性的GitHub存储库,它可以简化在Docker容器中使用NVIDIA gpu的过程。