我正在寻找一种从docker容器内使用GPU的方法。
容器将执行任意代码,所以我不想使用特权模式。
任何建议吗?
从以前的研究中,我了解到运行-v和/或LXC cgroup是要走的路,但我不确定如何把它拉下来
我正在寻找一种从docker容器内使用GPU的方法。
容器将执行任意代码,所以我不想使用特权模式。
任何建议吗?
从以前的研究中,我了解到运行-v和/或LXC cgroup是要走的路,但我不确定如何把它拉下来
当前回答
我们刚刚发布了一个实验性的GitHub存储库,它可以简化在Docker容器中使用NVIDIA gpu的过程。
其他回答
写一个更新的答案,因为大多数已经出现的答案现在已经过时了。
Docker 19.03之前的版本需要nvidia-docker2和——runtime=nvidia标志。
从Docker 19.03开始,你需要安装nvidia-container-toolkit包,然后使用——gpu all标志。
下面是一些基本原理,
包安装
根据Github的官方文档安装nvidia-container-toolkit包。
对于Redhat操作系统,执行以下命令:
$ distribution=$(. /etc/os-release;echo $ID$VERSION_ID)
$ curl -s -L https://nvidia.github.io/nvidia-docker/$distribution/nvidia-docker.repo | sudo tee /etc/yum.repos.d/nvidia-docker.repo
$ sudo yum install -y nvidia-container-toolkit
$ sudo systemctl restart docker
对于Debian操作系统,需要执行以下命令:
# Add the package repositories
$ distribution=$(. /etc/os-release;echo $ID$VERSION_ID)
$ curl -s -L https://nvidia.github.io/nvidia-docker/gpgkey | sudo apt-key add -
$ curl -s -L https://nvidia.github.io/nvidia-docker/$distribution/nvidia-docker.list | sudo tee /etc/apt/sources.list.d/nvidia-docker.list
$ sudo apt-get update && sudo apt-get install -y nvidia-container-toolkit
$ sudo systemctl restart docker
运行支持GPU的docker
docker run --name my_all_gpu_container --gpus all -t nvidia/cuda
请注意,标记——gpu all用于将所有可用的gpu分配给docker容器。
为docker容器分配特定的gpu(如果你的机器中有多个gpu可用)
docker run --name my_first_gpu_container --gpus device=0 nvidia/cuda
Or
docker run --name my_first_gpu_container --gpus '"device=0"' nvidia/cuda
要从docker容器中使用GPU,而不是使用本地docker,使用Nvidia-docker。要安装Nvidia docker,请使用以下命令
curl -s -L https://nvidia.github.io/nvidia-docker/gpgkey | sudo apt-key add -
curl -s -L https://nvidia.github.io/nvidia-docker/ubuntu16.04/amd64/nvidia-
docker.list | sudo tee /etc/apt/sources.list.d/nvidia-docker.list
sudo apt-get update
sudo apt-get install -y nvidia-docker
sudo pkill -SIGHUP dockerd # Restart Docker Engine
sudo nvidia-docker run --rm nvidia/cuda nvidia-smi # finally run nvidia-smi in the same container
翻译:
https://github.com/mviereck/x11docker硬件加速的说
硬件加速 OpenGL的硬件加速可以通过选项-g,——gpu实现。 在大多数情况下,这将与主机上的开源驱动程序开箱即用。否则,请查看wiki: feature dependencies。 闭源NVIDIA驱动程序需要一些设置,支持较少的x11docker X服务器选项。
这个脚本非常方便,因为它处理了所有的配置和设置。使用gpu在X上运行docker映像非常简单
x11docker --gpu imagename
NVIDIA最近的改进提供了一种更健壮的方式来实现这一点。
从本质上讲,他们已经找到了一种方法,可以避免在容器内部安装CUDA/GPU驱动程序,并使其与主机内核模块匹配。
相反,驱动程序在主机上,容器不需要它们。 现在需要修改docker-cli。
这很好,因为现在容器更加便携了。
Ubuntu上的一个快速测试:
# Install nvidia-docker and nvidia-docker-plugin
wget -P /tmp https://github.com/NVIDIA/nvidia-docker/releases/download/v1.0.1/nvidia-docker_1.0.1-1_amd64.deb
sudo dpkg -i /tmp/nvidia-docker*.deb && rm /tmp/nvidia-docker*.deb
# Test nvidia-smi
nvidia-docker run --rm nvidia/cuda nvidia-smi
详情见: 启用gpu的Docker容器 和:https://github.com/NVIDIA/nvidia-docker
如果可以使用docker,我不建议在主机上安装CUDA/cuDNN。至少从CUDA 8开始,就可以“站在巨人的肩膀上”,并在Docker Hub回购中使用nvidia/ CUDA的基础映像。如果不确定选择哪个版本,就选择最新最大的版本(如果进行深度学习,则使用cuDNN)。
一个启动CUDA容器:
mkdir ~/cuda11
cd ~/cuda11
echo "FROM nvidia/cuda:11.0-cudnn8-devel-ubuntu18.04" > Dockerfile
echo "CMD [\"/bin/bash\"]" >> Dockerfile
docker build --tag mirekphd/cuda11 .
docker run --rm -it --gpus 1 mirekphd/cuda11 nvidia-smi
样例输出:
(如果容器中没有找到NVIDIA -smi,不要尝试在那里安装它-它已经安装在带有NVIDIA GPU驱动程序的主机上,如果docker可以访问GPU,它应该从主机到容器系统可用):
+-----------------------------------------------------------------------------+
| NVIDIA-SMI 450.57 Driver Version: 450.57 CUDA Version: 11.0 |
|-------------------------------+----------------------+----------------------+
| GPU Name Persistence-M| Bus-Id Disp.A | Volatile Uncorr. ECC |
| Fan Temp Perf Pwr:Usage/Cap| Memory-Usage | GPU-Util Compute M. |
| | | MIG M. |
|===============================+======================+======================|
| 0 GeForce GTX 108... Off | 00000000:01:00.0 On | N/A |
| 0% 50C P8 17W / 280W | 409MiB / 11177MiB | 7% Default |
| | | N/A |
+-------------------------------+----------------------+----------------------+
先决条件
首先在主机上安装适当的支持最新CUDA版本的NVIDIA驱动程序(从NVIDIA driver Downloads下载,然后mv driver-file.run driver-file.sh && chmod +x driver-file.sh && ./driver-file.sh)。自CUDA 10.1以来,这些都是向前兼容的。 通过安装sudo apt get update && sudo apt get install nvidia-container-toolkit在docker中启用GPU访问(然后使用sudo systemctl restart docker重新启动docker守护进程)。