我正在寻找一种从docker容器内使用GPU的方法。
容器将执行任意代码,所以我不想使用特权模式。
任何建议吗?
从以前的研究中,我了解到运行-v和/或LXC cgroup是要走的路,但我不确定如何把它拉下来
我正在寻找一种从docker容器内使用GPU的方法。
容器将执行任意代码,所以我不想使用特权模式。
任何建议吗?
从以前的研究中,我了解到运行-v和/或LXC cgroup是要走的路,但我不确定如何把它拉下来
当前回答
我们刚刚发布了一个实验性的GitHub存储库,它可以简化在Docker容器中使用NVIDIA gpu的过程。
其他回答
好吧,我终于设法做到没有使用——特权模式。
我在ubuntu服务器14.04上运行,我使用的是最新的cuda (6.0.37 linux 13.04 64位)。
准备
在主机上安装nvidia驱动程序和cuda。(这可能有点棘手,所以我建议你遵循这个指南https://askubuntu.com/questions/451672/installing-and-testing-cuda-in-ubuntu-14-04)
注意:保留用于主机cuda安装的文件是非常重要的
使用lxc让Docker Daemon运行
我们需要使用lxc驱动程序运行docker守护进程,以便能够修改配置并赋予容器对设备的访问权。
一次性利用:
sudo service docker stop
sudo docker -d -e lxc
永久的配置 修改位于/etc/default/docker的docker配置文件 通过添加'-e lxc'更改DOCKER_OPTS行 这是我修改后的线条
DOCKER_OPTS="--dns 8.8.8.8 --dns 8.8.4.4 -e lxc"
然后使用重新启动守护进程
sudo service docker restart
如何检查守护进程是否有效使用lxc驱动程序?
docker info
执行驱动行应该是这样的:
Execution Driver: lxc-1.0.5
使用NVIDIA和CUDA驱动程序构建图像。
下面是一个基本的Dockerfile来构建一个CUDA兼容的映像。
FROM ubuntu:14.04
MAINTAINER Regan <http://stackoverflow.com/questions/25185405/using-gpu-from-a-docker-container>
RUN apt-get update && apt-get install -y build-essential
RUN apt-get --purge remove -y nvidia*
ADD ./Downloads/nvidia_installers /tmp/nvidia > Get the install files you used to install CUDA and the NVIDIA drivers on your host
RUN /tmp/nvidia/NVIDIA-Linux-x86_64-331.62.run -s -N --no-kernel-module > Install the driver.
RUN rm -rf /tmp/selfgz7 > For some reason the driver installer left temp files when used during a docker build (i don't have any explanation why) and the CUDA installer will fail if there still there so we delete them.
RUN /tmp/nvidia/cuda-linux64-rel-6.0.37-18176142.run -noprompt > CUDA driver installer.
RUN /tmp/nvidia/cuda-samples-linux-6.0.37-18176142.run -noprompt -cudaprefix=/usr/local/cuda-6.0 > CUDA samples comment if you don't want them.
RUN export LD_LIBRARY_PATH=$LD_LIBRARY_PATH:/usr/local/cuda/lib64 > Add CUDA library into your PATH
RUN touch /etc/ld.so.conf.d/cuda.conf > Update the ld.so.conf.d directory
RUN rm -rf /temp/* > Delete installer files.
运行映像。
首先,您需要确定与您的设备相关联的主号码。 最简单的方法是执行以下命令:
ls -la /dev | grep nvidia
如果结果为空白,则在主机上启动其中一个示例即可。 结果应该是这样的 如您所见,在组和日期之间有一组2个数字。 这两个号码被称为主号码和副号码(按此顺序书写),并设计一个设备。 为了方便起见,我们只使用主号。
为什么要激活lxc驱动? 使用lxc conf选项允许我们的容器访问这些设备。 选项是:(我建议使用*作为次要编号,因为它减少了运行命令的长度)
——lxcc -conf=' lxcc .cgroup.devices.allow = c[主要号码]:[次要号码或*]rwm'
所以如果我想启动一个容器(假设你的图像名称是cuda)。
docker run -ti --lxc-conf='lxc.cgroup.devices.allow = c 195:* rwm' --lxc-conf='lxc.cgroup.devices.allow = c 243:* rwm' cuda
Regan的回答很好,但有点过时了,因为正确的方法是避免使用lxc执行上下文,因为Docker从Docker 0.9开始就放弃了lxc作为默认执行上下文。
相反,最好通过——device标志告诉docker nvidia设备,并且只使用本机执行上下文而不是lxc。
环境
这些指令在以下环境中进行了测试:
Ubuntu 14.04 CUDA 6.5 AWS GPU实例。
在主机上安装nvidia驱动程序和cuda
请参阅运行Ubuntu 14.04的AWS GPU实例上的CUDA 6.5来获得您的主机设置。
安装码头工人
$ sudo apt-key adv --keyserver hkp://keyserver.ubuntu.com:80 --recv-keys 36A1D7869245C8950F966E92D8576A8BA88D21E9
$ sudo sh -c "echo deb https://get.docker.com/ubuntu docker main > /etc/apt/sources.list.d/docker.list"
$ sudo apt-get update && sudo apt-get install lxc-docker
找到你的nvidia设备
ls -la /dev | grep nvidia
crw-rw-rw- 1 root root 195, 0 Oct 25 19:37 nvidia0
crw-rw-rw- 1 root root 195, 255 Oct 25 19:37 nvidiactl
crw-rw-rw- 1 root root 251, 0 Oct 25 19:37 nvidia-uvm
运行预安装nvidia驱动的Docker容器
我已经创建了一个预安装cuda驱动程序的docker映像。如果您想知道这个映像是如何构建的,dockerfile可以在dockerhub上找到。
您需要自定义此命令以匹配您的nvidia设备。以下是对我有效的方法:
$ sudo docker run -ti --device /dev/nvidia0:/dev/nvidia0 --device /dev/nvidiactl:/dev/nvidiactl --device /dev/nvidia-uvm:/dev/nvidia-uvm tleyden5iwx/ubuntu-cuda /bin/bash
检查CUDA是否正确安装
这应该在刚刚启动的docker容器中运行。
安装CUDA样本:
$ cd /opt/nvidia_installers
$ ./cuda-samples-linux-6.5.14-18745345.run -noprompt -cudaprefix=/usr/local/cuda-6.5/
构建deviceQuery示例:
$ cd /usr/local/cuda/samples/1_Utilities/deviceQuery
$ make
$ ./deviceQuery
如果一切正常,您应该看到以下输出:
deviceQuery, CUDA Driver = CUDART, CUDA Driver Version = 6.5, CUDA Runtime Version = 6.5, NumDevs = 1, Device0 = GRID K520
Result = PASS
我们刚刚发布了一个实验性的GitHub存储库,它可以简化在Docker容器中使用NVIDIA gpu的过程。
如果可以使用docker,我不建议在主机上安装CUDA/cuDNN。至少从CUDA 8开始,就可以“站在巨人的肩膀上”,并在Docker Hub回购中使用nvidia/ CUDA的基础映像。如果不确定选择哪个版本,就选择最新最大的版本(如果进行深度学习,则使用cuDNN)。
一个启动CUDA容器:
mkdir ~/cuda11
cd ~/cuda11
echo "FROM nvidia/cuda:11.0-cudnn8-devel-ubuntu18.04" > Dockerfile
echo "CMD [\"/bin/bash\"]" >> Dockerfile
docker build --tag mirekphd/cuda11 .
docker run --rm -it --gpus 1 mirekphd/cuda11 nvidia-smi
样例输出:
(如果容器中没有找到NVIDIA -smi,不要尝试在那里安装它-它已经安装在带有NVIDIA GPU驱动程序的主机上,如果docker可以访问GPU,它应该从主机到容器系统可用):
+-----------------------------------------------------------------------------+
| NVIDIA-SMI 450.57 Driver Version: 450.57 CUDA Version: 11.0 |
|-------------------------------+----------------------+----------------------+
| GPU Name Persistence-M| Bus-Id Disp.A | Volatile Uncorr. ECC |
| Fan Temp Perf Pwr:Usage/Cap| Memory-Usage | GPU-Util Compute M. |
| | | MIG M. |
|===============================+======================+======================|
| 0 GeForce GTX 108... Off | 00000000:01:00.0 On | N/A |
| 0% 50C P8 17W / 280W | 409MiB / 11177MiB | 7% Default |
| | | N/A |
+-------------------------------+----------------------+----------------------+
先决条件
首先在主机上安装适当的支持最新CUDA版本的NVIDIA驱动程序(从NVIDIA driver Downloads下载,然后mv driver-file.run driver-file.sh && chmod +x driver-file.sh && ./driver-file.sh)。自CUDA 10.1以来,这些都是向前兼容的。 通过安装sudo apt get update && sudo apt get install nvidia-container-toolkit在docker中启用GPU访问(然后使用sudo systemctl restart docker重新启动docker守护进程)。
在ubuntu 16.04上为cuda-8.0更新
安装docker https://www.digitalocean.com/community/tutorials/how-to-install-and-use-docker-on-ubuntu-16-04 构建以下映像,其中包括nvidia驱动程序和cuda工具包
Dockerfile
FROM ubuntu:16.04
MAINTAINER Jonathan Kosgei <jonathan@saharacluster.com>
# A docker container with the Nvidia kernel module and CUDA drivers installed
ENV CUDA_RUN https://developer.nvidia.com/compute/cuda/8.0/prod/local_installers/cuda_8.0.44_linux-run
RUN apt-get update && apt-get install -q -y \
wget \
module-init-tools \
build-essential
RUN cd /opt && \
wget $CUDA_RUN && \
chmod +x cuda_8.0.44_linux-run && \
mkdir nvidia_installers && \
./cuda_8.0.44_linux-run -extract=`pwd`/nvidia_installers && \
cd nvidia_installers && \
./NVIDIA-Linux-x86_64-367.48.run -s -N --no-kernel-module
RUN cd /opt/nvidia_installers && \
./cuda-linux64-rel-8.0.44-21122537.run -noprompt
# Ensure the CUDA libs and binaries are in the correct environment variables
ENV LIBRARY_PATH=$LD_LIBRARY_PATH:/usr/local/cuda-8.0/lib64
ENV PATH=$PATH:/usr/local/cuda-8.0/bin
RUN cd /opt/nvidia_installers &&\
./cuda-samples-linux-8.0.44-21122537.run -noprompt -cudaprefix=/usr/local/cuda-8.0 &&\
cd /usr/local/cuda/samples/1_Utilities/deviceQuery &&\
make
WORKDIR /usr/local/cuda/samples/1_Utilities/deviceQuery
运行容器
sudo docker命令-ti——device /dev/ nvidaa0:/dev/ nvidaa0——device /dev/ nvidaactl:/dev/ nvidaactl——device /dev/nvidia-uvm:/dev/nvidia-uvm <built-image> ./deviceQuery . uvm:/dev/nvidia-uvm
你应该看到类似的输出:
deviceQuery, CUDA Driver = CUDART, CUDA Driver Version = 8.0, CUDA Runtime Version = 8.0, NumDevs = 1, Device0 = GRID K520 结果=通过