当我运行nvidia-smi时,我得到以下消息:

初始化NVML失败:驱动程序/库版本不匹配

一小时前,我收到了同样的消息,卸载了我的CUDA库,我能够运行nvidia-smi,得到以下结果:

之后,我从NVIDIA官方页面下载了cuda-repo-ubuntu1604-8-0-local-ga2_8.0.61-1_amd64.deb,然后简单地:

sudo dpkg -i cuda-repo-ubuntu1604-8-0-local-ga2_8.0.61-1_amd64.deb
sudo apt-get update
sudo apt-get install cuda
export PATH=/usr/local/cuda-8.0/bin${PATH:+:${PATH}}

现在我已经安装了CUDA,但我得到了前面提到的不匹配错误。


一些可能有用的信息:

运行cat /proc/driver/nvidia/version得到:

NVRM version: NVIDIA UNIX x86_64 Kernel Module  378.13  Tue Feb  7 20:10:06 PST 2017
GCC version:  gcc version 5.4.0 20160609 (Ubuntu 5.4.0-6ubuntu1~16.04.4)

我正在运行Ubuntu 16.04.2 LTS (Xenial Xerus)。

内核发行版是4.4.0-66-generic。


当前回答

我将容器提交到Docker映像中。然后我用这个Docker映像重新创建了另一个容器,问题就解决了。

其他回答

重新引导。

如果问题仍然存在:

sudo rmmod nvidia_drm
sudo rmmod nvidia_modeset
sudo rmmod nvidia
nvidia-smi

CentOS和Red Hat Enterprise Linux (RHEL)操作系统:

cd /boot
mv initramfs-$(uname -r).img /boot/initramfs-$(uname -r).img.bak
dracut -vf initramfs-$(uname -r).img $(uname -r)

Then

reboot

对于 Debian/Ubuntu:

update-initramfs -u

如果问题仍然存在:

apt install -y dkms && dkms install -m nvidia -v 440.82

将440.82更改为实际版本。

提示:获取Nvidia驱动程序版本:

ls /usr/src

您将找到Nvidia驱动程序目录,例如Nvidia -440.82。


此外,您可以删除所有Nvidia软件包并重新安装驱动程序:

apt purge nvidia*
apt purge *cuda*

# Check
apt list -i |grep nvidia
apt list -i |grep cuda

对我来说,有一个更简单的解决办法。在Fedora 33上,尝试以下操作:

rpm -qa | grep -i nvidia | grep f32

您应该有两个从以前版本的Fedora OpenGL列出的包。删除这些并重新启动。

删除并重新安装整个Nvidia软件包集是多余的。

前两个答案不能解决我的问题。我在英伟达官方论坛上找到了一个解决方案。

以下错误信息可能是由于使用不同的方法安装了两个不同版本的驱动程序而导致的。例如,通过APT和官方安装程序安装Nvidia驱动。

初始化NVML失败:驱动程序/库版本不匹配

为了解决这个问题,只需要执行以下两个命令中的一个。

sudo apt-get --purge remove "*nvidia*"
sudo /usr/bin/nvidia-uninstall

我在Ubuntu 16.04上使用Nvidia -348包(Ubuntu 16.04上的最新Nvidia版本)时也遇到了这种情况。

不过,我可以通过专有GPU驱动程序PPA安装nvidia-390来解决这个问题。

因此,在Ubuntu 16.04上解决上述问题的方法是这样做的:

Sudo add-apt-repository ppa:graphics-drivers/ppa Sudo apt-get update 安装nvidia-390

注意:本指南假设Ubuntu安装干净。如果您安装了以前的驱动程序,可能需要重新启动以重新加载所有内核模块。

为什么会发生版本不匹配,我们如何防止它再次发生?

您可能会发现nvidia-*的版本在这些位置是不同的:

DPKG -l | grep nvidia(查看nvidia-utils-xxx包 版), cat /proc/driver/nvidia/version(查看内核的版本 模块,460.56 -例如)

重新启动应该可以工作,但是您可能希望通过修改/etc/apt/sources.list来禁止这个包的自动更新。D /文件或简单地通过执行apt-mark hold nvidia-utils-version_number命令保存包。

附注:一些内容是受此启发的(原始说明是中文的,所以我参考了翻译版本)