当我运行nvidia-smi时,我得到以下消息:

初始化NVML失败:驱动程序/库版本不匹配

一小时前,我收到了同样的消息,卸载了我的CUDA库,我能够运行nvidia-smi,得到以下结果:

之后,我从NVIDIA官方页面下载了cuda-repo-ubuntu1604-8-0-local-ga2_8.0.61-1_amd64.deb,然后简单地:

sudo dpkg -i cuda-repo-ubuntu1604-8-0-local-ga2_8.0.61-1_amd64.deb
sudo apt-get update
sudo apt-get install cuda
export PATH=/usr/local/cuda-8.0/bin${PATH:+:${PATH}}

现在我已经安装了CUDA,但我得到了前面提到的不匹配错误。


一些可能有用的信息:

运行cat /proc/driver/nvidia/version得到:

NVRM version: NVIDIA UNIX x86_64 Kernel Module  378.13  Tue Feb  7 20:10:06 PST 2017
GCC version:  gcc version 5.4.0 20160609 (Ubuntu 5.4.0-6ubuntu1~16.04.4)

我正在运行Ubuntu 16.04.2 LTS (Xenial Xerus)。

内核发行版是4.4.0-66-generic。


当前回答

为了完整起见,我也遇到了这个问题。在我的案例中,因为我将Clang设置为默认编译器(使用update-alternatives), nvidia-driver-440编译失败(检查/var/crash/),即使apt没有发布任何警告。对我来说,解决方案是apt清除nvidia-*,设置cc回使用gcc,重新启动,并重新安装nvidia-driver-440。

其他回答

令人惊讶的是,重新启动解决了这个问题(我以为我已经尝试过了)。

Robert Crovella在评论中提到的解决方案可能对其他人也有用,因为它与我第一次遇到问题时解决问题的方法非常相似。

为了完整起见,我也遇到了这个问题。在我的案例中,因为我将Clang设置为默认编译器(使用update-alternatives), nvidia-driver-440编译失败(检查/var/crash/),即使apt没有发布任何警告。对我来说,解决方案是apt清除nvidia-*,设置cc回使用gcc,重新启动,并重新安装nvidia-driver-440。

正如etal所说,重新启动可以解决这个问题,但我认为不重新启动的过程会有所帮助。

对于中文,请查看我的博客->中文版

错误消息

NVML:驱动程序/库版本不匹配

告诉我们Nvidia驱动内核模块(kmod)有一个错误的版本,所以我们应该卸载这个驱动程序,然后加载正确的kmod版本

我们怎么做呢?

首先,我们应该知道加载了哪些驱动程序。

lsmod | grep nvidia

你可能会得到

nvidia_uvm            634880  8
nvidia_drm             53248  0
nvidia_modeset        790528  1 nvidia_drm
nvidia              12312576  86 nvidia_modeset,nvidia_uvm

我们的最终目标是卸载nvidia mod,所以我们应该卸载依赖于nvidia的模块:

sudo rmmod nvidia_drm
sudo rmmod nvidia_modeset
sudo rmmod nvidia_uvm

然后,卸载英伟达

sudo rmmod nvidia

故障排除

如果你得到类似rmmod: error: Module nvidia is in use这样的错误,这表明内核模块正在被使用,你应该杀死使用kmod的进程:

sudo lsof /dev/nvidia*

然后终止那些进程,然后继续卸载kmods。

Test

确认您成功卸载了这些kmods

lsmod | grep nvidia

你什么也得不到。然后确认你可以加载正确的驱动程序:

nvidia-smi

您应该得到正确的输出。

对我来说,有一个更简单的解决办法。在Fedora 33上,尝试以下操作:

rpm -qa | grep -i nvidia | grep f32

您应该有两个从以前版本的Fedora OpenGL列出的包。删除这些并重新启动。

删除并重新安装整个Nvidia软件包集是多余的。

我也遇到过同样的问题,我把我的解决方案贴在这里。

在我的例子中,NVRM版本为440.100,驱动程序版本为460.32.03。我的驱动程序是由sudo apt install caffe-cuda更新的,当时我没有注意到,但我从/var/log/apt/history.log中检查了它。

通过遵循我的NVRM版本,我只是使用sudo apt安装nvidia-driver-440,但它安装了450.102。我不知道为什么它安装了另一个版本,nvidia-smi显示为450.102.04。

总之,重启电脑后,一切都很好了。重新安装驱动程序后,我的CUDA仍然工作正常。

我没有删除/清除任何与Nvidia驱动程序相关的东西。运行sudo apt install nvidia-driver-440自动卸载460.32.03版本。