当我运行nvidia-smi时,我得到以下消息:
初始化NVML失败:驱动程序/库版本不匹配
一小时前,我收到了同样的消息,卸载了我的CUDA库,我能够运行nvidia-smi,得到以下结果:
之后,我从NVIDIA官方页面下载了cuda-repo-ubuntu1604-8-0-local-ga2_8.0.61-1_amd64.deb,然后简单地:
sudo dpkg -i cuda-repo-ubuntu1604-8-0-local-ga2_8.0.61-1_amd64.deb
sudo apt-get update
sudo apt-get install cuda
export PATH=/usr/local/cuda-8.0/bin${PATH:+:${PATH}}
现在我已经安装了CUDA,但我得到了前面提到的不匹配错误。
一些可能有用的信息:
运行cat /proc/driver/nvidia/version得到:
NVRM version: NVIDIA UNIX x86_64 Kernel Module 378.13 Tue Feb 7 20:10:06 PST 2017
GCC version: gcc version 5.4.0 20160609 (Ubuntu 5.4.0-6ubuntu1~16.04.4)
我正在运行Ubuntu 16.04.2 LTS (Xenial Xerus)。
内核发行版是4.4.0-66-generic。
我也遇到过同样的问题,我把我的解决方案贴在这里。
在我的例子中,NVRM版本为440.100,驱动程序版本为460.32.03。我的驱动程序是由sudo apt install caffe-cuda更新的,当时我没有注意到,但我从/var/log/apt/history.log中检查了它。
通过遵循我的NVRM版本,我只是使用sudo apt安装nvidia-driver-440,但它安装了450.102。我不知道为什么它安装了另一个版本,nvidia-smi显示为450.102.04。
总之,重启电脑后,一切都很好了。重新安装驱动程序后,我的CUDA仍然工作正常。
我没有删除/清除任何与Nvidia驱动程序相关的东西。运行sudo apt install nvidia-driver-440自动卸载460.32.03版本。
我有这个问题,其他的治疗方法都不管用。错误消息是不透明的,但是检查dmesg的输出是关键:
[ 10.118255] NVRM: API mismatch: the client has the version 410.79, but
NVRM: this kernel module has the version 384.130. Please
NVRM: make sure that this kernel module and all NVIDIA driver
NVRM: components have the same version.
然而,我已经完全删除了384版本,并删除了所有剩余的内核驱动程序nvidia-384*。但即使重启后,我还是收到了这个。看到这一点意味着内核仍然编译到384号引用,但它只找到410号。所以我重新编译了内核:
uname -a # Find the kernel it's using
Linux blah 4.13.0-43-generic #48~16.04.1-Ubuntu SMP Thu May 17 12:56:46 UTC 2018 x86_64 x86_64 x86_64 GNU/Linux
update-initramfs -c -k 4.13.0-43-generic # Recompile it
reboot
然后就成功了。
在删除384个文件后,我仍然有384个文件:
/var/lib/dkms/nvidia-XXX/XXX.YY/4.13.0-43-generic / x86_64 /模块
/lib/modules/4.13.0-43-generic /内核/驱动程序
我建议使用locate命令(默认没有安装),而不是每次都搜索文件系统。
我在Ubuntu 16.04上使用Nvidia -348包(Ubuntu 16.04上的最新Nvidia版本)时也遇到了这种情况。
不过,我可以通过专有GPU驱动程序PPA安装nvidia-390来解决这个问题。
因此,在Ubuntu 16.04上解决上述问题的方法是这样做的:
Sudo add-apt-repository ppa:graphics-drivers/ppa
Sudo apt-get update
安装nvidia-390
注意:本指南假设Ubuntu安装干净。如果您安装了以前的驱动程序,可能需要重新启动以重新加载所有内核模块。
为什么会发生版本不匹配,我们如何防止它再次发生?
您可能会发现nvidia-*的版本在这些位置是不同的:
DPKG -l | grep nvidia(查看nvidia-utils-xxx包
版),
cat /proc/driver/nvidia/version(查看内核的版本
模块,460.56 -例如)
重新启动应该可以工作,但是您可能希望通过修改/etc/apt/sources.list来禁止这个包的自动更新。D /文件或简单地通过执行apt-mark hold nvidia-utils-version_number命令保存包。
附注:一些内容是受此启发的(原始说明是中文的,所以我参考了翻译版本)