一个类似于顶部的实用程序，用于监控GPU上的CUDA活动

我试图监控一个使用CUDA和MPI的进程，有没有办法我可以做到这一点，像命令“顶部”，但也监控GPU ?

当前回答

如果你只是想找到运行在gpu上的进程，你可以简单地使用下面的命令:

lsof /dev/nvidia*

对我来说，nvidia-smi和watch -n 1 nvidia-smi在大多数情况下已经足够了。有时nvidia-smi显示没有进程，但gpu内存用完了，所以我需要使用上面的命令来查找进程。

2019-10-22 12:32:00

其他回答

在Linux Mint和Ubuntu中，你可以尝试"nvidia-smi——loop=1"

2020-02-27 22:58:39

要获得使用资源的实时洞察，请执行:

Nvidia-smi -l

这将在每一秒循环并调用视图。

如果你不想在控制台历史记录中保留循环调用的过去痕迹，你也可以这样做:

观看-n0.1 nvidia-smi

其中0.1是时间间隔，单位为秒。

2016-03-03 07:33:43

您可以尝试nvtop，它类似于广泛使用的htop工具，但用于NVIDIA gpu。下面是nvtop的截图。

2019-03-09 12:46:55

这可能不够优雅，但你可以尝试一下

while true; do sleep 2; nvidia-smi; done

我也尝试了@Edric的方法，它很有效，但我更喜欢nvidia-smi的原始布局。

2015-11-10 00:02:40

在设备监控模式下运行nvidia-smi，例如:

$ nvidia-smi dmon -d 3 -s pcvumt
# gpu   pwr gtemp mtemp  mclk  pclk pviol tviol    sm   mem   enc   dec    fb  bar1 rxpci txpci
# Idx     W     C     C   MHz   MHz     %  bool     %     %     %     %    MB    MB  MB/s  MB/s
    0   273    54     -  9501  2025     0     0   100    11     0     0 18943    75  5906   659
    0   280    54     -  9501  2025     0     0   100    11     0     0 18943    75  7404   650
    0   277    54     -  9501  2025     0     0   100    11     0     0 18943    75  7386   719
    0   279    55     -  9501  2025     0     0    99    11     0     0 18945    75  6592   692
    0   281    55     -  9501  2025     0     0    99    11     0     0 18945    75  7760   641
    0   279    55     -  9501  2025     0     0    99    11     0     0 18945    75  7775   668
    0   279    55     -  9501  2025     0     0   100    11     0     0 18947    75  7589   690
    0   281    55     -  9501  2025     0     0    99    12     0     0 18947    75  7514   657
    0   279    55     -  9501  2025     0     0   100    11     0     0 18947    75  6472   558
    0   280    54     -  9501  2025     0     0   100    11     0     0 18947    75  7066   683

完整的细节在man nvidia-smi。

2022-11-24 22:43:12

一个类似于顶部的实用程序，用于监控GPU上的CUDA活动

推荐文章

最新文章

标签