一个类似于顶部的实用程序，用于监控GPU上的CUDA活动

我试图监控一个使用CUDA和MPI的进程，有没有办法我可以做到这一点，像命令“顶部”，但也监控GPU ?

当前回答

最近，我写了一个名为nvitop的监控工具，交互式NVIDIA-GPU进程查看器。

它是用纯Python编写的，易于安装。

从PyPI安装:

pip3 install --upgrade nvitop

从GitHub安装最新版本(推荐):

pip3 install git+https://github.com/XuehaiPan/nvitop.git#egg=nvitop

作为资源监视器运行:

nvitop -m

nvitop将像nvidia-smi一样显示GPU状态，但有额外的花式条和历史图。

对于进程，它将使用psutil收集进程信息，并显示USER， %CPU， %MEM, TIME和COMMAND字段，这比nvidia-smi详细得多。此外，它在监控模式下响应用户输入。您可以中断或终止gpu上的进程。

Nvitop提供了一个树视图屏幕和一个环境屏幕:

此外，nvitop还可以集成到其他应用程序中。例如，集成到PyTorch训练代码:

import os
from nvitop.core import host, CudaDevice, HostProcess, GpuProcess
from torch.utils.tensorboard import SummaryWriter

device = CudaDevice(0)
this_process = GpuProcess(os.getpid(), device)
writer = SummaryWriter()
for epoch in range(n_epochs):

    # some training code here
    # ...

    this_process.update_gpu_status()
    writer.add_scalars(
        'monitoring',
        {
            'device/memory_used': float(device.memory_used()) / (1 << 20),  # convert bytes to MiBs
            'device/memory_percent': device.memory_percent(),
            'device/memory_utilization': device.memory_utilization(),
            'device/gpu_utilization': device.gpu_utilization(),

            'host/cpu_percent': host.cpu_percent(),
            'host/memory_percent': host.virtual_memory().percent,

            'process/cpu_percent': this_process.cpu_percent(),
            'process/memory_percent': this_process.memory_percent(),
            'process/used_gpu_memory': float(this_process.gpu_memory()) / (1 << 20),  # convert bytes to MiBs
            'process/gpu_sm_utilization': this_process.gpu_sm_utilization(),
            'process/gpu_memory_utilization': this_process.gpu_memory_utilization(),
        },
        global_step
    )

详情见https://github.com/XuehaiPan/nvitop。

2021-05-19 07:51:35

其他回答

在设备监控模式下运行nvidia-smi，例如:

$ nvidia-smi dmon -d 3 -s pcvumt
# gpu   pwr gtemp mtemp  mclk  pclk pviol tviol    sm   mem   enc   dec    fb  bar1 rxpci txpci
# Idx     W     C     C   MHz   MHz     %  bool     %     %     %     %    MB    MB  MB/s  MB/s
    0   273    54     -  9501  2025     0     0   100    11     0     0 18943    75  5906   659
    0   280    54     -  9501  2025     0     0   100    11     0     0 18943    75  7404   650
    0   277    54     -  9501  2025     0     0   100    11     0     0 18943    75  7386   719
    0   279    55     -  9501  2025     0     0    99    11     0     0 18945    75  6592   692
    0   281    55     -  9501  2025     0     0    99    11     0     0 18945    75  7760   641
    0   279    55     -  9501  2025     0     0    99    11     0     0 18945    75  7775   668
    0   279    55     -  9501  2025     0     0   100    11     0     0 18947    75  7589   690
    0   281    55     -  9501  2025     0     0    99    12     0     0 18947    75  7514   657
    0   279    55     -  9501  2025     0     0   100    11     0     0 18947    75  6472   558
    0   280    54     -  9501  2025     0     0   100    11     0     0 18947    75  7066   683

完整的细节在man nvidia-smi。

2022-11-24 22:43:12

要获得使用资源的实时洞察，请执行:

Nvidia-smi -l

这将在每一秒循环并调用视图。

如果你不想在控制台历史记录中保留循环调用的过去痕迹，你也可以这样做:

观看-n0.1 nvidia-smi

其中0.1是时间间隔，单位为秒。

2016-03-03 07:33:43

这可能不够优雅，但你可以尝试一下

while true; do sleep 2; nvidia-smi; done

我也尝试了@Edric的方法，它很有效，但我更喜欢nvidia-smi的原始布局。

2015-11-10 00:02:40

我发现gpustat非常有用。它可以与pip install gpustat一起安装，并按进程或用户打印使用情况。

2018-07-18 15:43:50

你可以使用nvidia-smi pmon -i 0来监控GPU 0中的每个进程。包括计算模式、sm使用情况、内存使用情况、编码器使用情况、解码器使用情况。

2019-01-16 08:51:08

一个类似于顶部的实用程序，用于监控GPU上的CUDA活动

推荐文章

最新文章

标签