Nvidia工具

nvidia-smi 还有很多控制命令,可以拿来使用

 1
 2
 3
 4
 5
 6
 7
 8
 9
10
11
12
nvidia-smi –l xxx
动态刷新信息(默认5s刷新一次),按Ctrl+C停止,可指定刷新频率,以秒为单位

nvidia-smi -L 列出所有可用的 NVIDIA 设备

nvidia-smi -pm 1 开启持久模式, 事实是: 持久模式下 性能反而能在 p8

sudo nvidia-smi -q -d POWER

sudo nvidia-smi drain -p 0000:01:00.0 -m 1 设置驱逐状态
sudo nvidia-smi drain -p 0000:01:00.0 -r 移除gpu
sudo nvidia-smi drain -p 0000:01:00.0 -d 发现移除的gpu
1
2
# 解决无头模式的设置使用
nvidia-settings --ctrl-display :0
1
2
3
4
5
6
7
8
9
nvidia-smi dmon –s xxx
指定显示哪些监控指标(默认为puc),其中:
p:电源使用情况和温度(pwr:功耗,temp:温度)
u:GPU使用率(sm:流处理器,mem:显存,enc:编码资源,dec:解码资源)
c:GPU处理器和GPU内存时钟频率(mclk:显存频率,pclk:处理器频率)
v:电源和热力异常
m:FB内存和Bar1内存
e:ECC错误和PCIe重显错误个数
t:PCIe读写带宽

D3 电源状态

1
/proc/driver/nvidia/suspend