锐单电子商城 , 一站式电子元器件采购平台!
  • 电话:400-990-0325

服务器终端性能测试之GPU burn压力测试

时间:2022-09-14 20:00:00 二极管je07b1ud20

GPU burn 测试GPU
1.下载软件

wget https://codeload.github.com/wilicc/gpu-burn/zip/master

2.解压缩

unzip gpu-burn-master.zip

3.进入目录编译(确保)cuda环境变量已成功配置 nvcc -v能显示结果)

cd gpu-burn-master
make

4.编译成功后,将在当前目录中生成 gpu_burn 这个文件

gpu_burn

5.默认执行,全部运行。GPU卡,空间后面的参数是时间,快速测试设置100,稳定性测试500

[root@localhost gpu-burn-master]#
./gpu_burn 100
GPU 0: Tesla V100 (UUID: GPU-6250466c-35ed-c279-fc0b-3b9b613a586f)
GPU 1: Tesla V100 (UUID: GPU-0a4a2b9c-d32c-1ba2-42a0-151ed9907d57)
GPU 2: Tesla V100 (UUID: GPU-f6cf184f-9173-1edd-648f-71e841afe152)
GPU 3: Tesla V100 (UUID: GPU-044f96e6-cc66-cc93-6283-07b829216f91) Initialized device 2 with 11178 MB of memory (10993 MB available, using 9894 MB of it), using FLOATS
Initialized device 1 with 11178 MB of memory (10993 MB available, using 9894 MB of it), using FLOATS
Initialized device 3 with 11178 MB of memory (10993 MB available, using 9894 MB of it), using FLOATS
Initialized device 0 with 11178 MB of memory (10993 MB available, using 9894 MB of it), using FLOATS

6.可指定几张卡跑,如指定0和1号卡

export CUDA_VISIBLE_DEVICES=0,1
./gpu_burn 100

如何找出故障卡

  1. dmesg -l err 筛选错卡Bus-Id

在这里插入图片描述

  1. 根据Bus-Id找出对应的GPU运行测试时排除卡号,如机器8张卡,device 2 故障,参数这个 样写:

export CUDA_VISIBLE_DEVICES=0,1,3,4,5,6,7 #2不写在里面
./gpu_burn 100

  1. 跑步后关机,找出没有温度的卡,即故障卡
锐单商城拥有海量元器件数据手册IC替代型号,打造电子元器件IC百科大全!

相关文章