石家庄网站建设时光,旅游网站开发实验报告,建设一个征婚网站的程序,做的较好的拍卖网站服务器GPU挂掉
跑深度学习的代码的时候发现中断了。通过命令查看#xff1a;
nvidia-smi显示
Unable to determine the device handle for GPU 0000:01:00.0: Unknown Error。感觉很莫名其妙。通过重启大法之后#xff0c;又能用一段时间。
shutdown -r now但是过了一个小…服务器GPU挂掉
跑深度学习的代码的时候发现中断了。通过命令查看
nvidia-smi显示
Unable to determine the device handle for GPU 0000:01:00.0: Unknown Error。感觉很莫名其妙。通过重启大法之后又能用一段时间。
shutdown -r now但是过了一个小时左右又会挂掉。不能从根本解决问题。那么到底为什么GPU会自己挂掉呢
问题排查
通过查看日志定位错误原因
nvidia-bug-report.sh在当前目录下生成了nvidia-bug-report.log日志文件。查看到日志文件的内容如下 网上查找一下这个报错码79https://forums.developer.nvidia.com/t/gpu-has-fallen-of-the-bus/122124发现要么是电源问题要么是温度过高问题。
重现问题查看温度日志
如果判断是否是GPU温度过高呢需要打一个温度日志再运行一下代码看GPU温度是否超过了shutdown 温度GPU温度过高会自动掉线保护GPU。命令如下
nvidia-smi -q -l 2 -d TEMPERATURE -f nvidiatemp.log 代码继续跑等待问题重现后查看温度日志就可以确定是否是温度过高导致GPU自动掉线了。 果然当GPU掉线后查看温度日志 上图中CurrentTemp表示当前温度Shutdown Temp表示超过这个温度GPU会自动掉线。Target Temp表示目标温度GPU比较合适的温度。 找到问题了就是温度过热导致GPU掉线
解决问题
温度过热 多半是散热不行果然发现一个风扇明显转的较慢。猜测可能是那个风扇坏掉了。 于是将显卡风扇拆下来。通过拨动发现其中一个风扇没另一个风扇灵活。拆开发现转轴有点杂质增大了风扇阻力清理了一下,上了点润滑油。当然直接换风扇最为方便免得担心风扇被拆坏掉
装上后发现能正常工作温度再也没有超负荷过问题完美解决
参考链接
gpu-has-fallen-of-the-bus