广东省级建设主管部门网站,门户是什么意思,thinkphp集成wordpress,百度商家平台其实如果是FP32的训练#xff0c;基本的调试方法还是差不多#xff0c;这里就讲一下混合精度训练过程中的nan。
混合精度训练使用较低的数值精度#xff08;通常是半精度浮点数#xff0c;例如FP16#xff09;来加速模型训练#xff0c;但在一些情况下#xff0c;可能会…其实如果是FP32的训练基本的调试方法还是差不多这里就讲一下混合精度训练过程中的nan。
混合精度训练使用较低的数值精度通常是半精度浮点数例如FP16来加速模型训练但在一些情况下可能会引发数值不稳定性的问题导致 NaN 的出现。处理混合精度训练中的 NaN 问题时可以考虑以下步骤
数值检查 在训练过程中定期检查模型参数、梯度等是否包含 NaN 或 Inf无穷大值。你可以在训练循环中添加断言语句及时发现异常值
assert not torch.isnan(model.parameters()).any(), Model parameters contain NaN!梯度缩放Gradient Scaling 在混合精度训练中通常会使用梯度缩放来抵消使用较低精度带来的梯度范围减小的问题。你可以尝试调整梯度缩放的比例。
scaler.scale(loss).backward()
scaler.step(optimizer)
scaler.update()注意相比与前向出nan混合精度训练会多一个梯度缩放的过程这个是前向没有出nan的前提下实现的影响的梯度更新
前向计算过程中没有nanloss算完后乘以scale后导致inf这时候再往后反向传播出nan了那在梯度更新的时候就会在梯度更新前进行数值检查check finite and unscale过程会去检查权重的梯度发现有nan或者inf就会跳过更新此时就可以调整scale的值把scale降低然后跑下一个step的前向。如果scale调整后乘以loss没有inf就调成功了继续正常更新参数如果还是inf就得继续调小scale