个人做外贸接订单网站,宜昌建站,wordpress 实例,网络游戏推广员一、定义损失函数
1.1 代码
criterion nn.CrossEntropyLoss()
1.2 损失函数简介 神经网络的学习通过某个指标表示目前的状态#xff0c;然后以这个指标为基准#xff0c;寻找最优的权重参数。神经网络以某个指标为线索寻找最优权重参数#xff0c;该指标称为损失函数 nn.CrossEntropyLoss()
1.2 损失函数简介 神经网络的学习通过某个指标表示目前的状态然后以这个指标为基准寻找最优的权重参数。神经网络以某个指标为线索寻找最优权重参数该指标称为损失函数loss function。这个损失函数可以使用任意函数 但一般用均方误差和交叉熵误差等。损失函数是表示神经网络性能的“恶劣程度”的指标即当前的神经网络对监督数据在多大程度上不拟合、不一致。这个值越低表示网络的学习效果越好。 但是如果loss很低的话可能出现过拟合现象。
1.3 交叉熵误差cross entropy error 交叉熵误差如下式所示 其中log表示以e为底数的自然对数log e yk指神经网络的输出tk是正确解标签。并且tk中只有正确解标签的索引为1其他均为0one-hot表示。 因此上式实际上只计算对应正确解标签的输出的自然对数。比如假设正确解标签的索引是“2”与之对应的神经网络的输出是0.6则交叉熵误差 是−log 0.6 0.51若“2”对应的输出是0.1则交叉熵误差为−log 0.1 2.30。因此交叉熵误差的值是由正确解标签所对应的输出结果决定的。 交叉熵误差函数需要两个参数第一个是输入参数预测值第二个是正确值。
二、定义优化器
2.1 代码
import torch.optim as optim
optimizer optim.SGD(net.parameters(),lr0.001,momentum0.9)
2.2 构造优化器 optimizer optim.SGD(net.parameters(),lr0.001,momentum0.9)第一个参数是需要更新的参数第二个参数是指学习率指每次更新学习率下降的大小第三个参数为动量
2.3 随机梯度下降法SGD 用数学式子可以把SGD写为如下的式 其中W记为需要更新的权重参数是指损失函数关于W的梯度表示学习率一般情况下会取为0.01或0.001这类事先决定好的值。式子中的“箭头”表示用右边的值更新左边的值。 SGD较为简单且容易实现但是在解决某些问题时可能没有效率。SGD是朝着梯度方向只前进一定距离的简单方法且梯度的方法并没有指向最小值的方向。 参考004 第一个分类任务2_哔哩哔哩_bilibili