网站浏览器兼容,网站建设及推广外包,十大国际展览公司,淘宝客wordpress末班day10-经典神经网络ResNet
1 梯度消失问题
深层网络有个梯度消失问题#xff1a;模型变深时#xff0c;其错误率反而会提升#xff0c;该问题非过拟合引起#xff0c;主要是因为梯度消失而导致参数难以学习和更新。
2 网络创新
2015年何凯明等人提出deep residual netw…day10-经典神经网络ResNet
1 梯度消失问题
深层网络有个梯度消失问题模型变深时其错误率反而会提升该问题非过拟合引起主要是因为梯度消失而导致参数难以学习和更新。
2 网络创新
2015年何凯明等人提出deep residual network。在加入残存后不能保证效果变好但不会变差。
3 Residual结构
Residual结构是残差结构在文章中给了两种不同的残差结构
在ResNet-18和ResNet-34中用的如下图中左侧图的结构
在ResNet-50、ResNet-101和ResNet-152中用的是下图中右侧图的结构。 右图
1x1通道之间进行特征融合降维降低参数量
3x3特征提取
1x1升维和原始输入数据进行相加形状要保持一致。特征提取。
左图可看到输入特征的channels是64经过一个3x3的卷积核卷积之后进行Relu激活再经过一个3x3的卷积核进行卷积但并没有直接激活。并且可以看到在主分支上有一个圆弧的线从输入特征矩阵直接到加号这个圆弧线是shortcut捷径分支它直接将输入特征矩阵加到经过第二次3x3的卷积核卷积之后的输出特征矩阵再经过Relu激活函数进行激活。
右侧图输入特征的channels是256要先经过一个1x1的卷积降维到64然后用3x3的卷积进行特征提取并通过1x1的卷积进行升维到256之后和shortcut的输入矩阵进行对应维度加法运算在相加之后再经过Relu激活。
4 网络结构
5 性能
通过使用残差连接使得更深的网络具有更低的错误率。
6 变换策略影响
不同尺度的特征相加时采用不同的维度变换策略。
三种变换策略
(A)在升维时使用补零
(B)在升维时使用1x1卷积进行映射
(C)所有残差连接使用1x1卷积进行映射
7 代码实现