建立淘宝客网站,用什么软件做网站最好,看怀集app下载,图片二维码制作网站用于个人知识点回顾#xff0c;非详细教程
1.梯度下降
前向传播
特征输入—线性函数—激活函数—输出 反向传播
根据损失函数反向传播#xff0c;计算梯度更新参数 2.激活函数(activate function)
什么是激活函数#xff1f;
在神经网络前向传播中#x…用于个人知识点回顾非详细教程
1.梯度下降
前向传播
特征输入—线性函数—激活函数—输出 反向传播
根据损失函数反向传播计算梯度更新参数 2.激活函数(activate function)
什么是激活函数
在神经网络前向传播中每一层的输出还需要经过激活函数再作为下一层的输入即 a [ 1 ] σ ( z [ 1 ] ) a^{[1]}\sigma(z^{[1]}) a[1]σ(z[1])
为什么需要激活函数
如果没有非线性激活函数模型的最终输出实际上只是输入特征x的线性组合
激活函数的分类
1sigmoid函数除了输出层是一个二分类问题基本不会用 a σ ( z ) 1 1 e − z a\sigma(z)\frac{1}{1e^{-z}} aσ(z)1e−z1 2tanh函数数据平均值更接近0几乎所有场合都适用 a t a n h ( z ) e z − e − z e z e − z atanh(z)\frac{e^{z}-e^{-z}}{e^{z}e^{-z}} atanh(z)eze−zez−e−z
sigmoid函数和tanh函数两者共同的缺点是在z特别大或者特别小的情况下导数梯度或者函数斜率会变得特别小最后就会接近于0导致降低梯度下降的速度。
3Relu函数修正线性单元最常用的默认函数 a m a x ( 0 , z ) amax(0, z) amax(0,z) 4Leaky Relu函数进入负半区 a m a x ( 0.01 z , z ) amax(0.01z, z) amax(0.01z,z)
sigmoid函数和tanh函数在正负饱和区的梯度都会等于0而Relu和Leaky Relu可以避免梯度弥散现象学习速度更快 3. 正则化
偏差和方差
高方差过拟合高偏差欠拟合 L1/L2正则化
在损失函数加上正则化L1正则化更稀疏 dropout正则化
根据概率随机删除节点 其它正则化方法 4.优化算法
mini-batch梯度下降法
数据集分成多个子集来更新梯度 动量梯度下降(momentum)
参数更新时的梯度微分值计算方式采用指数加权平均 RMSprop(root mean square prop) Adam
momentumRMSprop