当前位置: 首页 > news >正文

电子商务网站建设与管理实验总结建网站费用

电子商务网站建设与管理实验总结,建网站费用,网页设计的注意事项,网站文章发布数值稳定性和模型初始化数值稳定性梯度不稳定的影响推导什么是梯度消失#xff1f;什么是梯度爆炸#xff1f;如何解决数值不稳定问题#xff1f;——参数初始化参数初始化的几种方法默认初始化Xavier初始化小结当神经网络变得很深的时候#xff0c;数值特别容易不稳定。我… 数值稳定性和模型初始化数值稳定性梯度不稳定的影响推导什么是梯度消失什么是梯度爆炸如何解决数值不稳定问题——参数初始化参数初始化的几种方法默认初始化Xavier初始化小结当神经网络变得很深的时候数值特别容易不稳定。我们实现的每个模型都是根据某个预先指定的分布来初始化模型的参数。初始化方案的选择在神经网络学习中起着举足轻重的作用 它对保持数值稳定性至关重要数值稳定性 梯度不稳定的影响 糟糕初始化参数可能会导致我们在训练时遇到梯度爆炸或梯度消失。 不稳定梯度带来的风险不止在于数值表示 不稳定梯度也威胁到我们优化算法的稳定性。 梯度爆炸gradient exploding问题 参数更新过大破坏了模型的稳定收敛梯度消失gradient vanishing问题 参数更新过小在每次更新时几乎不会移动导致模型无法学习。 推导 考虑一个具有LLL层、输入xxx和输出ooo的深层网络。每一层lll由变换flf_lfl​定义 该变换的参数为权重W(l)W^{(l)}W(l) 其隐藏变量是h(l)h^{(l)}h(l)令 h0xh^{0} xh0x。 该网络可以表示为 h(l)fl(h(l−1))因此 ofL∘…∘f1(x).\mathbf{h}^{(l)} f_l (\mathbf{h}^{(l-1)}) \text{ 因此 } \mathbf{o} f_L \circ \ldots \circ f_1(\mathbf{x}).h(l)fl​(h(l−1)) 因此 ofL​∘…∘f1​(x). 如果所有隐藏变量和输入都是向量 我们可以将o\mathbf{o}o关于任何一组参数W(l)\mathbf{W}^{(l)}W(l)的梯度写为下式 ∂W(l)o∂h(L−1)h(L)⏟M(L)def⋅…⋅∂h(l)h(l1)⏟M(l1)def∂W(l)h(l)⏟v(l)def.\partial_{\mathbf{W}^{(l)}} \mathbf{o} \underbrace{\partial_{\mathbf{h}^{(L-1)}} \mathbf{h}^{(L)}}_{ \mathbf{M}^{(L)} \stackrel{\mathrm{def}}{}} \cdot \ldots \cdot \underbrace{\partial_{\mathbf{h}^{(l)}} \mathbf{h}^{(l1)}}_{ \mathbf{M}^{(l1)} \stackrel{\mathrm{def}}{}} \underbrace{\partial_{\mathbf{W}^{(l)}} \mathbf{h}^{(l)}}_{ \mathbf{v}^{(l)} \stackrel{\mathrm{def}}{}}.∂W(l)​oM(L)def∂h(L−1)​h(L)​​⋅…⋅M(l1)def∂h(l)​h(l1)​​v(l)def∂W(l)​h(l)​​. 该梯度是L−lL-lL−l个矩阵 M(L)⋅…⋅M(l1)\mathbf{M}^{(L)} \cdot \ldots \cdot \mathbf{M}^{(l1)}M(L)⋅…⋅M(l1)与梯度向量v(l)\mathbf{v}^{(l)}v(l)的乘积。 因此我们容易受到数值下溢问题的影响. 当将太多的概率乘在一起时这些问题经常会出现。 什么是梯度消失 激活函数sigmoid函数1/(1exp⁡(−x))1/(1 \exp(-x))1/(1exp(−x))类似于阈值函数。 由于早期的人工神经网络受到生物神经网络的启发 神经元要么完全激活要么完全不激活就像生物神经元的想法很有吸引力。 然而它却是导致梯度消失问题的一个常见的原因 当sigmoid函数的输入很大或是很小时它的梯度都会消失。当反向传播通过许多层时除非我们在刚刚好的地方 这些地方sigmoid函数的输入接近于零否则整个乘积的梯度可能会消失。 当我们的网络有很多层时除非我们很小心否则在某一层可能会切断梯度。 更稳定的ReLU系列函数已经成为从业者的默认选择。 什么是梯度爆炸 矩阵乘积发生了爆炸这种情况是由于深度网络的初始化导致的没有机会让梯度下降优化器收敛。 #pytorch M torch.normal(0, 1, size(4,4)) print(一个矩阵 \n,M) for i in range(100):M torch.mm(M,torch.normal(0, 1, size(4, 4)))print(乘以100个矩阵后\n, M)如何解决数值不稳定问题——参数初始化 参数初始化是解决或至少减轻上述问题的一种方法 优化期间的注意和适当的正则化也可以进一步提高稳定性。 参数初始化的几种方法 默认初始化 如果我们不指定初始化方法 框架将使用默认的随机初始化方法对于中等难度的问题这种方法通常很有效。 Xavier初始化 某些没有非线性的全连接层输出例如隐藏变量oio_{i}oi​的尺度分布。 对于该层ninn_\mathrm{in}nin​输入xjx_jxj​及其相关权重wijw_{ij}wij​输出由下式给出 oi∑j1ninwijxj.o_{i} \sum_{j1}^{n_\mathrm{in}} w_{ij} x_j.oi​j1∑nin​​wij​xj​. 现在标准且实用的Xavier初始化的基础 它以其提出者 (Glorot and Bengio, 2010) 第一作者的名字命名。 通常Xavier初始化从均值为零方差σ22ninnout\sigma^2 \frac{2}{n_\mathrm{in} n_\mathrm{out}}σ2nin​nout​2​的高斯分布中采样权重。 我们也可以将其改为选择从均匀分布中抽取权重时的方差。 注意均匀分布U(−a,a)U(-a, a)U(−a,a)的方差为a23\frac{a^2}{3}3a2​。 将a23\frac{a^2}{3}3a2​代入到σ2\sigma^2σ2的条件中将得到初始化值域 U(−6ninnout,6ninnout).U\left(-\sqrt{\frac{6}{n_\mathrm{in} n_\mathrm{out}}}, \sqrt{\frac{6}{n_\mathrm{in} n_\mathrm{out}}}\right).U(−nin​nout​6​​,nin​nout​6​​). 尽管在上述数学推理中“不存在非线性”的假设在神经网络中很容易被违反 但Xavier初始化方法在实践中被证明是有效的。 小结 梯度消失和梯度爆炸是深度网络中常见的问题。在参数初始化时需要非常小心以确保梯度和参数可以得到很好的控制。需要用启发式的初始化方法来确保初始梯度既不太大也不太小。ReLU激活函数缓解了梯度消失问题这样可以加速收敛。随机初始化是保证在进行优化前打破对称性的关键。Xavier初始化表明对于每一层输出的方差不受输入数量的影响任何梯度的方差不受输出数量的影响。
http://www.dnsts.com.cn/news/153903.html

相关文章:

  • 盐城做网站推广电话酒店建筑设计网站
  • 网站开发需要那些技能做网站一般哪里找
  • 九江建网站报价优秀界面设计作品
  • 建设网站的建议网站建设管理员角色设置
  • 用凡科做网站需要花钱吗大连仟亿科技有限公司
  • 网站总是跳转dede58淄博网站开发
  • 甘肃建设职工教育培训中心网站代理注册公司代理费多少钱
  • 网站建设服务yisinuo订单网站怎么做
  • 做网站界面设计大小网站建设及外包
  • 亚马逊海外版网站网站设计的时间计划
  • wordpress网站第一次打开慢建设网站费用如何做账
  • 青岛自助建站软件企业门户网站管理办法
  • 优化公司网站注册安全工程师职业资格制度规定
  • 网站开发的目的意义如何做淘宝直播教学视频网站
  • 成都小程序制作开发wordpress目录seo
  • 大学校园网站建设翻页大图网站
  • 买奢侈品代工厂做的产品的网站名互联网网站类型
  • 虚拟主机可建站1个是不是只能放一个网站千锋教育成立于哪一年
  • 当地建设局网站佛山网上办事大厅官网
  • 网站会员注册系统怎么做视频html制作百度页面
  • ifront做原型控件的网站成都app开发
  • 建设银行官方门户网站做临时工有哪些网站
  • 服务器禁止ip访问网站电商网站模块有哪些
  • 4399游戏盒下载官方网站现在建网站多少钱
  • 上海网站开发公司排名中国建设银行网站招聘
  • 做ppt封面的网站虚拟服务器有免费的吗
  • 模板手机网站建设公司排名北京黑马计算机培训机构
  • 外贸公司网站怎么做网站到期续费通知
  • 做网站前景怎么样高端企业网站报价
  • 个人网站备案后可以做行业内容吗有哪些官网做的比较好的网站