当前位置: 首页 > news >正文

html5网站赏析电子商务网站开发背景与原因

html5网站赏析,电子商务网站开发背景与原因,互联网+创业大赛,建设银行造价咨询中心网站激活函数大汇总#xff08;十二#xff09;#xff08;GLU ReGLU附代码和详细公式#xff09; 更多激活函数见激活函数大汇总列表 一、引言 欢迎来到我们深入探索神经网络核心组成部分——激活函数的系列博客。在人工智能的世界里#xff0c;激活函数扮演着不可或…激活函数大汇总十二GLU ReGLU附代码和详细公式 更多激活函数见激活函数大汇总列表 一、引言 欢迎来到我们深入探索神经网络核心组成部分——激活函数的系列博客。在人工智能的世界里激活函数扮演着不可或缺的角色它们决定着神经元的输出并且影响着网络的学习能力与表现力。鉴于激活函数的重要性和多样性我们将通过几篇文章的形式本篇详细介绍两种激活函数旨在帮助读者深入了解各种激活函数的特点、应用场景及其对模型性能的影响。 在接下来的文章中我们将逐一探讨各种激活函数从经典到最新的研究成果。 限于笔者水平对于本博客存在的纰漏和错误欢迎大家留言指正我将不断更新。 二、GLU GLU (Gated Linear Unit) 激活函数是一种通过学习门控机制来动态调节信息流的方法。它在许多深度学习架构中被用来增强模型的表达能力特别是在序列处理和语言模型中表现出色。 1. 数学定义 GLU激活函数定义为 GLU ⁡ ( a , b ) a ⊙ σ ( b ) \operatorname{GLU}(a, b)a \odot \sigma(b) GLU(a,b)a⊙σ(b) 其中 a a a和 b b b是相同维度的输入向量。 ⊙ \odot ⊙表示元素乘法。 σ ( b ) \sigma(b) σ(b)是对输入 b b b应用Sigmoid激活函数得到的值在0和1之间用作门控信号。 2. 函数特性 动态门控机制GLU通过学习 b b b的门控信号来动态地调节 a a a中每个元素的激活强度这种机制允许模型根据上下文信息自适应地过滤或强化特定的信息流。自适应性强GLU能够让模型自适应地选择它需要强化或忽略的信息这有助于模型捕获数据中的复杂依赖关系。非饱和性由于GLU的输出部分取决于Sigmoid函数它避免了像ReLU那样的饱和问题有助于减轻梯度消失问题。 3. 导数 GLU函数关于 a a a和 b b b的导数分别为 对于 a a a ∂ G L U ∂ a σ ( b ) \frac{\partial \mathrm{GLU}}{\partial a}\sigma(b) ∂a∂GLU​σ(b)对于 b b b ∂ G L U ∂ b a ⋅ σ ( b ) ⋅ ( 1 − σ ( b ) ) \frac{\partial \mathrm{GLU}}{\partial b}a \cdot \sigma(b) \cdot(1-\sigma(b)) ∂b∂GLU​a⋅σ(b)⋅(1−σ(b)) 这意味着 a a a的梯度受到门控信号 σ ( b ) \sigma(b) σ(b)的调节而 b b b的梯度则与 a a a的值和门控信号的导数 σ ( b ) ⋅ ( 1 − σ ( b ) ) \sigma(b) \cdot(1-\sigma(b)) σ(b)⋅(1−σ(b))有关。 4. 使用场景与局限性 使用场景 语言模型和序列处理GLU在处理序列数据尤其是在构建复杂的语言模型和序列到序列的模型时能够有效地增强模型的性能。特征选择在需要模型从大量特征中选择相关信息的任务中GLU的门控机制可以自适应地过滤掉不重要的特征。 局限性 参数增加由于GLU对于每个输入都需要一对参数 a a a和 b b b这可能导致模型参数数量的增加。计算复杂性相比于一些简单的激活函数GLU的计算更加复杂特别是在门控信号需要通过Sigmoid函数计算时。 5.代码实现 import numpy as npdef glu(a, b):计算GLU激活函数的值。参数:a -- 输入值可以是数值、NumPy数组或者多维数组。b -- 门控信号维度应与a相同。返回:经过GLU激活的结果。sigmoid_b 1 / (1 np.exp(-b)) # 应用Sigmoid函数到breturn a * sigmoid_b # 返回a和Sigmoid(b)的元素乘结果解读 Sigmoid门控1 / (1 np.exp(-b))这行代码对输入b应用Sigmoid函数将其转换为一个位于(0, 1)区间内的门控信号。这个信号决定了另一输入a的每个元素应该被强化还是被抑制。元素乘法通过a * sigmoid_b计算a和Sigmoid处理后的b的元素级乘法实现GLU的核心功能。这一步骤允许a中的每个元素根据对应的门控信号被按比例调整实现动态门控。向量化操作该实现通过使用NumPy自然地支持向量化操作使得glu函数可以直接作用于整个数组无需显式循环。这对于高效处理大量数据非常关键。 示例使用 # 示例输入 a np.array([0.5, -1, 2, -2]) b np.array([1, -1, 0, 2])# 应用GLU激活函数 glu_output glu(a, b)print(GLU Output:, glu_output)这个例子展示了如何对两个具有相同维度的输入数组a和b应用GLU激活函数。 三、ReGLU ReGLURectified GLU激活函数是一个相对较新的概念融合了GLUGated Linear Unit的思想与ReLURectified Linear Unit的特性。GLU是一种通过学习到的门控机制来控制信息流的激活函数而ReGLU则在此基础上添加了ReLU的非线性特性。 1. 数学定义 假设有两个相同维度的输入向量 a a a和 b b bReGLU激活函数定义为 ReGLU ⁡ ( a , b ) ReLU ⁡ ( a ) ⊙ σ ( b ) \operatorname{ReGLU}(a, b)\operatorname{ReLU}(a) \odot \sigma(b) ReGLU(a,b)ReLU(a)⊙σ(b) 其中 ⊙ \odot ⊙表示元素乘法 ReLU ⁡ ( a ) max ⁡ ( 0 , a ) \operatorname{ReLU}(a)\max (0, a) ReLU(a)max(0,a)是标准的ReLU函数 σ ( b ) 1 1 e − b \sigma(b)\frac{1}{1e^{-b}} σ(b)1e−b1​是Sigmoid函数。 2. 函数特性 门控机制ReGLU通过Sigmoid函数 σ ( b ) \sigma(b) σ(b)作用于 b b b来学习一个门控信号这个门控信号决定了 a a a的激活强度。非线性激活通过将ReLU应用于 a a aReGLU引入了非线性有助于增加模型的表达能力。自适应特性ReGLU的门控机制允许模型自适应地调整信息的流动这可以根据任务的需求学习到最有效的表示。 3. 导数 ReGLU激活函数的导数相对复杂因为它涉及到两个不同函数的导数。导数可以通过链式法则计算分别对 a a a和 b b b进行求导。 4. 使用场景与局限性 使用场景 复杂特征提取在需要模型学习复杂特征表示的任务中如深度学习中的图像识别、自然语言处理等领域。动态信息流控制在模型需要根据数据动态调整信息流的场景中ReGLU提供了一种有效的机制。 局限性 计算复杂度由于涉及到Sigmoid和ReLU两个不同的函数ReGLU的计算复杂度高于单一的激活函数这可能增加训练和推理的计算成本。参数调优ReGLU的有效性可能依赖于正确的参数设置和模型架构设计需要进行细致的调优才能达到最佳性能。 5.代码实现 import numpy as npdef reglu(a, b):计算ReGLU激活函数的值。参数:a, b -- 输入值可以是数值、NumPy数组或者多维数组维度必须相同。返回:ReGLU激活后的结果。relu_a np.maximum(0, a) # 应用ReLU到asigmoid_b 1 / (1 np.exp(-b)) # 应用Sigmoid到breturn relu_a * sigmoid_b # 返回元素乘的结果解读 ReLU应用np.maximum(0, a)对输入a应用ReLU函数即对于a中的每个元素如果元素值大于0则保持不变否则将其设置为0。Sigmoid应用1 / (1 np.exp(-b))对输入b应用Sigmoid函数将b中的每个元素映射到(0, 1)区间内代表门控信号的强度。元素乘法最后通过relu_a * sigmoid_b计算两个数组的元素级乘法输出ReGLU激活函数的结果。这个操作实现了一个按元素门控的机制其中a的激活强度由b学习到的门控信号调节。 示例使用 # 示例输入 a np.array([1, -2, 3, -4]) b np.array([5, -1, 2, 3])# 应用ReGLU激活函数 output reglu(a, b)print(ReGLU Output:, output)这个例子展示了如何对两个具有相同维度的输入数组a和b应用ReGLU激活函数。 四、参考文献 Dauphin, Y. N., Fan, A., Auli, M., Grangier, D. (2017). “Language Modeling with Gated Convolutional Networks.” In Proceedings of the 34th International Conference on Machine Learning (ICML). 这篇论文是GLU在深度学习中应用的重要文献之一作者展示了在语言模型中使用门控卷积网络使用GLU如何有效地提高模型性能。Shazeer N. Glu variants improve transformer[J]. arXiv preprint arXiv:2002.05202, 2020.
http://www.dnsts.com.cn/news/131957.html

相关文章:

  • .net网站开发项目做销售的什么网站好
  • 做百度网站费用多少合适做药的文献一般在哪些网站查找
  • 外国人做外贸都会浏览哪些网站wordpress用阿里云图床
  • 网站建设常见故障网站优化助手
  • 做网站运营需要学什么条件网站实名审核多久
  • 阿里巴巴怎么做企业网站宣传浙江省建设厅干部学校网站
  • 国外网站制作建程网会员
  • 企业网站建设应避免数据孤岛建设个人网站的策划书
  • 网站需求清单怎么让网站能被百度到
  • 营销型网站设计论文百度在全国有哪些代理商
  • 太原网站建设技术外包重庆建站公司
  • 深圳市建设工程交易中心网站wordpress 文章分类页
  • 2017网站风格山东省建设从业人员管理系统入口
  • 建站公司都是用什么建站工具正规的淘宝代运营公司
  • 网站外部优化关键词点击排名系统
  • 如何让网站做网页适配创世网络网站建设怎么样
  • 手机网站首页上海网站制作是什么
  • 邢台邯郸做网站做网站买好域名怎么办
  • 华建建设集团网站辛集seo网站优化价格
  • 网站建设要素的核心内容网站建设维护更新
  • 优秀网站的要素有做拍卖的网站有哪些
  • 长春昆仑建设股份有限公司网站学做网页的网站
  • 义乌商城集团网站建设二次元动漫网站设计方案
  • 做网站赚钱吗图展网站源码
  • 宁波网站建设相信荣胜网络百度网站怎么用
  • 和创客贴类似的网站wordpress 订单管理
  • 影响网站收录的因素广西住房与城乡建设厅网站电话
  • 做黑彩网站赚钱吗wordpress页脚添加音乐
  • 域名对网站排名的影响太平洋建设集团网站
  • 做网站报价公司黄山旅游景点