当前位置: 首页 > news >正文

景德镇做网站的公司wordpress 响应式 企业

景德镇做网站的公司,wordpress 响应式 企业,网站开发转型,做30个精品网站背景 最近在不断深入学习LLM的相关内容#xff0c;那么transformer就是一个绕不开的话题。然而对于一个NLP门外汉来说#xff0c;论文看得是真头疼#xff0c;总览全网#xff0c;我们似乎缺少一个至高而下的高层级理解。所以本文就来弥补此方面的缺失~ 本文并不讲解有关…背景 最近在不断深入学习LLM的相关内容那么transformer就是一个绕不开的话题。然而对于一个NLP门外汉来说论文看得是真头疼总览全网我们似乎缺少一个至高而下的高层级理解。所以本文就来弥补此方面的缺失~ 本文并不讲解有关Transformer的任何详细的模型结构说明而是从论文出发为大家详细解释Transformer原理的高层级理解希望大家即使不了解模型细节也可以理解Transformer的算法原理并在此基础上可以更快的入门Transformer 算法背景介绍 序列建模在处理语言建模和机器翻译等序列问题时传统上我们使用循环神经网络RNN或长短时记忆网络LSTM等模型。这些模型通过递归地处理序列中的每个元素来捕捉序列的依赖关系。 在很久很久以前~~大模型针对上下文的理解使用的是循环神经网络。 循环神经网络比普通的神经网络多了一个特殊的隐藏层用以保存上一次运行的输出。针对于循环神经网络的每一次运行输入有两个 当前输入之前的输出结果 此时相当于模型对于当前的运算会参考之前的输出结果…… 类似的也就可以用于NLP任务上这样模型在预测当前单词的时候会参考之前的文本。 但是这种方式存在一个最大的弊端会产生信息在不断丢失的问题。相当于虽然每一次运行都会参考之前的输出但是对于该算法来说影响最大的上一次的运行、其次是上上次运行、其次是上上上次运行……也就是说越远的单词对于当前的预测的影响越低 可以在我们实际的语言交流中单词的相关性并非和单词位置绑定有可能最开始的单词和最末尾的单词相关性很大呢所以该算法在发展了几年之后很快就不适用了。 注意力机制注意力机制允许模型在处理序列时关注到与当前任务最相关的部分而忽略其他不相关的信息。这有助于模型更好地捕捉长距离的依赖关系。 这是本文的重点也是后续LLM大预言模型的奠基  Transformer模型介绍 核心思想Transformer模型完全基于注意力机制不使用任何递归或循环操作。它利用自注意力Self-Attention机制来捕捉序列内部的依赖关系。 循环递归方法的最大问题就在于对于长上下文的单词之间的相关性获取不清晰。 自注意力机制全部摒弃了上诉的方案详细的原理请继续阅读~ 模型架构Transformer模型由编码器Encoder和解码器Decoder两部分组成。编码器和解码器都包含多个相同的层每层都有自注意力机制和前馈神经网络Feed Forward Neural Network。自注意力机制自注意力机制允许模型在处理序列中的每个元素时都考虑到序列中的其他所有元素。这使得模型能够捕捉到元素之间的长距离依赖关系。多头注意力Multi-Head Attention为了提升模型的表达能力Transformer使用了多头注意力机制。这相当于将输入分成多个部分每个部分都经过一个自注意力机制的处理然后将结果拼接起来。 模型的优势 并行化由于Transformer不依赖于递归操作因此可以实现更高的并行计算能力加快训练速度。长距离依赖通过自注意力机制Transformer能够更好地捕捉序列中的长距离依赖关系。性能提升实验结果显示Transformer在机器翻译等任务上的性能优于传统的循环神经网络和卷积神经网络模型。 自注意力机制的高层级原理说明 自注意力机制Self-Attention Mechanism是一种允许模型在处理单个序列时序列中的每个元素如单词都能关联到其他元素的方法从而捕获元素间的依赖关系无论这些元素在序列中的距离有多远。这种机制是Transformer模型的核心组成部分。 自注意力机制的原理可以概括为以下几点 输入表示首先将输入序列如句子中的单词转换为一系列高维向量称为嵌入向量。这些向量既包含了单词本身的信息也包含了位置信息因为Transformer模型本身并不理解序列中元素的顺序需要通过额外的位置编码来提供这一信息。 第一部分并不涉及自注意力机制的核心主要是对输入进行了一次embedding操作即文本转向量的操作。除此之外还额外添加了一个位置信息。对于本处嵌入向量不理解的同学可以先暂时暂停此处搜索一下文本嵌入的相关知识。此部分的理解对于后续的理解还是很重要的。 查询、键和值在自注意力层中每个嵌入向量被转换为三个向量查询Query、键Key和值Value。这三个向量是通过将原始嵌入向量与三个不同的权重矩阵相乘得到的。查询向量用于与其他元素的键向量进行比较键向量用于与查询向量进行相似度计算而值向量则包含了实际要提取的信息。 查询Query、键Key和值Value是注意力机制Attention Mechanism中的核心概念它们在Transformer模型中被广泛用于计算序列中的元素之间的关系即相关性。 可能很多读者看到这里会有一个疑惑那就是为什么要求这些相关性 其实本质的原因在于模型在进行当前单词推理的时候需要参考往期元素那么谁来决定参考哪些往期元素呢这就是原因相关性越高的元素被当前操作参考的权重越大。 相似度计算使用点积或缩放点积计算每个查询向量与序列中所有键向量的相似度。这一步骤的目的是确定序列中哪些元素与当前元素由查询向量表示最相关。 查询query相当于当前需要处理的单词的嵌入向量键key相当于和位置信息绑定的其他元素的嵌入向量值value相当于关联性的程度。 权重分配根据相似度得分通常通过softmax函数进行归一化为序列中的每个元素的值向量分配权重。相似度得分高的元素将获得更高的权重这意味着它们对当前元素的表示贡献更大。 加权求和将加权后的值向量进行求和得到当前元素的自注意力输出。这个输出向量包含了序列中所有元素对当前元素的影响从而能够捕获元素间的长期依赖关系。 并行处理由于自注意力机制在计算每个元素的输出时都是独立于序列中其他元素的计算的因此可以实现高度的并行化。这使得Transformer模型在训练时能够比传统的循环神经网络RNN或卷积神经网络CNN更快。 多头自注意力Transformer模型还采用了多头自注意力机制即使用多个不同的自注意力层来并行地处理输入序列。每个头都可以学习到输入序列的不同方面的信息然后通过拼接和线性变换将这些信息合并起来以获得更丰富的表示。 查询Query、键Key和值Value 查询Query、键Key和值Value是注意力机制Attention Mechanism中的核心概念它们在Transformer模型中被广泛用于计算序列中的元素之间的关系。以下是针对这三个概念的详细描述 查询Query 定义在注意力机制的上下文中查询是一个向量它代表了当前位置如解码器中的当前时间步对输入序列中其他位置信息的需求或关注点。作用查询用于与序列中所有位置的键Key进行比较以决定哪些位置的信息对当前位置的输出有重要影响。计算方式查询通常是通过模型的某些层的输出得到的这些层可能包括嵌入层、自注意力层或编码器的输出。键Key 定义键也是向量它代表了序列中每个位置的信息用于与查询进行比较以决定该位置的信息是否应该被包含在最终的注意力权重中。作用键是序列中每个元素或位置的表示它们与查询进行相似性比较以计算注意力分数Attention Scores。计算方式键通常是通过将输入序列通过嵌入层或编码器层的输出得到的与查询的计算方式相似但在注意力机制中键用于与查询进行比较。值Value 定义值同样是向量它们包含了序列中每个位置的实际信息这些信息将被用来根据注意力权重进行加权求和以产生注意力机制的输出。作用值代表了序列中每个位置的实际内容是最终注意力机制输出的重要信息来源。注意力权重决定了每个值向量对当前输出的贡献程度。计算方式值通常与键的计算方式相同因为在实际实现中键和值通常来自同一组输入尽管在自注意力机制中它们可以相同也可以不同。然而在注意力机制的输出计算中值会根据注意力权重进行加权求和。 在Transformer模型中自注意力层Self-Attention Layer使用了这些概念来计算序列内部元素之间的依赖关系。通过查询、键和值的交互模型能够学习到序列中哪些元素对于当前位置是重要的并将这些信息以加权求和的形式融入到当前位置的输出中。 总结 在Transformer模型中自注意力机制Self-Attention Mechanism扮演着至关重要的角色。它是Transformer模型架构的核心组成部分之一负责处理序列数据中的依赖关系特别是那些长距离依赖关系这在自然语言处理NLP等任务中尤为重要。
http://www.dnsts.com.cn/news/202235.html

相关文章:

  • 大连网站关键字优化电子商务网站的建设与规划书
  • 长沙网站拓谋网络wordpress添加新页面
  • 网站建设教程搭建深圳设计工作室有哪些
  • 免费建设淘宝客网站专业网站建设一条龙
  • 免费网站建设域名在网上卖货怎么卖
  • 网站推广案例分析网站推广费用大概需要多少钱
  • 乌兰浩特网站开发网页制作软件山水
  • 让别人访问自己做的网站学校html网站模板
  • 汕头网站排名推广vue怎么做网页
  • 龙岗优化网站建设qq企业邮箱格式
  • 武夷山景区网站建设优点电子商务网站开发的步骤
  • 网站宣传方式有哪些上海网站建设企业建站
  • 网站怎么做漂亮点wordpress调用会员等级
  • 免费金融网站模板电影网站logo设计
  • 网站建站时间查询中国市场调查网
  • .网站链接策略网站运营之怎样做好seo优化
  • 银行官方网站网站规划的原则
  • 孵化器网站建设1688关键词排名查询
  • 做网站的用户需求分析网站开发流程表
  • 聊城网站建设招聘佛山如何建立网站
  • 网站建设服务合同范本淘宝网页版登陆
  • 广州 网站 建设微电商平台
  • 广州最大网站建设梦幻西游官网
  • 网站代码有哪些免费签名logo设计
  • 摄影作品可以在哪些网站投稿海外购物app排行
  • 做盗版视频网站违法吗制作企业网站的流程
  • 石家庄网站seo外包网站排名logo怎么做
  • 北京网站开发设计如何用ps做网站导航
  • 网站开发如何无感更新给实体店老板做的网站
  • 企业展示网站建设上海人才信息网