当前位置: 首页 > news >正文

做网站的公司应该做收录嘛百度风云榜热搜

做网站的公司应该做收录嘛,百度风云榜热搜,房地产宣传软文,网站的空间和域名是啥文章目录 Transformer1、各部分功能解释2、通过例子解释a.输入预处理位置编码b.Encoder 的处理c.Decoder的输入Decoder的工作流程d.输出预测总结 Attention代码和原理理解 Transformer 运行机理#xff1a; #xff08;1#xff09;假设我们需要进行文本生成任务。我们将已… 文章目录 Transformer1、各部分功能解释2、通过例子解释a.输入预处理位置编码b.Encoder 的处理c.Decoder的输入Decoder的工作流程d.输出预测总结 Attention代码和原理理解 Transformer 运行机理 1假设我们需要进行文本生成任务。我们将已经有的文本首先通过词嵌入并进行位置编码作为输入输入到encoder中encoder的目的是使得词不仅仅有了自己的信息还有了自己上下文的信息即全局信息即词有了语义信息。 2在训练时我们使用当前已经预测出来的词作为decoder的输入当然这些词使用的是正确的词即使可能预测过程中有错误也使用掩码掩盖未来的词我们将其与encoder输出的向量进行结合使用注意力层最后使用全连接得到新的预测结果得到一个预测接下来我们继续将这个预测的词增加作为decoder的输入直到预测结束。 注意 Decoder的输入从一个特定的起始符号开始并逐步使用之前步骤生成的词来生成新的词直到序列完成。Encoder的输入在整个序列生成过程中保持不变为Decoder提供必要的上下文信息。 1、各部分功能解释 Transformer快速入门 标准的 Transformer 模型主要由两个模块构成 Encoder左边负责理解输入文本为每个输入构造对应的语义表示语义特征 Decoder右边负责生成输出使用 Encoder 输出的语义表示结合其他输入来生成目标序列。Decoder的输入是当前预测出来的文本在训练时是正确文本而预测时是预测出来的文本。 当然都包含位置编码训练时也需要使用掩码。 这两个模块可以根据任务的需求而单独使用 纯 Encoder 模型适用于只需要理解输入语义的任务例如句子分类、命名实体识别 纯 Decoder 模型适用于生成式任务例如文本生成 Encoder-Decoder 模型或 Seq2Seq 模型适用于需要基于输入的生成式任务例如翻译、摘要。 2、通过例子解释 Transformer模型在处理 “Harry Potter is a wizard and hates __ the most.” 这一句子时的工作流程和各个组件的作用。 a.输入预处理 假设我们的句子 “Harry Potter is a wizard and hates” 已经通过分词处理并且每个词都被映射到了一个整数ID。例如 Harry - 2021Potter - 1057is - 56a - 15wizard - 498and - 7hates - 372 这些整数ID接着被转换为词嵌入向量。词嵌入层会从一个预训练的嵌入矩阵中提取每个ID对应的向量。 位置编码 对于 “Harry Potter is a wizard and hates” 这七个词Transformer还需要知道每个词的位置。因此每个词嵌入向量会加上一个位置向量位置向量通过一定的函数如正弦和余弦函数生成以反映词在句子中的顺序。 b.Encoder 的处理 经过词嵌入和位置编码后这组向量输入到Encoder。Encoder中的每一层都包括两部分多头自注意力机制和前馈神经网络。 多头自注意力机制允许模型评估每个词与句子中其他词的关系强度。这有助于捕获比如Harry Potter和wizard之间的联系。前馈神经网络对自注意力层的输出进行进一步转换。 每一层的输出都会被送入下一层直到最后一层。Encoder的最终输出是一个加工过的、包含整个句子信息的向量序列。 好的让我来更详细地解释Transformer模型中Decoder的工作机制特别是它的输入是如何处理的。 c.Decoder的输入 在理解Decoder的输入之前我们首先要明确Transformer模型通常用于处理序列到序列的任务比如机器翻译、文本摘要等。在这些任务中Decoder的角色是基于Encoder的输出生成一个输出序列。 假设我们的任务是文本填空比如在句子 “Harry Potter is a wizard and hates __ the most.” 中填入缺失的部分。在实际应用如训练或预测过程中Decoder的输入通常有两部分 已知的输出序列的前缀这是模型在生成每个新词时已经生成的输出序列的部分。在训练阶段这通常是目标序列ground truth中的前缀在推理阶段这是模型逐步生成的输出。例如如果我们预测的第一个词是 “Voldemort”那么在预测下一个词时“Voldemort” 就成了已知的输出序列的前缀。 位置编码和Encoder相同每个词的词嵌入会加上位置编码。位置编码帮助模型理解词在序列中的位置关系这对于生成有顺序关系的文本尤其重要。 Decoder的工作流程 在得到输入后Decoder的每一层会执行以下几个操作 掩蔽多头自注意力Masked Multi-Head Self-Attention 这一步骤和Encoder中的自注意力类似但有一个关键区别它会使用掩蔽masking来防止未来位置的信息泄漏。这意味着在生成第 ( n ) 个词的预测时模型只能访问第 ( n-1 ) 个词及之前的词的信息。例如当模型正在生成 “Voldemort” 后面的词时它不能“看到”这个词之后的任何词。 编码器-解码器自注意力Encoder-Decoder Attention 这一步是Decoder的核心部分其中Decoder利用自己的输出作为查询Query而将Encoder的输出作为键Key和值Value。这允许Decoder根据自己已经生成的文本部分通过查询和输入句子的语义表示通过键和值生成下一个词的预测。这是一个信息整合的过程通过Encoder的上下文信息来指导输出序列的生成。 前向馈网络Feed-Forward Network 与Encoder中相同每个自注意力层后面都会跟一个前向馈网络这个网络对每个位置的输出独立处理进一步转换特征表示。 d.输出预测 Decoder的输出通过一个线性层和softmax层生成每个可能词的概率分布。选择概率最高的词作为预测结果。 总结 因此在Decoder中输入主要是基于到目前为止已经生成的输出序列加上位置信息而这些输入通过Decoder的多层结构进行处理每层都包括掩蔽自注意力、编码器-解码器自注意力和前向馈网络以生成最终的输出序列。这种结构设计使得Transformer能够在考虑到整个输入序列的上下文的同时逐步构建输出序列。
http://www.dnsts.com.cn/news/23881.html

相关文章:

  • 不用cms怎么做网站整站优化网站报价
  • 网站商品管理功能淘宝联盟如何建设个人网站
  • 产品介绍网站html源码上海高端网站建
  • 简单的html网站开发甘肃省住房和城乡建设厅网站
  • 自己搭建小程序seo推广是什么意思呢
  • 网站开发环境 对比互联网设计是什么
  • 十堰网站建设是什么沈阳建设工程信息网 采购甲方都在中项网
  • 涿州做软件和网站的十大网站建设公司
  • 沈阳做网站哪家便宜wordpress智能插件
  • 网站推广效益怎么分析sem推广计划
  • 杭州网站建设制作公司seo培训
  • 东营聊城网站建设改变关键词对网站的影响
  • 法语网站建设怎样免费建立自己的网站
  • 重庆建工集团建设网站wordpress 强制ssl
  • 龙华营销型网站设计设计教程网站
  • 浏览器正能量网站联合年检在什么网站做
  • 合肥市住房建设局网站网站优化排名易下拉用法
  • 大连网站建设短期培训班济南网站建设 力推聚搜网络
  • 虚拟机做门户网站如何绑定域名asp网站如何打开
  • 疗养院有必要做网站吗企业网站策划怎么样
  • 风中有朵雨做的云电影网站网站建设管理调研提纲
  • 直播网站制作网站优化柳州
  • cms代码做网站云适配 网站
  • 知名的传媒行业网站开发企业网站建设联系
  • 建立个人网站主题做网站商城的目的是什么
  • 网站详细页制作建设网站考虑因素
  • 找人做一下网站大概多少钱wordpress category
  • wordpress转载微博百度推广seo自学
  • 网站制作 常州做美食的视频网站有哪些
  • 做一款推荐类的网站中国建筑协会证书查询