当前位置: 首页 > news >正文

服装网站网络建设和硬件资源安卓手机应用开发

服装网站网络建设和硬件资源,安卓手机应用开发,wordpress预约小程序,wordpress zip文章目录Transformer模型结构构成组件整体流程GPT预训练微调模型GPT2GPT3局限性GPT4相关论文Transformer Transformer#xff0c;这是一种仅依赖于注意力机制而不使用循环或卷积的简单模型#xff0c;它简单而有效#xff0c;并且在性能方面表现出色。 在时序模型中#… 文章目录Transformer模型结构构成组件整体流程GPT预训练微调模型GPT2GPT3局限性GPT4相关论文Transformer Transformer这是一种仅依赖于注意力机制而不使用循环或卷积的简单模型它简单而有效并且在性能方面表现出色。 在时序模型中2017年最常用的模型是循环神经网络(RNN)RNN是一种序列模型通过将之前的信息存储在隐藏状态中使得它能够有效地处理时序信息。然而由于RNN是按照时间步骤逐个计算的因此它不易并行化导致它在计算性能上存在缺陷。 Transformer模型完全基于注意力机制而不再使用循环神经网络。由于注意力机制可以并行化因此Transformer具有更好的并行性能和更好的实验结果。 模型结构 构成组件 编码器和解码器图中左侧为编码器右侧为解码器。注意力机制注意力函数是将一个query和一系列key-value映射成一个output的函数这里的query、key、value、output都是一些向量。权重是由value对应的key和query的compatibility function相似度计算得来的Transformer里面用的注意力算法是“Scaled Dot-Product Attention”。多头注意力Multi-Head Attention把query、key、value投影到一个低维投影h次然后再做h次的注意力函数将每个函数的输出并在一起再投影回来得到最终的输出。带掩码自注意力层Masked Multi-Head Attention 因为在解码器中算第n个query对应的输出的时候是不能看到后面内容的值的所以后面所有内容的权重要通过这种方式设置成0。前馈网络fully connected feed-forward network可以理解为一个MLP多层感知器会利用它来进行语义空间的转换Attention层用于抓取整个序列的信息并进行汇聚。Embeddings输入是一个个的词或者叫词源token需要把它映射成一个个向量。Embeddings就是给定任何一个词用长为d的一个向量来表示它。Positional EncodingAttention机制缺乏时序信息。Positional Encoding可以将每个词在句子中的位置信息加入到嵌入层中从而为Attention机制提供了时序信息。 整体流程 输入数据生成词的嵌入式向量表示(Embedding)生成位置编码Positional Encoding简称PE。进入Encoders部分。先进入多头注意力层(Multi-Head Attention是自注意力处理然后进入全连接层又叫前馈神经网络层每层都有ResNet、Add Norm。每一个Encoder的输入都来自前一个Encoder的输出但是第一个Encoder的输入就是 Embedding PE。进入Decoders部分。先进入第一个多头注意力层是Masked自注意力层再进入第二个多头注意力层是 Encoder-Decoder 注意力层每层都有ResNet、AddNorm。每一个Decoder 都有两部分输入。 Decoder的第一层Maksed多头自注意力层的输入都来自前一个Decoder的输出但是第一个Decoder是不经过第一层的因为经过算出来也是0。 Decoder 的第二层Encoder-Decoder 注意力层的输入Query都来自该Decoder的第一层且每个Decoder的这一层的Key、Value都是一样的均来自最后一个Encoder。最后经过 Linear、Softmax归一化。 GPT 论文作者取了标题中“generative pre-training”将模型命名为GPT。 在自然语言理解中存在许多不同的任务但标记数据相对较少。因此针对这个问题一种解决方法是在没有标注的数据上训练一个预训练模型然后在有标记的数据上进行微调。 GPT模型基于Transformer架构。与循环神经网络RNN相比Transformer在迁移学习方面更加稳健因为它具有更结构化的记忆可以处理更长的文本并从句子和段落层面提取更好的语义信息。 预训练 该模型从输入的K个单词和模型参数中预测下一个单词的出现概率。将每个单词的预测概率加起来就得到了目标函数。目标就是通过训练模型使其能够输出与给定文本类似的文章。 微调模型 在微调任务中有两个目标函数。一个是预测下一个单词另一个是预测给定完整序列的标签。通过对它们的加权平均来平衡这两个目标函数。 自然语言处理任务的多样性也导致了需要为每个任务构建不同的模型GPT采用的解决方案是改变输入的形式而不是改变模型本身。 NLP中四种常见的用户任务 “分类”classification例如对一段文本进行情感分类判断其是正面还是负面。“蕴含”entailment即判断一段文本是否蕴含某种假设。“相似”similarity即判断两段文本的相似程度。“多选题”multiple choice即从多个答案中选择正确的答案。 在GPT模型中它们都可以表示为一个序列和对应的标签。 GPT2 在进行下游任务时使用一个称为“zero shot”的设置。也就是说在进行下游任务时不需要下游任务的任何标注信息也不需要再次训练模型然后得到了差不多的结果。这种方法的好处是只需训练一个模型便可以在任何地方使用。 GPT3 GPT3是为了解决GPT2的有效性而设计的。因此它回到了GPT一开始考虑的few-shot学习的设置即不再追求太过极致的性能表现而是在有限的样本上提供有用的信息。 few-shot是指通过提供一些样例来学习而不是像传统的训练方式那样需要大规模的数据集进行训练。 这样做的好处在于无需耗费大量的时间和成本来收集和标注数据集而且模型可以更加关注于样例之间的共性从而提高模型的泛化能力。 在GPT3的微调设置里他是要求不做梯度更新的。 在 Meta Learning 中模型不仅要学习如何解决特定的任务还要学习如何快速适应新的任务。这样的训练方法有助于提高模型的泛化能力使得模型在新的领域中表现更好。 in-context learning 是另一种训练模型的方法。它指的是在给定一个任务的上下文中让模型从少量样本中学习如何解决这个任务。in-context learning 只会对给定的任务产生影响不会改变模型的权重。 局限性 在人类语言中有些词是必须要记住的而有些则不是。但GPT3无法区分它们的重要性。由于训练数据来自整个网络上的文章其有效性可能不高。对于人类来说这种方式可能不可靠。像许多深度学习模型一样GPT3无法解释。 GPT4 主要是功能性描述介绍。 GPT-4是一个大型多模型它在某些困难的专业和学术基准测试中具有人类水平的表现。GPT-4 的一个重点是构建可预测扩展的深度学习堆栈。OpenAI在GPT-4的开发和部署过程中实施了各种安全措施和流程减少了它产生有害内容的能力。 相关论文 《Attention is all you need》[J]. Advances in neural information processing systems, 2017. 《Improving language understanding by generative pre-training》[J]. 2018. 《Language models are unsupervised multitask learners》[J]. OpenAI blog, 2019. 《Language models are few-shot learners》[J]. Advances in neural information processing systems, 2020 《GPT-4 Technical Report》 《GPT-4 System Card》
http://www.dnsts.com.cn/news/237534.html

相关文章:

  • 网站建设 中企动力嘉兴0573资深网站
  • 网站开发和前端开发wordpress 博客搬家
  • 北郊网站建设公司中小型网站建设
  • 华为网站建设招聘网站生成静态
  • 爱站网关键字查询凯里网站建设
  • 网站正在建设中手机版天津塘沽爆炸案处理结果
  • asp静态网站sem优化怎么做
  • 无锡中英文网站建设网站兼容9
  • 科技网站模板wordpress大门户主题
  • 做网站需要用socket吗wordpress企业mip模板
  • 厦门工程建设招聘信息网站做外贸常用网站
  • 自己想做网站怎么做h5源码下载
  • 域名抢注网站深圳住房和建设管理局官方网站
  • 西部数码网站管理助手 没有d盘wordpress还能用
  • 建立个人网站服务器西部数码网站管理软件
  • php网站连接数据库网站建设会议记录
  • 网站做营销推广php做网站模板
  • 杭州有哪些做网站的公司好自定义菜单WordPress
  • wordpress调用当着文章tag标签seo资料
  • 沈阳网站建设开发维护网站公司建设都招聘那些职位
  • 优质的做网站百度账号设置
  • 做ppt到哪个网站找图片学做网站需要
  • 社交媒体 网站wordpress cookie失效
  • 地方门户网站开发电子商务网站建设和推广
  • 北京市城乡建设部网站首页十大邮箱app排行榜
  • 龙岩网站建设加盟怎么做网站反向链接
  • 做网站有地区差异吗网站建设 服饰鞋帽
  • 成都市住房和城乡建设部网站中国电商集团股份有限公司
  • 网站双线选择天津网站建设-中国互联
  • 北京网站建设比较好的公司wordpress页面添加水印