当前位置: 首页 > news >正文

域名怎么绑定自己网站网站建设沈阳公司哪家好

域名怎么绑定自己网站,网站建设沈阳公司哪家好,杭州网站开发招聘,软件商店电脑版下载目录 #x1f354; GPT介绍 #x1f354; GPT的架构 #x1f354; GPT训练过程 3.1 无监督的预训练语言模型 3.2 有监督的下游任务fine-tunning #x1f354; 小结 学习目标 了解什么是GPT.掌握GPT的架构.掌握GPT的预训练任务. #x1f354; GPT介绍 GPT是OpenAI公… 目录 GPT介绍 GPT的架构 GPT训练过程 3.1 无监督的预训练语言模型 3.2 有监督的下游任务fine-tunning 小结 学习目标 了解什么是GPT.掌握GPT的架构.掌握GPT的预训练任务. GPT介绍 GPT是OpenAI公司提出的一种语言预训练模型.OpenAI在论文 Improving Language Understanding by Generative Pre-Training 中提出GPT模型.OpenAI后续又在论文 Language Models are Unsupervised Multitask Learners 中提出GPT2模型. GPT和GPT2模型结构差别不大, 但是GPT2采用了更大的数据集进行训练. OpenAI GPT模型是在Google BERT模型之前提出的, 与BERT最大的区别在于GPT采用了传统的语言模型方法进行预训练, 即使用单词的上文来预测单词, 而BERT是采用了双向上下文的信息共同来预测单词. 正是因为训练方法上的区别, 使得GPT更擅长处理自然语言生成任务(NLG), 而BERT更擅长处理自然语言理解任务(NLU). GPT的架构 看三个语言模型的对比架构图, 中间的就是GPT: 从上图可以很清楚的看到GPT采用的是单向Transformer模型, 例如给定一个句子[u1, u2, ..., un], GPT在预测单词ui的时候只会利用[u1, u2, ..., u(i-1)]的信息, 而BERT会同时利用上下文的信息[u1, u2, ..., u(i-1), u(i1), ..., un]. 作为两大模型的直接对比, BERT采用了Transformer的Encoder模块, 而GPT采用了Transformer的Decoder模块. 并且GPT的Decoder Block和经典Transformer Decoder Block还有所不同, 如下图所示: 如上图所示, 经典的Transformer Decoder Block包含3个子层, 分别是Masked Multi-Head Attention层, encoder-decoder attention层, 以及Feed Forward层. 但是在GPT中取消了第二个encoder-decoder attention子层, 只保留Masked Multi-Head Attention层, 和Feed Forward层. 作为单向Transformer Decoder模型, GPT利用句子序列信息预测下一个单词的时候, 要使用Masked Multi-Head Attention对单词的下文进行遮掩, 来防止未来信息的提前泄露. 例如给定一个句子包含4个单词[A, B, C, D], GPT需要用[A]预测B, 用[A, B]预测C, 用[A, B, C]预测D. 很显然的就是当要预测B时, 需要将[B, C, D]遮掩起来. 具体的遮掩操作是在slef-attention进行softmax之前进行的, 一般的实现是将MASK的位置用一个无穷小的数值-inf来替换, 替换后执行softmax计算得到新的结果矩阵. 这样-inf的位置就变成了0. 如上图所示, 最后的矩阵可以很方便的做到当利用A预测B的时候, 只能看到A的信息; 当利用[A, B]预测C的时候, 只能看到A, B的信息. 注意: 对比于经典的Transformer架构, 解码器模块采用了6个Decoder Block; GPT的架构中采用了12个Decoder Block. GPT训练过程 GPT的训练也是典型的两阶段过程: 第一阶段: 无监督的预训练语言模型.第二阶段: 有监督的下游任务fine-tunning. 3.1 无监督的预训练语言模型 给定句子U [u1, u2, ..., un], GPT训练语言模型时的目标是最大化下面的似然函数: 有上述公式可知, GPT是一个单向语言模型, 假设输入张量用h0表示, 则计算公式如下: 其中Wp是单词的位置编码, We是单词本身的word embedding. Wp的形状是[max_seq_len, embedding_dim], We的形状是[vocab_size, embedding_dim]. 得到输入张量h0后, 要将h0传入GPT的Decoder Block中, 依次得到ht: 最后通过得到的ht来预测下一个单词: 3.2 有监督的下游任务fine-tunning GPT经过预训练后, 会针对具体的下游任务对模型进行微调. 微调采用的是有监督学习, 训练样本包括单词序列[x1, x2, ..., xn]和label y. GPT微调的目标任务是根据单词序列[x1, x2, ..., xn]预测标签y. 其中Wy表示预测输出的矩阵参数, 微调任务的目标是最大化下面的函数: 综合两个阶段的目标任务函数, 可知GPT的最终优化函数为: 小结 学习了什么是GPT. GPT是OpenAI公司提出的一种预训练语言模型.本质上来说, GPT是一个单向语言模型. 学习了GPT的架构. GPT采用了Transformer架构中的解码器模块.GPT在使用解码器模块时做了一定的改造, 将传统的3层Decoder Block变成了2层Block, 删除了encoder-decoder attention子层, 只保留Masked Multi-Head Attention子层和Feed Forward子层.GPT的解码器总共是由12个改造后的Decoder Block组成的. 学习了GPT的预训练任务. 第一阶段: 无监督的预训练语言模型. 只利用单词前面的信息来预测当前单词.第二阶段: 有监督的下游任务fine-tunning.
http://www.dnsts.com.cn/news/122142.html

相关文章:

  • 汕头网站排名网站大幅广告
  • 可信赖的做网站网站建设费用计入无形资产
  • 网站搜什么关键词中企动力网站培训
  • 建设网站怎么创建数据库喀什网站制作
  • 网站弹窗公告代码网站建设筹备方案
  • 网站虚拟空间过期做英文网站要多少钱
  • 大一网页设计个人网站代码长沙有几个区
  • 网站开发 浏览器兼容性加强服务保障 满足群众急需需求
  • 网站开发工程师和软件工程建设网站中存在的问题
  • ppp模式在网站建设的网络舆情监测工作
  • 如何做百度的网站凡科建站的模板 怎么弄下来
  • 存储网站建设alpine wordpress
  • 在淘宝做网站可以退货退款么2023年专升本最新政策
  • 中国少数民族网站建设大连工程建设信息网
  • 长沙百度搜索网站排名360网站推广费用
  • h5手机网站实例怎样自己制作网站
  • 做网站先得注册域名吗软件应用商店下载安装
  • 温州专业营销网站建设电子工程师是干啥的
  • 机械加工网站大全在线设计平台源码
  • 联邦快递的网站建设打开小程序
  • 郑州营销型网站建设公司app网站建设教程视频教程
  • dedecms 建两个网站的问题淘客网站做单品类
  • 休闲度假村网站建设方案二级网站开发 一级关系
  • 一个网站余姚什么网站ip地址范围
  • 188旅游网站管理系统6.0模板网站首页设计
  • 北京asp网站设计制作2003网站的建设
  • 上传到网站根目录网站首页上海网站建设公司
  • 门户网站建设所需条件fireworks做网站
  • 企业网站开发公司-北京公司wordpress侧边菜单栏
  • 大淘客网站建设apph5海报免费制作软件