当前位置: 首页 > news >正文

网站由哪儿三部分组成黄石网站建设

网站由哪儿三部分组成,黄石网站建设,长沙sem推广,wordpress 协同 作者#xff5c;李军毅 机构#xff5c;中国人民大学 研究方向 | 文本生成与预训练语言模型 来自 | RUC AI Box 本文介绍了小组发表于EMNLP 2022的非自回归预训练文本生成模型ELMER#xff0c;在生成质量与生成效率方面相比于之前的研究具有很大优势。 进NLP…  © 作者李军毅    机构中国人民大学    研究方向 | 文本生成与预训练语言模型   来自 | RUC AI Box   本文介绍了小组发表于EMNLP 2022的非自回归预训练文本生成模型ELMER在生成质量与生成效率方面相比于之前的研究具有很大优势。  进NLP群—加入NLP交流群 一、背景 自从GPT-2的出现预训练语言模型在许多文本生成任务上都取得了显著的效果。这些预训练语言模型大都采用自回归的方式从左到右依次生成单词这一范式的主要局限在于文本生成的过程难以并行化因此带来较大的生成延迟这也限制了自回归模型在许多实时线上应用的广泛部署例如搜索引擎的查询重写、在线聊天机器人等。并且由于训练过程与生成过程存在差异自回归生成模型容易出现曝光偏差等问题。因此在这一背景下许多研究者开始关注非自回归生成范式——所有文本中的单词同时且独立地并行生成。 与自回归模型相比非自回归模型的生成过程具有并行化、高效率、低延迟等优势但与此同时所有单词独立生成的模式使得非自回归模型难以学习单词间依赖关系导致生成文本质量下降等问题。已有研究提出迭代生成优化、隐变量建模文本映射等方法但仍然难以生成复杂的文本。受到早期退出技术early exit启发我们提出一个高效强大的非自回归预训练文本生成模型——ELMER通过在不同层生成不同单词的方式显式建模单词间依赖关系从而提升并行生成的效果。 二、形式化定义 文本生成的目标是建模输入文本与输出文本 之间的条件概率 。目前常用的三种生成范式为自回归、非自回归和半非自回归范式。 自回归生成 自回归生成模型基于从左到右的方式生成输出文本 每个单词都依赖于输入文本与之前生成的单词。自回归生成模型只建模了前向的单词依赖关系依次生成的结构也使得自回归模型难以并行化。目前大部分预训练生成模型均采用自回归方式包括GPT-2BARTT5等模型。 非自回归生成 非自回归生成模型同时预测所有位置的单词不考虑前向与后向的单词依赖关系 每个单词的生成只依赖于输入文本这一独立生成假设使得非自回归模型易于并行化大大提高了文本生成速度。由于不考虑单词依赖非自回归模型的生成效果往往不如自回归模型。 半非自回归生成 半非自回归生成模型介于自回归与非自回归生成之间 每个单词的生成依赖于输入文本和部分可见上下文其中采用不同方式平衡生成质量与生成效率。 三、模型 ELMER模型架构如图1所示。基于早期退出机制early exit在不同层生成的单词可以建立双向的单词依赖关系。为了预训练ELMER我们提出了一个用于非自回归生成广泛建模单词依赖的预训练任务——Layer Permutation Language Modeling。 基于早期退出的Transformer非自回归生成 ELMER采用Transformer架构不同的是我们将解码器中的掩码多头注意力替换为与编码器一致的双向多头注意力用于非自回归生成。特别地对于数据输入文本由编码器编码为隐状态然后我们将一段完全由“[MASK]”单词组成的序列作为解码器输入生成目标文本。对于每一个“[MASK]”单词经过层解码器得到 最后第个单词由最后一层表示计算得到 之前的非自回归模型需要额外模块预测输出文本的长度但是我们通过生成终止单词“[EOS]”动态地确定生成文本的长度即最终的文本为首单词至第一个终止单词。 一般的Transformer模型都在最后一层生成单词使用早期退出技术单词以足够的置信度在低层被生成那么高层单词的生成可以依赖已生成的低层单词从而在非自回归生成过程中建模双向的单词依赖关系。特别地我们在Transformer每一层插入“off-ramp”其使用每一层隐状态表示预测单词如下 这些“off-ramp”可以独立或者共享参数。与之前的早期退出研究聚焦于句子级别不同我们的方法关注单词级别的退出。在训练过程中如果一个单词已经以足够的置信度在第层生成那么隐状态将不会在高层中进行更新我们的模型将直接拷贝至高层。 Layer Permutation预训练 为了在预训练中学习多样化的单词依赖关系我们提出基于早退技术的预训练目标——Layer Permutation Language Modeling (LPLM)对每个单词的退出层进行排列组合。对于长度为的序列每个单词可以在层的任意一层退出因此这一序列所有单词的退出层共有种排列组合。如果模型的参数对于所有组合是共享的那么每个单词都可以学习到来自所有位置的单词的依赖关系。形式化地令表示长度为的序列的所有可能的退出层组合对于任意一个组合基于LPLM的非自回归文本生成概率可以表示为 其中模型在解码器第层退出使用隐状态预测第个单词。 在预训练过程中对于语料中的每一条文本我们只采样中退出层组合计算生成概率。传统的早期退出方法需要计算阈值来估计退出层这对于大规模预训练来说是不方便的而我们提出的LPLM预训练目标自然而然地避免了对退出层的估计。遵循BART模型的预训练模式我们将打乱的文本输入模型并采用基于LPLM的非自回归生成方式还原文本我们主要采用sentence shuffling和text infilling两种打乱方式。 下游微调 经过预训练的非自回归生成模型ELMER可以微调至下游各种文本生成任务。在微调阶段可以使用小规模的任务数据集为每个生成单词估计其退出层。在论文中我们主要考虑两种早期退出方式hard early exit与soft early exit。 1Hard Early Exit这是一种最简单直接的早期退出方式。通过设置阈值并计算退出置信度决定模型是否在某层退出结束生成。我们使用生成概率分布的熵来量化单词生成的退出置信度如下式 模型生成概率分布的熵越低意味着生成单词的退出置信度越高。因此当熵低于事先设定的阈值时模型将在此层退出并生成单词。 2Soft Early Exit上述方法对于每个单词只退出一次并生成因此会发生错误生成的情况。而soft方法则在每一层都计算单词生成概率并将中间层生成的单词传递至下一层继续进行计算。特别地在位置解码器的第层我们使用第层的off-ramp计算生成单词 然后我们将预测单词的向量与当前层的隐状态拼接经过一个线性层传递至下一层作为新的表示 与hard方法相比soft方法在每层预测单词并将预测结果传递至下一次预测因此可以起到修正预测的作用。 四、实验 1预训练设置 我们收集了16G的数据包括Wikipedia和BookCorpus作为预训练语料。ELMER采用6层的编码器与解码器隐藏层维度为768与大部分自回归例如BART与非自回归BANG预训练生成模型的base版本一致。我们使用2e-4的学习率从头开始训练模型批大小为4096。我们采用BART模型的词表在预训练过程中共享所有层的off-ramp参数预训练语料中的每条序列采样10种退出层组合进行训练。相关代码与模型已开源至https://github.com/RUCAIBox/ELMER. 2微调数据集 我们微调ELMER至三种文本生成任务与数据集XSUM为摘要任务数据集SQuAD v1.1为问题生成任务数据集PersonaChat为对话生成任务数据集。 3基准模型 实验中设置三类基准模型作为对比1自回归生成模型TransformerMASSBART和ProphetNet2非自回归生成模型NATiNATCMLMLevT和BANG3半非自回归生成模型InsTiNATCMLMLevT和BANG。 4评测指标 我们从effectiveness与efficiency两个方面评测模型效果。我们使用ROUGEBLEUMETEOR和Distinct来评测模型生成文本的effectiveness设置生成批大小为1并计算每条样本的生成时间来评测模型生成文本的efficiency。 5实验结果 表1与表2展示了在三个任务和数据集上的实验结果。我们的ELMER-soft方法超越了大部分非自回归与半非自回归生成模型展示出我们的模型在生成文本上的有效性。相比于基准模型我们的模型采用早期退出技术可以在并行生成过程中建模单词间依赖关系保证了生成文本的质量。 除此以外ELMER取得了与自回归预训练模型相似的结果并超越了非预训练的Transformer模型进一步缩小了非自回归生成模型与自回归生成模型在生成质量上的差距。对于对话任务虽然ELMER在ROUGEBLEU等指标不如NAT等模型但非常重要的Distinct指标却表现很好说明我们方法能够生成较为多样的文本。 最后在生成文本的效率上ELMER的生成效率相比自回归模型具有非常大的优势对比其他非自回归模型如LevT也具有更快的生成速度。 五、结论 我们提出了一个高效强大的非自回归预训练文本生成模型ELMER通过引入单词级别的早期退出机制模型可以在并行生成文本的过程中显式建模前后单词依赖关系。更重要的我们提出了一个新的预训练目标——Layer Permutation Language Modeling对序列中每个单词的退出层进行排列组合。最后在摘要、问题生成与对话三个任务上的实验结果表明我们的ELMER模型无论是生成质量还是生成效率都具有极大优势。 进NLP群—加入NLP交流群 知识星球NLP学术交流与求职群 持续发布自然语言处理NLP每日优质论文解读、相关一手资料、AI算法岗位等最新信息。 加入星球你将获得 1. 最新入门和进阶学习资料。包含机器学习、深度学习、NLP等领域。 2. 最新最优质的的论文速读。用几秒钟就可掌握论文大致内容包含论文一句话总结、大致内容、研究方向以及pdf下载。 3. 具体细分NLP方向包括不限于情感分析、关系抽取、知识图谱、句法分析、语义分析、机器翻译、人机对话、文本生成、命名实体识别、指代消解、大语言模型、零样本学习、小样本学习、代码生成、多模态、知识蒸馏、模型压缩、AIGC、PyTorch、TensorFlow等细方向。 4. NLP、搜广推、CV等AI岗位招聘信息。可安排模拟面试。
http://www.dnsts.com.cn/news/219104.html

相关文章:

  • 谷歌网站地图网站模板d一品资源网
  • 建立网站如何百度知道官网手机版
  • 中山网站建设gdyouzi医院网站站群建设方案
  • 网站服务器怎么搭建石家庄市城乡建设学校网站
  • 大朗镇网站建设谷歌优化和谷歌竞价的区别
  • WordPress金融网站网站维护中 源码
  • 网址大全123官方网站一汽奔腾ai生成建筑网站
  • 专业医疗网站建设网站安全建设 应用开发
  • 做网站 博客深圳外贸公司多吗
  • 学ui可以做网站么学校网站建设说明材料
  • 网页设计网站怎么做注册网站会员会泄露信息吗
  • 网站设计开发网站网站建设平台多少钱
  • asp一个空间建多个网站系统盱眙建设局网站
  • 网站开发补充合同网页浏览器英文缩写
  • 网站关键词排名怎么做上去wordpress 照片墙 插件
  • 网站建设罒金手指下拉壹陆成都网站建设询q479185700霸屏
  • 公司网站 备案android项目实战
  • 如何做切片网站微网站分享功能
  • 北海 做网站 英文订阅号申请
  • 中职示范校建设验收网站枝江市住房和城乡建设局网站
  • 中国建设银行官网站e路护下载北京网约车租车公司哪家好
  • 建设中小企业网站wordpress用户发文章数量
  • 做肥料网站网站排名软件利搜
  • 单位网站建设情况总结wordpress链接插件
  • 网站建设公司是什么电影的网络营销方式
  • 网站建设合作协议申请购物网站黑白
  • 网站百度优化开一家网站建设公司
  • 网站备案最新备案号百度秒收录软件工具
  • 福田公司股票怎么做网站内部链接的优化
  • 国税网站上如何做股权变更鲁斌 42450745 网站建设