厦门网站建设公司闽icp,中文网站设计,外贸网站平台排名,手工做火枪的网站【大模型慢学】GPT起源以及GPT系列采用Decoder-only架构的原因探讨 - 知乎本文回顾GPT系列模型的起源论文并补充相关内容#xff0c;中间主要篇幅分析讨论为何GPT系列从始至终选择采用Decoder-only架构。 本文首发于微信公众号#xff0c;欢迎关注#xff1a;AI推公式最近Ch…【大模型慢学】GPT起源以及GPT系列采用Decoder-only架构的原因探讨 - 知乎本文回顾GPT系列模型的起源论文并补充相关内容中间主要篇幅分析讨论为何GPT系列从始至终选择采用Decoder-only架构。 本文首发于微信公众号欢迎关注AI推公式最近ChatGPT系列越来越火爆不只在计算机圈内其…https://zhuanlan.zhihu.com/p/625184011为什么现在的LLM都是Decoder only的架构 - 知乎相比encoder-decoder架构只使用decoder有什么好处吗https://www.zhihu.com/question/588325646/answers/updatedGPT本质是文字接龙。 目前公认的大语言模型具有zero-shot泛化能力但是大模型各种各样从模型架构到预训练目标差异巨大因此通过排列组合来做对比实验。上图就是模型架构、预训练目标、adaptation、multitask finetuning四个变量的排列组合。
训练LM的架构包括
encoder-decoderT5ED。
decoder-onlyGPT主流是causal decoder简称CD只有前向注意力。
prefix LM采样一段文本然后选择一个随机点将其拆分为前缀和目标部分前缀作为输入目标作为输出。又叫non-causal decoder-only简称ND输入的前一部分是双向注意力后一部分是单向注意力。 预训练目标
full language modelingFLM完整的一段话从头到尾基于上文预测下一个tokenGPT系列和CD搭配。
prefix language modelingPLM一段话分成两部分前一部分作为输入预测后一部分和EDND搭配。
masked language modelingMLM训练bert时的完形填空遮盖住文本中一部分token让模型通过上下文猜测遮盖部分的token可以像T5一样将任务改造成text2text形式input和target都是一段文本可以适配ND和ED如果将input和target拼接起来就可以适配CD。 adaptation
对大模型进行改造比如T5的预训练目标是MLM不是一个很好的生成模型把目标改成PLM或FLM继续训练和微调不同再次训练用的数据不是下游数据而是额外的无监督文本数据。FLM预训练的CD模型通过切换掩码变成ND模型在通过MLM目标改造可以用于完形填空前者交language modeling adaptation(LM-A)后者称为non-causal MLM adaptation(NC-A)。
multitask finetuning:
多任务微调在一百多个已知任务的prompt数据做微调能极大提升预训练模型在未知任务上的zero-shot能力。
结论
1.如果大模型只做无监督预训练CDFLM的zero-shot效果最佳。
2.无监督预训练multitask finetuningEDMLM效果最佳。
3.CDFLM获得最佳语言模型进过ND MLM adaptation再通过multitask效果最佳。
为什么只用decoder-only?
苏建林理论上encoder的双向注意力会存在低秩带来表达能力下降decoder-only的attention是满秩的encoder-decoder在某些场景更好大概只是因为其多了一倍参数。