有可以花钱让人做问券的网站吗,网站建设合同属于什么类别,楼盘网官网,兰州最好的互联网公司Large Language Model系列之二#xff1a;Transformers和预训练语言模型
1 Transformer模型
Transformer模型是一种基于自注意力机制的深度学习模型#xff0c;它最初由Vaswani等人在2017年的论文《Attention Is All You Need》中提出#xff0c;主要用于机器翻译任务。随…Large Language Model系列之二Transformers和预训练语言模型
1 Transformer模型
Transformer模型是一种基于自注意力机制的深度学习模型它最初由Vaswani等人在2017年的论文《Attention Is All You Need》中提出主要用于机器翻译任务。随后Transformer模型因其出色的性能和灵活性被广泛应用于各种自然语言处理NLP任务如文本分类、问答系统、文本摘要等以及计算机视觉领域中的一些任务。 以下是Transformer模型的几个关键特点
自注意力机制Self-Attention 允许模型在编码编码器或解码解码器过程中计算序列中每个元素对于其他所有元素的注意力权重从而捕捉序列内部的长距离依赖关系。编码器-解码器架构Encoder-Decoder Architecture Transformer模型由编码器和解码器组成编码器处理输入序列解码器生成输出序列。多头注意力Multi-Head Attention 模型并行地执行多个注意力函数每个头学习输入的不同表示然后将这些表示合并以捕获不同子空间的信息。位置编码Positional Encoding 由于Transformer模型缺乏递归和卷积结构因此需要位置编码来提供序列中单词的位置信息。前馈网络Feed-Forward Networks 在每个编码器和解码器层中自注意力层的输出会通过一个前馈神经网络进一步提取特征。层归一化Layer Normalization 和 残差连接Residual Connections 这些技术有助于避免训练过程中的梯度消失问题使得可以训练更深的网络。并行处理能力 与循环神经网络RNN相比Transformer模型可以并行处理整个序列这大大提高了模型的计算效率。可扩展性 Transformer模型可以通过简单地堆叠更多的层或使用更大的模型尺寸来扩展以提高模型的容量。
Transformer模型的成功推动了后续许多变体和改进例如BERTBidirectional Encoder Representations from Transformers、GPTGenerative Pre-trained Transformer和T5Text-to-Text Transfer Transformer等这些模型在预训练和微调范式下取得了显著的成果。
参考资料 1 十分钟理解Transformer 2 The Illustrated Transformer 3 Transformer模型详解图解最完整版 4 万字长文深入浅出Transformer值得收藏
2 早期PLMs
2-1 仅编码器PLMs
仅编码器模型最初为语言理解任务设计如文本分类通过编码器网络将文本转换为类别标签。这类模型的代表包括BERT及其衍生模型如RoBERTa、ALBERT、DeBERTa、XLM、XLNet、UNILM等。
BERT模型
组成嵌入模块、Transformer编码器堆栈、全连接层。 预训练目标掩蔽语言模型MLM和下一个句子预测。 微调应用适用于多种语言理解任务通过添加分类器层进行微调。
变体模型
RoBERTa通过调整超参数和训练策略提高BERT的鲁棒性。 ALBERT采用参数减少技术降低内存消耗加快训练速度。 DeBERTa引入解耦注意力机制和增强的遮蔽解码器提高模型泛化能力。 ELECTRA使用替换token检测RTD作为预训练任务效率更高。
跨语言模型
XLMs将BERT扩展到跨语言模型使用无监督和监督两种方法通过新的跨语言模型目标提高跨语言能力。
这些模型在语言理解任务上取得了显著成果推动了AI社区开发更多基于BERT的仅编码器语言模型。
2-2 仅解码器PLM
在仅解码器预训练语言模型领域OpenAI开发的GPT系列模型扮演了关键角色从GPT-1到GPT-2。
GPT-1模型
创新首次证明仅解码器Transformer模型通过生成式预训练能在多种自然语言处理任务上展现优异性能。 预训练在大量未标记文本上进行自监督学习目标是预测下一个词。 微调在特定下游任务上进行微调需要的样本数量较少。 影响为后续GPT模型奠定了基础每一代都在架构上进行了优化提升了语言任务的性能。
GPT-2模型
能力在大规模WebText数据集上训练展示了语言模型在无明确监督的情况下执行特定任务的能力。 改进在GPT-1的基础上进行了架构上的调整包括层归一化的位置变动、增加额外的层归一化、修改初始化过程、调整残差层权重。 扩展扩大了词汇量至50,257个并将上下文大小从512个标记增加至1024个标记。
GPT系列模型通过逐步的架构优化和扩展实现了在自然语言处理领域的显著进步为大型语言模型的发展提供了坚实的基础。
2-3 编码器-解码器PLM
Raffle等人提出几乎所有的自然语言处理NLP任务都可被视为序列到序列的生成任务。基于这一理念编码器-解码器语言模型被设计为一个统一框架能够处理所有自然语言理解和生成任务。以下是几个代表性的编码器-解码器预训练语言模型PLM的概览
T5模型
框架T5是一个文本到文本转换的Transformer模型将所有NLP任务统一为文本到文本的生成任务有效利用迁移学习。 特点通过转换任务格式T5能够处理广泛的NLP任务。
mT5
多语言支持mT5是T5的多语言版本预训练涉及101种语言基于Common Crawl的多语言数据集。
MASS模型
遮蔽序列到序列预训练MASS采用编码器-解码器框架通过遮蔽句子片段并预测这些片段来同时训练编码器和解码器用于语言嵌入和生成。
BART模型
训练方式BART基于标准的序列到序列翻译模型架构通过引入噪声并学习重构原始文本进行预训练。
这些模型展示了编码器-解码器架构在处理多样化NLP任务时的灵活性和强大能力推动了自然语言理解和生成任务的进展。
3 大型语言模型LLMs 3-1 GPT 家族
GPT家族是由OpenAI开发的一系列仅解码器Transformer语言模型涵盖了从GPT-1到GPT-4等多个版本以及其他衍生模型如CODEX、WebGPT、InstructGPT和ChatGPT。
开源与封闭源代码
早期的GPT-1和GPT-2模型是开源的而GPT-3和GPT-4等近期模型则是封闭源代码仅通过API提供服务。
GPT-3模型
参数规模GPT-3拥有1750亿参数是一个巨大的自回归语言模型。 能力作为首个真正的大型语言模型LLMGPT-3展示了无需微调即可在多种任务上应用的能力。 性能在翻译、问答等NLP任务上表现卓越且能够处理需要推理或领域适应的任务。
CODEX模型
发布2023年3月发布是一个能将自然语言解析生成代码的通用编程模型。 应用支持GitHub Copilot服务是GPT-3针对编程应用的微调版本。
WebGPT模型
功能经过微调能够使用文本浏览器回答开放式问题帮助用户搜索和浏览网页。 训练包括模仿人类浏览行为、学习奖励函数并通过强化学习进行优化。
InstructGPT
设计旨在使语言模型遵循人类指令通过人类反馈进行微调。 改进提高了真实性减少了有害输出同时保持了在公共NLP数据集上的性能。
ChatGPT
发布2022年11月30日发布是一个能够完成问答、搜索、摘要等任务的聊天机器人。 技术基础基于GPT-3.5和GPT-4遵循InstructGPT的训练理念。
GPT-4模型
最新进展GPT-4是GPT家族中最新且功能最强大的LLM具备多模态能力可以接受图像和文本输入。 性能表现在专业和学术基准测试中展现出与人类相媲美的性能。 训练与微调通过预训练和RLHF微调使模型行为与人类期望一致。
GPT家族的模型不仅在规模上不断增长而且在能力上也不断创新推动了自然语言处理技术的发展。
3-2 LLaMA 家族
LLaMA家族是由Meta发布的一系列开源基础语言模型旨在推动开源大型语言模型LLMs的发展并为特定任务应用提供定制化的解决方案。与GPT模型不同LLaMA模型在非商业许可下向研究社区开放模型权重。
LLaMA模型
发布时间与规模2023年2月发布的第一组模型参数从70亿到650亿不等。 预训练数据在数万亿标记的公开数据集上进行预训练。 架构创新采用改进的Transformer架构包括SwiGLU激活函数、旋转位置嵌入和均方根层归一化。 性能对比LLaMA-13B模型在基准测试中超越了GPT-3模型。
LLaMA-2
发布背景2023年7月Meta与微软合作发布包括基础语言模型和对话微调的LLaMA-2 Chat。 性能优势在公共基准测试中表现优于其他开源模型。
Alpaca
来源与微调从LLaMA-7B模型微调而来使用自我指导方式生成的遵循指令演示。 成本效益特别适合学术研究性能与GPT-3.5相似但模型规模更小。
Vicuna-13B
开发背景通过对LLaMA模型微调利用用户共享对话开发。 初步评估质量上达到ChatGPT和Google Bard的90%以上训练成本仅为300美元。
Guanaco
微调方法使用QLoRA技术高效微调即使是650亿参数的模型也能在单个GPU上完成。 性能对比在Vicuna基准测试中胜过所有之前发布的模型。
Koala
构建背景基于LLaMA特别关注交互数据包括用户输入和高性能封闭源代码聊天模型生成的响应。 性能评估在现实世界用户提示的评估中与最先进的聊天模型相当。
Mistral-7B
模型特点70亿参数的语言模型采用分组查询注意力和滑动窗口注意力技术。 性能对比在多个基准测试中优于其他开源模型实现了更快的推理和更低的推理成本。
LLaMA家族的模型通过不断的技术创新和性能优化为开源LLMs领域提供了强有力的竞争者推动了自然语言处理技术的发展。
3-3 PaLM 家族
PaLMPathways语言模型家族是由谷歌开发的一系列大型语言模型LLMs以其庞大的规模和高质量的预训练数据而著称。
首款PaLM模型
发布时间2022年4月。 规模基于5400亿参数的Transformer架构。 预训练资源在7800亿个标记的文本语料上预训练使用6144个TPU v4芯片和Pathways系统。 性能和成果PaLM在多个语言理解和生成基准测试中实现了最先进的小样本学习结果部分任务上与人类表现相当。
U-PaLM模型的持续训练
规模提供8B、62B和540B三个规模的模型。 持续训练方法采用UL2R方法实现计算节省。
Flan-PaLM的指令微调
微调特点使用大量任务和数据集进行指令微调。 性能提升在多个任务上显著提高了性能。
PaLM-2模型
性能提升相比前身PaLM-2在多语言和推理能力上表现更佳同时具有更高的计算效率。
Med-PaLM面向医疗领域的专用模型
模型定位专门用于提供高质量医学问题答案。 微调方法使用指令提示微调方法适应医学领域。
Med-PaLM 2的进一步改进
改进方法通过医学领域微调和合成提示进行改进。 性能提升在MedQA数据集上得分显著提高创造了新的最先进水平。
PaLM家族的模型通过不断的技术创新和性能优化在自然语言处理领域展现了强大的能力特别是在多语言理解和生成任务上。此外通过持续训练和指令微调PaLM家族的模型在特定领域如医疗保健中也展现出了巨大的潜力。