昆明网站建站,设计素材网站名称,wordpress显示位置,wordpress文章行间距本次学习计划#xff0c;参考赵鑫老师团队出版的大语言模型一书#xff0c;链接如下#xff1a; 书籍及参考资料链接
第一章节
从技术路径上来说#xff0c;语言模型#xff08;LanguageModel, LM#xff09;是提升机器语言智能#xff08;Language Intelligence…本次学习计划参考赵鑫老师团队出版的大语言模型一书链接如下 书籍及参考资料链接
第一章节
从技术路径上来说语言模型LanguageModel, LM是提升机器语言智能Language Intelligence的主要技术途径之一。
1.1 语言模型的发展历程
1.1.1 统计语言模型 对语言序列进行建模但是对于高阶统计语言模型来说随着阶数n的增加需要统计的转移概率项数会呈指数级增加导致“维数灾难”。神经语言模型Neural Lannguage ModelNLM 以RNN、LSTM、GRU等为代表的神经网络模型在这一时期出现了分布式词表示这一概念并构建了基于聚合上下文特征的目标词预测函数分布式词表示使用低维稠密向量来表示词含义与稀疏词向量one-hot表示有着本质区别稀疏词向量表示能够刻画更为丰富的隐含语义特征。 稠密向量的非零表征对于复杂语言模型的搭建非常友好能够有效克服统计语言模型中数据稀疏的问题。分布式词向量又被称为词嵌入word2vec和glove就是其中的代表工作。这种文本表示学习的方法在自然语言处理领域产生了重要的影响。
从上图可以看出语言模型逐渐越来越火热。
1.1.2 预训练语言模型Pre-trained Language Model 在这一时期代表是 ELMo模型该模型使用大量无标注数据训练双向LSTM网络预训练完成后所得到的biLSTM可以用来学习上下文感知的单词表示这与word2vec学习固定的词表示有着显著不同ELMo还可以根据下游任务对模型进行微调但是传统序列神经网络的长文本建模能力较弱并且不容易训练因此早期ELMo性能表现并不惊艳。 在这之后2017年Google提出了Self-attention的Transformer模型通过自注意力机制建模长程序列关系Transformer的设计适合并行计算不在向RNNLSTM那样是单向计算基于Transformer架构谷歌进一步提出了预训练模型BERTBERT采用了仅编码器的结构于此同时GPT-1采用了仅解码器的Transformer架构从而确立了“预训练-微调”这一任务求解范式。一般来说仅编码器结构的模型更适合用于文本理解文本摘要生成等任务而解码器结构模型更适合去解决文本生成任务。1.1.3 大语言模型 与小规模预训练模型不同的是大语言模型的文本生成能力更强也就是说大模型具备小模型不具备的“涌现能力”。随着模型参数、训练数据、计算算力的大规模扩展新一代大语言模型的任务求解能力有了显著提升能够不再依靠下游任务数据的微调进行通用任务的求解。
1.2 大语言模型的特点
具备丰富的世界知识具有较强的通用任务解决能力 随着模型参数、训练数据、计算算力的大规模扩展最新一代大语言模型的任务求解能力有了显著提升能够不再依靠下游任务 数据的微调进行通用任务的求解。具有较好的复杂任务推理能力具有较强的人类指令遵循能力具有较好的人类对齐能力 目前广泛采用的对齐方式是基于人类反馈的强化学习技术通过强化学习使得模型进行正确行为的加强以及错误行为的规避进而建立较好的人类对齐能力。目前很多线上部署的大语言模型应用都能够有效阻止典型的模型功能滥用行为一定程度上规避了常见的使用风险。具有可拓展的工具使用能力 虽然大语言模型在一些领域的能力表现较差但是大语言模型的理解能力和上下文学习能力可以使得大模型借助网络搜索和计算器python解释器等工具来更好的解决这些领域问题。
1.3 大语言模型关键技术概览
1.规模不断扩展数据、算力、模型参数量都在逐渐变大但是近期也有一些工作在尝试使用较小的模型参数来实现相当的能力。 2.数据质量不断提升追求更多高质量的数据以及各类任务的配比训练。 3.高校预训练很多机构都发布了专用的分布式优化框架其中具有代表性的分布式训练软件包括DeepSpeed和Megatron-LM 4.能力激发 5.人类对齐让大模型输出符合人类偏好的数据对人类无害的信息。 对此Open-ai提出了RLHF对齐方法最近学术界开始涌现除了一批使用监督微调的对齐方式从而简化RLHF的优化过程算法如DPO算法等。 6.让大模型使用工具
1.4 大语言模型对科技发展的影响
一些传统领域的研究已经逐渐被大模型取代而转向为如何提升大模型的领域能力和综合能力。在信息检索领域出现了较火的RAG和大模型增强的搜索系统同时大语言模型对科技发展也在产生着非常重要的影响。
第二章节
2.1 大语言模型的涌现能力和扩展法则
主要讨论了大模型的涌现能力和扩展法则在这方面有大量的研究但是并没有定论说规模扩展到一定程度就一定会带来涌现能力的出现就像小孩子的语言学习会突然说出令爸妈惊讶的话来。 这种现象的一个重要原因是由于Transformer架构具有较好的数据扩展性到目前为止还没有实验能够有效验证特定参数规模语言模型的饱和数据规模即随着数据规模的扩展模型性能不再提升 代表的涌现能力
上下文学习指令遵循逐步推理
2.2 GPT的发展脉络
GPT-1 GPT-1与同时期的BERT不同GPT-1采用的是仅解码器的模型但在当时与BERT参数量相当的GPT模型性能不如BERT模型因此没有引起学术界的足够关注。GPT-2沿用了GPT-1架构但是扩大了参数规模达到了1.5BGPT-3 与GPT-2相比GPT-3直接将参数规模提升了100余倍对于模型扩展在当时给出了一个极限尝试其雄心、魄力可见一斑。GPT-3可以被看作从预训练语言模型到大语言模型演进过程中的一个重要里程碑它证明了将神经网络扩展到超大规模可以带来大幅的 模型性能提升并且建立了以提示学习方法为基础技术路线的任务求解范式。后续能力增强上增加了代码训练数据和人类对齐增强的模型被称为GPT-3.5后续GPT-4、ChatGP、GPT-4V、GPT-4Turbot 引入了多模态以及工具的使用
第五章节
首先介绍大语言模型的架构配置
5.1 Transformer模型
Transformer是由多层的多头自注意力Multi-headSelf-attention模块堆叠而成的神经网络模型。与BERT等早期的预训练语言模型相比大语言模型的特点是使用了更长的向量维度、更深的层数进而包含了更大规模的模型参数并主要使用解码器架构对于Transformer 本身的结构与配置改变并不大。
5.1.1 输入编码
首先将输入的词元序列转换成 嵌入编码 位置编码的形式公式如下再送入到后续的神经网路中进行训练。 通过这种建模方法的表示Transformer 模型可以利用位置编码 建模不同词元的位置信息。由于不同词元的位置编码仅由其位置唯一决定因此这种位置建模方式被称为绝对位置编码。尽管绝对位置编码能够一定程度上建模位置信息然而它只能局限于建模训练样本中出现的位置无法建模训练数据中未出现过的位置因此极大地限制了它们处理长文本的能力。
5.1.2 多头注意力机制 5.1.3 归一化方法 第五章还有许多部分没有完全理解…待更新。。。。。。