当前位置: 首页 > news >正文

昆明网站建站设计素材网站名称

昆明网站建站,设计素材网站名称,wordpress显示位置,wordpress文章行间距本次学习计划#xff0c;参考赵鑫老师团队出版的大语言模型一书#xff0c;链接如下#xff1a; 书籍及参考资料链接 第一章节 从技术路径上来说#xff0c;语言模型#xff08;LanguageModel, LM#xff09;是提升机器语言智能#xff08;Language Intelligence…本次学习计划参考赵鑫老师团队出版的大语言模型一书链接如下 书籍及参考资料链接 第一章节 从技术路径上来说语言模型LanguageModel, LM是提升机器语言智能Language Intelligence的主要技术途径之一。 1.1 语言模型的发展历程 1.1.1 统计语言模型 对语言序列进行建模但是对于高阶统计语言模型来说随着阶数n的增加需要统计的转移概率项数会呈指数级增加导致“维数灾难”。神经语言模型Neural Lannguage ModelNLM 以RNN、LSTM、GRU等为代表的神经网络模型在这一时期出现了分布式词表示这一概念并构建了基于聚合上下文特征的目标词预测函数分布式词表示使用低维稠密向量来表示词含义与稀疏词向量one-hot表示有着本质区别稀疏词向量表示能够刻画更为丰富的隐含语义特征。 稠密向量的非零表征对于复杂语言模型的搭建非常友好能够有效克服统计语言模型中数据稀疏的问题。分布式词向量又被称为词嵌入word2vec和glove就是其中的代表工作。这种文本表示学习的方法在自然语言处理领域产生了重要的影响。 从上图可以看出语言模型逐渐越来越火热。 1.1.2 预训练语言模型Pre-trained Language Model 在这一时期代表是 ELMo模型该模型使用大量无标注数据训练双向LSTM网络预训练完成后所得到的biLSTM可以用来学习上下文感知的单词表示这与word2vec学习固定的词表示有着显著不同ELMo还可以根据下游任务对模型进行微调但是传统序列神经网络的长文本建模能力较弱并且不容易训练因此早期ELMo性能表现并不惊艳。 在这之后2017年Google提出了Self-attention的Transformer模型通过自注意力机制建模长程序列关系Transformer的设计适合并行计算不在向RNNLSTM那样是单向计算基于Transformer架构谷歌进一步提出了预训练模型BERTBERT采用了仅编码器的结构于此同时GPT-1采用了仅解码器的Transformer架构从而确立了“预训练-微调”这一任务求解范式。一般来说仅编码器结构的模型更适合用于文本理解文本摘要生成等任务而解码器结构模型更适合去解决文本生成任务。1.1.3 大语言模型 与小规模预训练模型不同的是大语言模型的文本生成能力更强也就是说大模型具备小模型不具备的“涌现能力”。随着模型参数、训练数据、计算算力的大规模扩展新一代大语言模型的任务求解能力有了显著提升能够不再依靠下游任务数据的微调进行通用任务的求解。 1.2 大语言模型的特点 具备丰富的世界知识具有较强的通用任务解决能力 随着模型参数、训练数据、计算算力的大规模扩展最新一代大语言模型的任务求解能力有了显著提升能够不再依靠下游任务 数据的微调进行通用任务的求解。具有较好的复杂任务推理能力具有较强的人类指令遵循能力具有较好的人类对齐能力 目前广泛采用的对齐方式是基于人类反馈的强化学习技术通过强化学习使得模型进行正确行为的加强以及错误行为的规避进而建立较好的人类对齐能力。目前很多线上部署的大语言模型应用都能够有效阻止典型的模型功能滥用行为一定程度上规避了常见的使用风险。具有可拓展的工具使用能力 虽然大语言模型在一些领域的能力表现较差但是大语言模型的理解能力和上下文学习能力可以使得大模型借助网络搜索和计算器python解释器等工具来更好的解决这些领域问题。 1.3 大语言模型关键技术概览 1.规模不断扩展数据、算力、模型参数量都在逐渐变大但是近期也有一些工作在尝试使用较小的模型参数来实现相当的能力。 2.数据质量不断提升追求更多高质量的数据以及各类任务的配比训练。 3.高校预训练很多机构都发布了专用的分布式优化框架其中具有代表性的分布式训练软件包括DeepSpeed和Megatron-LM 4.能力激发 5.人类对齐让大模型输出符合人类偏好的数据对人类无害的信息。 对此Open-ai提出了RLHF对齐方法最近学术界开始涌现除了一批使用监督微调的对齐方式从而简化RLHF的优化过程算法如DPO算法等。 6.让大模型使用工具 1.4 大语言模型对科技发展的影响 一些传统领域的研究已经逐渐被大模型取代而转向为如何提升大模型的领域能力和综合能力。在信息检索领域出现了较火的RAG和大模型增强的搜索系统同时大语言模型对科技发展也在产生着非常重要的影响。 第二章节 2.1 大语言模型的涌现能力和扩展法则 主要讨论了大模型的涌现能力和扩展法则在这方面有大量的研究但是并没有定论说规模扩展到一定程度就一定会带来涌现能力的出现就像小孩子的语言学习会突然说出令爸妈惊讶的话来。 这种现象的一个重要原因是由于Transformer架构具有较好的数据扩展性到目前为止还没有实验能够有效验证特定参数规模语言模型的饱和数据规模即随着数据规模的扩展模型性能不再提升 代表的涌现能力 上下文学习指令遵循逐步推理 2.2 GPT的发展脉络 GPT-1 GPT-1与同时期的BERT不同GPT-1采用的是仅解码器的模型但在当时与BERT参数量相当的GPT模型性能不如BERT模型因此没有引起学术界的足够关注。GPT-2沿用了GPT-1架构但是扩大了参数规模达到了1.5BGPT-3 与GPT-2相比GPT-3直接将参数规模提升了100余倍对于模型扩展在当时给出了一个极限尝试其雄心、魄力可见一斑。GPT-3可以被看作从预训练语言模型到大语言模型演进过程中的一个重要里程碑它证明了将神经网络扩展到超大规模可以带来大幅的 模型性能提升并且建立了以提示学习方法为基础技术路线的任务求解范式。后续能力增强上增加了代码训练数据和人类对齐增强的模型被称为GPT-3.5后续GPT-4、ChatGP、GPT-4V、GPT-4Turbot 引入了多模态以及工具的使用 第五章节 首先介绍大语言模型的架构配置 5.1 Transformer模型 Transformer是由多层的多头自注意力Multi-headSelf-attention模块堆叠而成的神经网络模型。与BERT等早期的预训练语言模型相比大语言模型的特点是使用了更长的向量维度、更深的层数进而包含了更大规模的模型参数并主要使用解码器架构对于Transformer 本身的结构与配置改变并不大。 5.1.1 输入编码 首先将输入的词元序列转换成 嵌入编码 位置编码的形式公式如下再送入到后续的神经网路中进行训练。 通过这种建模方法的表示Transformer 模型可以利用位置编码 建模不同词元的位置信息。由于不同词元的位置编码仅由其位置唯一决定因此这种位置建模方式被称为绝对位置编码。尽管绝对位置编码能够一定程度上建模位置信息然而它只能局限于建模训练样本中出现的位置无法建模训练数据中未出现过的位置因此极大地限制了它们处理长文本的能力。 5.1.2 多头注意力机制 5.1.3 归一化方法 第五章还有许多部分没有完全理解…待更新。。。。。。
http://www.dnsts.com.cn/news/78609.html

相关文章:

  • 传统小型企业做网站的好处关于网站建设的合同范本
  • 网站建设外包合同西安的互联网公司
  • 实现网站开发工程建设定额
  • 购物网站最重要的功能交换友情链接的渠道有哪些
  • 杭州网站设计渠道怎么设置网站标题
  • 最新淘宝客网站程序军人运动会官方网站建设目标
  • 山东宏福建设集团有限公司网站ui界面设计培训班
  • 哪有免费的网站建设模板wordpress+淘客代码
  • 萧县建设局网站网站做自适应好不好
  • 网站建设汇编材料高端网站改版顾问
  • 福州网站设计哪里比较好网站首屏做多大
  • 网站开发的技术支撑 经验能力建筑网站可以ai绘画吗
  • 怎么做贷款网站大连做网站谁家售后好
  • 培训机构网站设计好吗微信广告投放收费标准
  • 商丘网站制作设计师图片素材网站
  • 公司网站的主页优化fifa17做任务网站
  • 大学生免费ppt网站著名展示空间设计案例
  • 做周边的专业网站网站建设页面大小
  • 钦州电商网站建设小程序开发费用明细
  • 俄文网站引擎网站解析后怎么做
  • 服务器网站网站专用doaction wordpress
  • 扶余市建设局网站上海人才招聘信息最新招聘信息
  • 找人开发一个网站多少钱泰州专业网站制作公司
  • 销售行业怎样做网站电商网站设计公司优选亿企邦
  • 网站开发都需要什么兰州微信信息平台网站建设
  • 竹子建站免费版html做网站心得
  • 国外网站三维特效教程找工程项目信息哪个app好用
  • 合肥比较好的网站制作成都到西安动车
  • 最流行的做网站语言十堰优化seo
  • 青岛免费网站建设分销平台门店端