当前位置: 首页 > news >正文

网站推广的步骤网站制作公司网

网站推广的步骤,网站制作公司网,网络创建公司网站,河南网站优化论文链接#xff1a; https://arxiv.org/abs/2307.05695 代码仓库#xff1a; https://github.com/guitaricet/peft_pretraining 一段时间以来#xff0c;大模型#xff08;LLMs#xff09;社区的研究人员开始关注于如何降低训练、微调和推理LLMs所需要的庞大算力#xf… 论文链接 https://arxiv.org/abs/2307.05695 代码仓库 https://github.com/guitaricet/peft_pretraining 一段时间以来大模型LLMs社区的研究人员开始关注于如何降低训练、微调和推理LLMs所需要的庞大算力这对于继续推动LLMs在更多的垂直领域中发展和落地具有非常重要的意义。目前这一方向也有很多先驱工作例如从模型结构上创新的RWKV直接替换计算量较大的Transformer架构改用基于RNN范式的新架构。还有一些方法从模型微调阶段入手例如在原有LLMs中加入参数量较小的Adapter模块来进行微调。还有微软提出的低秩自适应Low-Rank AdaptationLoRA方法LoRA假设模型在任务适配过程中对模型权重的更新量可以使用低秩矩阵进行估计因而可以用来间接优化新加入的轻量级适应模块同时保持原有的预训练权重不变。目前LoRA已经成为大模型工程师必备的一项微调技能但本文作者仍然不满足于目前LoRA所能达到的微调效果并进一步提出了一种可叠加的低秩微调方法称为ReLoRA。 本文来自马萨诸塞大学洛厄尔分校的研究团队作者团队将ReLoRA应用在具有高达350M参数的Transformer上时展现出了与常规神经网络训练相当的性能。此外本文作者还观察到ReLoRA的微调效率会随着模型参数规模的增加而不断提高这使得其未来有可能成为训练超大规模通常超过1B参数LLMs的新型手段。 01. 引言 虽然目前学术界和工业界都在不断推出自家的各种基座模型但不可否认的是完全预训练一个具有初等推理能力的LLMs仍然需要非常庞大的算力例如大家熟知的LLaMA-6B模型[1]就需要数百个GPU才能完成训练这种规模的算力已经让绝大多数学术研究小组望而却步了。在这种背景下参数高效微调PEFT已经成为了一个非常具有前景的LLMs研究方向。具体来说PEFT方法可以在消费级GPU例如RTX 3090或4090上对十亿级语言或扩散模型进行微调。因此本文重点关注PEFT中的低秩训练技术尤其是LoRA方法。作者思考到过去十年中深度学习发展阶段中的一个核心原则就是不断的“堆叠更多层stack more layers”例如ResNet的提出可以使我们将卷积神经网络的深度提升到100层以上并且也获得了非常好的效果。因此本文探索能否同样以堆叠的方式来提升低秩适应的训练效率呢 本文提出了一种基于低秩更新的ReLoRA方法来训练和微调高秩网络其性能优于具有相同可训练参数数量的网络甚至能够达到与训练100M规模的完整网络类似的性能对比效果如上图所示。具体来说ReLoRA方法包含1初始化全秩训练、2LoRA 训练、3参数重新启动、4锯齿状学习率调度jagged learning rate schedule和5优化器参数部分重置。作者选择目前非常火热的自回归语言模型进行实验并且保证每个实验所使用的GPU计算时间不超过8天。 02. 本文方法 ReLoRA通过序列叠加的方式仅训练一小组参数就可以实现与全秩训练相当的性能并且遵循LoRA方法的基础原则即保持原始网络的冻结权重并添加新的可训练参数。乍一看这种方式可能显得计算效率低下但我们需要清楚的是这种方法可以通过减小梯度和优化器状态的大小来显著提高显存效率。例如Adam优化器状态消耗的显存通常是模型权重占用的两倍。通过大幅减少可训练参数的数量ReLoRA可以在相同的显存条件下使用更大的batchsize大小从而最大限度地提高硬件效率ReLoRA的整体操作细节如下图所示。 03. 实验效果 为了清晰的评估ReLoRA方法的性能作者将其应用在各种规模大小60M、130M、250M 和 350M的Transformer模型上并且都在C4数据集上进行训练和测试。为了展现ReLoRA方法的普适性作者重点考察NLP领域的基础语言建模任务。模型架构和训练超参数设置基本与LLaMA模型保持一致。与LLaMA不同的是作者在实验中将原始的注意力机制使用float32进行 softmax计算替换为了Flash注意力[2]并且使用bfloat16精度进行计算这样操作可以将训练吞吐量提高50-100%且没有任何训练稳定性问题。此外使用ReLoRA方法训练的模型参数规模相比LLaMA要小得多最大的模型参数才仅有350M使用8个RTX4090上训练了一天时间就可以完成。 下图展示了本文方法与其他方法的性能对比效果可以看到ReLoRA显着优于低秩LoRA方法证明了我们提出的修改的有效性。此外ReLoRA还实现了与满秩训练Full training相当的性能并且我们可以观察到随着网络规模的增加性能差距逐渐缩小。有趣的是ReLoRA 唯一无法超过的基线模型是仅具有60M参数的最小模型。这一观察结果表明ReLoRA在改进大型网络的训练方面更加有效这与作者最开始研究探索一种改进大型网络训练方法的目标是一致的。 04. 总结 本文是一篇专注于减轻大型Transformer语言模型训练代价的工作作者选取了一条非常具有前景的方向即低秩训练技术并且从最朴素的低秩矩阵分解 (LoRA) 方法出发利用多个叠加的低秩更新矩阵来训练高秩网络为了实现这一点作者精心设计了包含参数重新启动、锯齿状学习率调度算法和优化器参数重置等一系列操作这些操作共同提高了ReLoRA算法的训练效率在某些情况下甚至能够达到与全秩训练相当的性能尤其实在超大规模的Transformer网络中。作者通过大量的实验证明了ReLoRA的算法可行性和操作有效性不知ReLoRA是否也会成为大模型工程师一项必备的算法技能呢 参考 [1] H. Touvron, T. Lavril, G. Izacard, X. Martinet, M.-A. Lachaux, T. Lacroix, B. Rozière, N. Goyal, E. Hambro, F. Azhar, A. Rodriguez, A. Joulin, E. Grave, and G. Lample. Llama: Open and efficient foundation language models. arXiv preprint arXiv:2302.13971, 2023. [2] T. Dao, D. Y. Fu, S. Ermon, A. Rudra, and C. Re. Flashattention: Fast and memory-efficient exact attention with IO-awareness. In A. H. Oh, A. Agarwal, D. Belgrave, and K. Cho, editors, Advances in Neural Information Processing Systems, 2022. 关于TechBeat人工智能社区 ▼ TechBeat(www.techbeat.net)隶属于将门创投是一个荟聚全球华人AI精英的成长社区。 我们希望为AI人才打造更专业的服务和体验加速并陪伴其学习成长。 期待这里可以成为你学习AI前沿知识的高地分享自己最新工作的沃土在AI进阶之路上的升级打怪的根据地 更多详细介绍TechBeat一个荟聚全球华人AI精英的学习成长社区
http://www.dnsts.com.cn/news/42660.html

相关文章:

  • 云建站源码wordpress同标题覆盖
  • 网站推广途径自媒体平台注册官网下载
  • 无限弹窗网站链接怎么做网站建设服务都包含
  • 济南专业网站制作公司多个网站一个域名
  • 百度网盘可以做网站吗网站 301
  • 洛阳做网站找哪家好电脑怎么用别人的网站吗
  • 百度站长平台怎么用品牌网站建设怎么做
  • Wordpress 手机网站长春微信公众号开发
  • 手机设置管理网站首页网站建设经验介绍
  • 宁波网站建设服务公司电hua东莞优化网页关键词
  • html5网站开发实例书籍html制作简单的网页
  • 产品设计作品网站哈尔滨网站建设运营
  • 网站建设报价模块小7手游官网下载
  • 济南网站制作案例金华模板建站定制网站
  • 如何选择品牌网站建设花店商城网站设计
  • 长春一般建一个网站需要多少钱深圳禅城网站设计
  • 做网站做电脑版还是手机版好取消网站备案号
  • 网站还没上线怎么做品牌推广猫咪mv最新地域网名怎么取
  • 网站开发一般用什么服务器网站图标文件下载
  • 制作表白网站教程管理类网站开发价格
  • 苏州营销型网站制作公司12306网站哪个公司做的
  • 东莞企业如何建网站国家示范校建设专题网站
  • 怎么看一个网站是不是仿站wordpress写模版
  • 网站设计模板素材做特卖网站
  • 网站建设服务的风险域名购买之后怎么做网站
  • 网页设计一个网站怎么做网站诊断分析
  • 网站活动页面卡密网站怎么做
  • 网站建设推广ppt模板金山做网站
  • 装饰公司响应式网站建设案例山东省住房和城乡建设挺网站
  • 新乡市网站建设有哪些公司南京网站建设与维护