当前位置: 首页 > news >正文

兰州新区建设局网站蔚县住房和城乡规划建设局网站

兰州新区建设局网站,蔚县住房和城乡规划建设局网站,暗红色网站,帮别人做网站赚钱Lora#xff1a;Low-Rank Adapation of Large Language modelsIntroductionMethodExperiment代码Introduction 这篇论文最初与21.06上传与arXiv#xff0c;作者指出在当时#xff0c;NLP的一个重要范式是先训练一个通用领域的模型然后在通过微调适应不同的领域与数据#… LoraLow-Rank Adapation of Large Language modelsIntroductionMethodExperiment代码Introduction 这篇论文最初与21.06上传与arXiv作者指出在当时NLP的一个重要范式是先训练一个通用领域的模型然后在通过微调适应不同的领域与数据但是对于当时的大模型来说是十分昂贵的于是作者提出了一个叫Low-Rank- Adaptation的方法也叫Lora它冻结了Pre-Train model 然后在Transformer的每一层注入了可训练的 rank decomposition matrices作者指出与 用了Adam的GPT-3相比需要更新的参数量少了10000倍显存少了三倍性能也有略微提升。 作者假设在微调时Pre-train model的权重矩阵在过度更新参数时它的权重矩阵的秩是很低的于是作者的想法就是把 一些Dense layer的权重替换成低秩分解矩阵然后作者发现效果也不错。 Lora主要有这些优势 一个Pre-train model可以用来为不同的任务建立许多小的LoRA模块可以冻结共享模型并通过替换图1中的矩阵A和B来有效地切换任务从而大大减少存储需求和任务切换的开销。Lora 更高效并且降低了硬件门槛。在推理时可以把图一中两种颜色的矩阵合并与完全finetune的速度没有差别。LoRA与许多先前的方法是不相关的并且可以与许多方法相结合。 作者又介绍了一些符号的定义这里我直接词典翻译 术语和惯例 我们经常提到Transformer架构并对其维度使用常规术语。我们把Transformer层的输入和输出维度大小称为model。我们用Wq、Wk、Wv和Wn来指代self-attention模块中的查询/键/值/输出投影矩阵。W或W0指的是预训练的权重矩阵∆W指的是适应过程中的累积梯度更新。我们用r来表示一个LoRA模块的秩。我们遵循Vaswani等人2017Brown等人2020规定的惯例使用AdamLoshchilov Hutter2019Kingma Ba2017进行模型优化并使用Transformer MLP前馈维度dfn4×dmodel。 Method 一个神经网络包含许多dense layers它们通常都是满秩的但是通过下游任务微调后这些权重矩阵通常是低秩的但是他们仍然可以有效学习。作者收到启发假设Pre-Train model 的权重矩阵为 w0 冻结它引入新的底秩分解矩阵 这里有些类似于1 * 1 conv的形式中间的 维度 r 都是为在加速的前提下尽可能保留更多的信息r的选择我认为作者应该会考虑与完全 finetune 权重矩阵的秩差不多的数。其中 W0 与 BA 其中BA与图1对应与相同的Input 做矩阵乘法然后二者在求和。 公式如下 其中A通过正态分布 初始化B则全0所以BA也是全0矩阵。 这个额外的矩阵是支持热‘插拔的’是指我可以在不同的下游任务应用不同的矩阵比如我想做词性标注我只需要原始的Pre-train model 加上在词性标注数据上finetune 的 BA就可以了并且速度不受影响。 Experiment 代码 from peft import get_peft_model, LoraConfig, TaskTypepeft_config LoraConfig(task_typeTaskType.CAUSAL_LM, inference_modeFalse, r8, lora_alpha32, lora_dropout0.1,target_modules[query_key_value] )model 加载的模型 model get_peft_model(model, peft_config) # 打印参数情况 model.print_trainable_parameters() 接下来和正常训练模型一样
http://www.dnsts.com.cn/news/188122.html

相关文章:

  • 杭州网站建站平台网站关键词太多好不好
  • php做网站的分站网站服务器怎么迁移
  • 怎样做的英文网站网站开发所需开发环境
  • 最新汽车网站大全免费广告设计app
  • 电影网站建设 流程世界街景地图怎么退订
  • 有哪些做婚礼平面设计的网站有哪些北京做网站源代码的
  • 有哪些网站下载ppt是免费的ui中国网站
  • 网站开发实习总结网站常见 8
  • 网站开发文献综述重庆做网站最好的
  • 怎么样提高网站点击率厦门市建设局网站住房保障2018
  • 家具公司网站模板下载巨鹿网站制作
  • 我的文档上传到网站 做链接抖音代运营剧本
  • 建设银行企业网站银行分销商城开发公司
  • 免费门户网站制作微信 网站 织梦
  • 长沙房地产网站建设智通人才招聘网
  • 西峡微网站开发雄安做网站优化的公司
  • 深圳团购网站设计公司做适合漫画网站的图片
  • 郑州中小企业网站制作基于php网站开发
  • 建立网站策划书微信运营商人工电话
  • 做pc端网站要多少钱wordpress编辑器增加
  • 太原做网站制作网络营销推广方法与策略
  • 做网站前怎么建立数据结构南沙滩做网站公司
  • 腕表之家网站口碑营销案例分析
  • 专业的网站建设公司哪家好网站 多语言
  • 整站下载工具软件东大桥做网站的公司
  • 广东网站建设公司968织梦示范网站
  • 马鞍山网站建设 明达友链通
  • 福州建站网络公司网站用户体验诊断
  • 如何做网站推广最有效微信公众号小程序怎么创建
  • 个人如何制作一个网站django 网站开发