当前位置: 首页 > news >正文

做网站支付系统难度前端开发就业前景

做网站支付系统难度,前端开发就业前景,哪家网站建设最好,景区加强网站建设引言#xff1a;探索大型语言模型的高效压缩方法 随着大型语言模型#xff08;LLMs#xff09;在自然语言处理领域的广泛应用#xff0c;它们对计算和内存资源的巨大需求成为了一个不容忽视的问题。为了缓解这些资源限制#xff0c;研究者们提出了多种模型压缩方法#…引言探索大型语言模型的高效压缩方法 随着大型语言模型LLMs在自然语言处理领域的广泛应用它们对计算和内存资源的巨大需求成为了一个不容忽视的问题。为了缓解这些资源限制研究者们提出了多种模型压缩方法其中剪枝pruning技术因其在后训练阶段应用的潜力而备受关注。然而现有的剪枝技术面临着需要额外数据结构支持和在当前硬件上受限的加速效果等挑战。在这篇博客中我们将探讨一种新的剪枝方案——SliceGPT它通过删除权重矩阵的行和列来压缩大型模型同时保持了模型的性能。 论文标题 SLICEGPT: COMPRESS LARGE LANGUAGE MODELS BY DELETING ROWS AND COLUMNS 论文机构 ETH Zurich, Microsoft Research 论文链接 https://arxiv.org/pdf/2401.15024.pdf 项目地址 https://github.com/microsoft/TransformerCompression 声明本期论文解读非人类撰写全文由赛博马良「AI论文解读达人」智能体自主完成经人工审核、配图后发布。 公众号「夕小瑶科技说」后台回复“智能体内测”获取智能体内测邀请链接 SliceGPT的核心思想是利用变换器网络中的计算不变性通过对每个权重矩阵应用正交矩阵变换使得模型的计算结果保持不变。这种方法不仅减少了模型的参数数量还降低了嵌入维度从而减少了网络之间传递的信号量。通过大量实验研究者们证明了SliceGPT能够在保持高达99%的零样本任务性能的同时剪掉高达25%的模型参数。更重要的是这种压缩方法无需额外的代码优化就能在现有的硬件上实现更快的运行速度这为未来减少预训练模型的内存和计算需求提供了新的视角。 SliceGPT方法概述如何通过删除权重矩阵的行和列来压缩模型 SliceGPT是一种新颖的模型压缩方法它通过删除权重矩阵的行和列来减少大型语言模型的参数数量。这种方法的核心思想是通过对模型的权重矩阵进行“切片”操作即去除整行或整列从而实现对模型的压缩。与其他剪枝方法不同SliceGPT不仅仅是将权重矩阵中的某些元素设为零而是完全移除掉权重矩阵的一部分。 在SliceGPT中首先对网络进行单次变换使得预测保持不变然后再进行切片操作。这种变换保证了即使在切片后模型的预测性能也只会受到很小的影响。通过这种方法可以在不牺牲太多性能的前提下显著减少模型的参数数量。例如在LLAMA-2 70B、OPT 66B和Phi-2模型上的实验表明SliceGPT能够在保持99%、99%和90%的零样本任务性能的同时移除多达25%的模型参数。 SliceGPT的另一个优势是压缩后的模型可以在更少的GPU上运行并且运行速度更快无需额外的代码优化。例如在24GB的消费级GPU上LLAMA-2 70B模型的推理计算量减少到了稠密模型的64%在40GB的A100 GPU上减少到了66%。 1. 切片前的准备 在进行切片之前需要对网络进行一次变换以确保变换后的网络可以保持预测的不变性。这一步骤至关重要因为它确保了在切片操作之后模型的性能不会受到太大影响。 2. 切片操作 切片操作涉及到移除权重矩阵的行和列。具体来说就是在变换后的权重矩阵中移除那些对模型性能贡献较小的行和列。这样权重矩阵变得更小网络的嵌入维度也随之减少。 3. 实验验证 通过在不同的模型和任务上进行实验SliceGPT证明了其在压缩模型方面的有效性。实验结果显示即使在移除了大量参数的情况下模型仍能保持较高的性能。 计算不变性的发现理解RMSNorm操作如何使得变换保持不变 SliceGPT方法的成功部分归功于对变换网络中的计算不变性的发现。具体来说研究者们发现可以在变换器网络的每个权重矩阵上应用正交矩阵变换而不改变模型的输出。这种计算不变性是通过RMSNorm操作实现的该操作在网络的不同块之间执行并保持变换的不变性。 正交矩阵和RMSNorm 正交矩阵Q满足Q^TQ QQ^T I的关系其中I是单位矩阵。正交矩阵的一个重要性质是它不会改变向量的范数。RMSNorm操作通过将输入矩阵X的每一行除以其范数来实现规范化。由于正交变换不改变向量的范数因此在RMSNorm之前和之后应用正交矩阵Q和Q^T不会改变网络的输出。 计算不变性的证明 在RMSNorm连接的变换器网络中如果在RMSNorm之前插入带有正交矩阵Q的线性层在RMSNorm之后插入Q^T则网络保持不变。这是因为信号矩阵的每一行都被Q乘以规范化后再乘以Q^T从而保持了网络的计算不变性。这一发现是SliceGPT能够成功压缩模型的关键。 通过这种计算不变性SliceGPT能够在保持模型性能的同时显著减少模型的参数数量和计算需求。这一发现不仅对于SliceGPT方法至关重要也为未来减少预训练模型的内存和计算需求提供了新的思路。 实现模型压缩 在深度学习和自然语言处理领域大型语言模型LLMs因其出色的性能而备受青睐。然而这些模型通常参数量巨大需要消耗大量的计算和内存资源。为了解决这一问题研究者们提出了多种模型压缩技术其中SliceGPT是一种新颖的后训练稀疏化方案它通过替换权重矩阵为更小的矩阵来降低网络的嵌入维度从而实现模型的压缩。 1. SliceGPT的PCA方法 SliceGPT的核心思想是利用计算不变性computational invariance即在不改变模型输出的前提下对权重矩阵进行正交变换。具体来说SliceGPT首先通过主成分分析PCA计算出每个权重矩阵的正交矩阵Q。这一步骤的目的是将信号矩阵投影到其主成分上。在这个过程中研究者们发现不同网络块的信号并不对齐因此需要在每个块应用不同的正交矩阵Qℓ。 2. 模型压缩过程 在计算出正交矩阵Qℓ后SliceGPT通过删除权重矩阵的行或列来减小模型大小。这一过程称为“切片”slicing。由于PCA的目标是计算出一个低维表示Z并进行近似重构SliceGPT将这一思想应用到信号矩阵X之间通过删除矩阵的次要主成分来实现压缩。具体来说SliceGPT删除了Win的行和Wout及Wembd的列并且还删除了插入到残差连接中的矩阵Q⊤ℓ−1Qℓ的行和列。 通过这种方法SliceGPT成功地压缩了包括LLAMA-2 70B、OPT 66B和Phi-2在内的多个模型最多减少了30%的参数量同时保持了超过90%的密集模型性能。 实验设置 1. 使用的模型 在实验中研究者们使用了OPT、LLAMA-2和Phi-2模型家族进行评估。这些模型是基于Transformer架构的大型语言模型具有数十亿的参数量。实验排除了OPT 175B模型因为它的性能不如较小的LLAMA-2模型。 2. 任务 实验涵盖了语言生成和流行的零样本任务。零样本任务包括PIQA、WinoGrande、HellaSwag、ARC-e和ARC-c等知名任务。 3. GPU类型 为了全面展示SliceGPT带来的速度提升实验使用了多种GPU类型包括Quadro RTX600024GB内存作为消费级GPU的代表以及40GB A100和80GB H100作为数据中心级别的基准。通过这些不同的GPU研究者们能够评估SliceGPT在不同硬件条件下的性能和效率。 实验结果表明SliceGPT不仅能够在单个GPU上快速完成模型压缩而且在不同的GPU上都展现出了显著的速度和性能提升。 实验结果分析 1. 语言生成任务的性能表现 在语言生成任务中SliceGPT的性能通过WikiText-2数据集进行评估。实验结果显示应用SliceGPT到OPT模型与LLAMA-2模型时随着模型大小的增加SliceGPT的性能也随之提升。与SparseGPT采用的2:4稀疏比例相比SliceGPT在25%的切片水平上表现更优。例如在LLAMA-2模型上SliceGPT的表现超过了SparseGPT 2:4。对于OPT模型30%切片的模型在除了2.7B之外的所有模型大小上都优于2:4稀疏比例。 2. 零样本任务的性能表现 在零样本任务中SliceGPT在五个知名任务上进行了评估PIQA、WinoGrande、HellaSwag、ARC-e和ARC-c。实验结果表明Phi-2模型的切片版本与LLAMA-2 7B模型的切片版本性能相当。最大的OPT和LLAMA-2模型可以非常有效地压缩即使移除了30%的66B OPT模型的参数性能损失也只有几个百分点。 3. 通过吞吐量和推理时间评估模型效率 在吞吐量方面与稠密模型相比SliceGPT在80GB H100 GPU上对25%和50%切片的模型进行了评估。实验发现25%切片的模型在吞吐量上比稠密模型提高了高达1.55倍。在50%切片的情况下最大的模型只需要一个GPU而不是两个吞吐量显著提高分别为3.13倍和1.87倍。这意味着对于固定数量的GPU这些模型达到了稠密模型的6.26倍和3.75倍吞吐量。 在推理时间方面SliceGPT压缩模型的端到端运行时间也得到了研究。在Quadro RTX6000和A100 GPU上使用25%切片的模型在生成单个令牌的时间上分别比稠密模型快了16-17%和11-13%。在两种情况下都减少了使用的GPU数量相对于部署稠密模型提供了能源和成本节约。例如对于LLAMA-2 70B使用RTX6000 GPU的计算需求从1764 GPUms减少到1075 GPUms。 恢复微调RFT的效果探讨RFT对压缩模型性能的影响 恢复微调RFT是在切片后对模型进行少量微调以恢复因切片而损失的性能。实验中对切片后的LLAMA-2和Phi-2模型应用了RFT使用LoRA方法进行微调。微调后Phi-2模型在仅使用WikiText-2数据集时无法恢复从切片中损失的准确率但使用Alpaca数据集后能够恢复几个百分点的准确率。例如25%切片并进行RFT后的Phi-2模型的平均准确率为65.2%而稠密模型为72.2%。切片模型大约有2.2B参数并保留了2.8B模型90.3%的准确率。这表明即使是小型语言模型也可以从训练后的剪枝中受益。 结论与未来工作 在本文中我们介绍了SliceGPT这是一种新的大型语言模型LLM的后训练稀疏化方案。SliceGPT通过替换每个权重矩阵为一个更小的稠密矩阵从而减少了网络的嵌入维度。通过广泛的实验我们证明了SliceGPT能够在保持高性能的同时显著减少模型参数的数量。例如在LLAMA-2 70B、OPT 66B 和 Phi-2 模型上我们能够去除高达25%的模型参数同时保持了99%、99% 和 90%的零样本任务性能。此外我们的切片模型能够在更少的GPU上运行并且运行速度更快无需任何额外的代码优化。 1. 计算不变性的发现 我们提出了计算不变性的概念并展示了如何在不改变模型输出的情况下对变换器网络中的每个权重矩阵应用正交矩阵变换。 2. 切片转换的应用 我们利用这一发现对变换器架构的每个块进行编辑将信号矩阵投影到其主成分上并移除变换后权重矩阵的行或列以减小模型大小。 3. 实验验证 我们在OPT、LLAMA-2和Phi-2模型上进行了多项实验展示了SliceGPT在压缩这些模型方面的能力压缩比可达30%并在下游任务上保持了超过90%的密集模型性能。 未来的研究方向可能包括 参数更少的密集LMs性能 我们发现参数更少但密集的LMs在性能上优于参数少于13B的剪枝LMs。我们预计随着研究的深入这种情况不会持续太久。我们的剪枝模型虽然参数更多但允许在GPU内存中加载更大的批量大小并且没有稀疏结构的开销。结合这两种方法可能会获得最佳效果。 计算Q的其他方法 探索其他计算Q的方法可能会改善结果。 降低推理时间和GPU数量 为了进一步减少推理时间和所需的GPU数量可以使用量化和结构性剪枝等补充方法。 我们希望我们对计算不变性的观察能够帮助未来的研究在提高深度学习模型的效率方面取得进展并可能激发新的理论洞见。 声明本期论文解读非人类撰写全文由赛博马良「AI论文解读达人」智能体自主完成经人工审核、配图后发布。 公众号「夕小瑶科技说」后台回复“智能体内测”获取智能体内测邀请链接
http://www.dnsts.com.cn/news/5734.html

相关文章:

  • 临沧市住房和城乡建设网站佛山优化网站方法
  • 营销型网站 案例山东省城乡与住房建设厅网站
  • 上海企业网站制作报价医疗网站建设讯息
  • 常州网站建设乛薇网站网页模板
  • 成功的网站必须具备的要素wordpress附件分离
  • 怎样做一个网站平台网站的盈利点
  • 赣州市铁路建设办公室网站北京工商注册网上核名
  • 网站建设宽度一般都是多少钱免费网络电话免费版试用
  • 网站内页的设计重庆校园网站开发
  • 信息查询类网站是怎么做的盐城做网站的公司地址
  • 如何设计和建立一个公司的网站wordpress登录名
  • 如何使用手机看建设网站网站建设推广怎么做
  • 高中网站建设课程摄影网站的设计与实现开题报告
  • 做网站计入什么科目哪些软件属于网页制作工具
  • 山东青岛网站设计网站备案成功后怎么
  • 天津做网站的大公司网站开发技术学习
  • 萧山网站制作公司宿州网站建设工作室
  • 网站管理手册基本的网站建设知识
  • 免费咨询中心sem和seo是什么
  • 宝安附近公司做网站建设哪家效益快郎溪县建设局网站
  • 附近的网站设计制作价格义乌专业做网站
  • 做企业网站哪家好做好公众号 网站建设
  • 建站公司服务短租房网站哪家做最好
  • 如何在百度提交网站广东黄页企业名录
  • 广州品牌网站设计价格万链网站做的怎么样?
  • 岳阳博物馆网站网站一般字体
  • 网站版面布局wordpress网站怎样
  • 设计一个自己的电商网站虚拟空间是什么意思
  • 关于网站平台建设调研的函服务质量好的网站设计制作
  • 南京定制网站哪个好房地产网站建设流程