当前位置：首页 > news >正文

做农资的网站网站充值怎么做的

news 2025/11/22 1:36:54

做农资的网站,网站充值怎么做的,wordpress 轮播图,网站设计联系近年来#xff0c;大型语言模型#xff08;LLMs#xff09;的能力有了飞跃式的发展#xff0c;使其在越来越多的应用场景中更加友好和适用。然而#xff0c;随着LLMs的智能和复杂度的增加#xff0c;其参数数量#xff0c;即权重和激活值的数量也在增加#xff0c;这意…近年来大型语言模型LLMs的能力有了飞跃式的发展使其在越来越多的应用场景中更加友好和适用。然而随着LLMs的智能和复杂度的增加其参数数量即权重和激活值的数量也在增加这意味着模型的学习和处理数据的能力在不断提升。例如GPT-3.5拥有约1750亿个参数而当前最先进的GPT-4则拥有超过1万亿个参数。然而模型越大所需的内存也越多。这意味着只能在具有高规格硬件和足够数量的GPU的设备上运行这些模型——这限制了模型的部署选项从而影响了基于LLM的解决方案的普及和应用。幸运的是机器学习研究人员正在开发越来越多的解决方案来应对模型规模不断增长的挑战其中最突出的解决方案之一就是量化技术。在本篇中我们将探讨量化的概念包括其工作原理、重要性和优势以及量化语言模型的不同技术。 1. 什么是量化以及为什么它很重要量化是一种模型压缩技术它将大型语言模型LLM中的权重和激活值从高精度的数据表示转换为低精度的数据表示也就是说从可以容纳更多信息的数据类型转换为容纳较少信息的数据类型。一个典型的例子是将数据从32位浮点数FP32转换为8位或4位整数INT8或INT4。理解量化的一个很好的类比是图像压缩。压缩图像涉及通过移除一些信息即数据位来减小其大小。虽然减小图像的大小通常会降低其质量在可接受的范围内但这也意味着在给定设备上可以保存更多的图像同时传输或显示给用户所需的时间和带宽也会减少。同样量化LLM增加了其可移植性和可部署方式的数量——尽管以可接受的细节或精度为代价。量化在机器学习中是一个重要过程因为减少模型每个权重所需的位数会显著减少其总体大小。因此量化产生的LLM占用更少的内存、需要更少的存储空间、更节能并且能够更快地进行推理。所有这些优点使得LLM可以在更广泛的设备上运行包括单个GPU而不是依赖昂贵的多GPU硬件甚至在某些情况下可以在CPU上运行。 2. 量化是如何工作的从本质上讲量化过程涉及将存储在高精度值中的权重映射到低精度数据类型。虽然在某些情况下这相对简单例如将64位或32位浮点数映射到16位浮点数因为它们共享表示方案但在其他情况下则更加复杂。例如将32位浮点值量化为4位整数就比较复杂因为INT4只能表示16个不同的值而FP32的范围非常广。为了实现量化我们需要找到将FP32权重值范围[最小值, 最大值]映射到INT4空间的最佳方式一种实现此目的的方法称为仿射量化方案其公式如下 x_q round(x/S Z)其中 x_q – 对应于FP32值x的量化INT4值 S – FP32缩放因子是一个正的float32值 Z – 零点对应于FP32空间中的0的INT4值 round – 指将结果值四舍五入到最接近的整数然而要找到FP32值范围的[最小值, 最大值]我们必须首先使用一个较小的校准数据集对模型进行校准。可以通过多种方式确定[最小值, 最大值]常见的解决方案是将其设置为观察到的最小和最大值。随后所有超出此范围的值将被“截断”——即分别映射到最小值和最大值。话虽如此这种方法及类似方法的问题在于离群值即异常值可能对缩放产生不成比例的影响低精度数据类型的完整范围没有得到有效利用——这降低了量化模型的准确性。解决此问题的方法是块内量化将权重按其值分为64或128的组。例如每个块分别进行量化以减轻离群值的影响并提高精度。需要考虑的一点是虽然LLM的权重和激活值将被量化以减少其大小但在推理时会被反量化因此在前向传播和后向传播期间可以使用高精度数据类型进行必要的计算。这意味着每个块的缩放因子也必须存储。因此在量化过程中使用的块数越多精度越高但必须保存的缩放因子数量也越多。 3. 两种类型的大型语言模型量化PTQ 和 QAT 虽然有多种量化技术但总的来说LLM 量化分为两类训练后量化PTQ 训练后量化指的是在大型语言模型已经训练完成后进行量化的技术。PTQ 比 QAT 更容易实现因为它需要的训练数据更少且速度更快。然而由于权重值精度的丧失它也可能导致模型准确性的降低。量化感知训练QAT 量化感知训练指的是在数据上进行微调时考虑量化的方法。与 PTQ 技术相比QAT 在训练阶段集成了权重转换过程即校准、范围估计、截断、舍入等。这通常会导致更优的模型性能但计算需求更高。 4. 量化大型语言模型的优缺点优点模型更小通过减少权重的大小量化生成的模型更小。这使得它们可以在各种情况下部署例如在硬件性能较低的设备上并降低存储成本。扩展性增强量化模型的内存占用较小这也使得它们的扩展性更强。由于量化模型对硬件的要求较低组织可以更灵活地增加IT基础设施以适应它们的使用。推理速度更快权重使用的位宽较低以及由此产生的较低内存带宽需求使计算更加高效。缺点准确性降低毫无疑问量化的最大缺点是输出的准确性可能降低。将模型的权重转换为低精度可能会降低其性能——而且量化技术越“激进”即转换数据类型的位宽越低例如4位、3位等准确性降低的风险就越大。 5. 不同的LLM量化技术现在我们已经讨论了量化是什么以及它的好处让我们来看看不同的量化方法及其工作原理。 QLoRA Low-Rank AdaptationLoRA是一种参数高效微调 Parameter-Efficient Fine-TuningPEFT技术通过冻结基础LLM的权重并微调一小部分额外的权重称为适配器 adapters减少进一步训练基础LLM的内存需求。Quantized Low-Rank AdaptationQLoRA更进一步将基础LLM中的原始权重量化为4位减少LLM的内存需求使其在单个GPU上运行成为可能。 QLoRA通过两个关键机制进行量化4位NormalFloatNF4数据类型和双重量化。 NF4一种用于机器学习的4位数据类型将每个权重归一化为-1到1之间的值与传统的4位浮点数相比可以更准确地表示低精度权重值。然而虽然NF4用于存储量化权重QLoRA在前向和后向传播过程中使用另一种数据类型即brainfloat16BFloat16这也是专为机器学习设计的。双重量化DQ一种为了额外节省内存而对量化常量进行再次量化的过程。QLoRA将权重以64为一组进行量化虽然这便于精确的4位量化但还必须考虑每个组的缩放因子——这增加了所需的内存。DQ通过对每个组的缩放因子进行第二轮量化来解决这个问题。32位缩放因子被编译成256的块并量化为8位。因此先前每个组的32位缩放因子为每个权重增加了0.5位而DQ将其降至仅0.127位。尽管看似微不足道但在例如65B LLM中结合起来可以节省3 GB的内存。 PRILoRA Pruned and Rank-Increasing Low-Rank AdaptationPRILoRA是一种最近由研究人员提出的微调技术旨在通过引入两个额外的机制来提高LoRA的效率ranks的线性分布和基于重要性的A权重剪枝。回到low-rank分解的概念LoRA通过结合两个矩阵来实现微调W包含整个模型的权重和AB表示通过训练额外权重即适配器对模型所做的所有更改。AB矩阵可以分解成两个更小的low-rank矩阵A和B因此称为low-rank分解。然而在LoRA中low-rank r在所有LLM层中是相同的而PRILoRA则线性增加每层的rank。例如开发PRILoRA的研究人员从r 4开始并在最终层增加到r 12——在所有层中产生了平均rank为8。其次PRILoRA在微调过程中每40步对A矩阵进行剪枝消除最低的即最不重要的权重。通过使用重要性矩阵来确定最低权重该矩阵存储了每层的权重临时幅度和与输入相关的统计数据。以这种方式剪枝A矩阵减少了需要处理的权重数量从而减少了微调LLM所需的时间和微调模型的内存需求。尽管仍在研究中PRILoRA在研究人员进行的基准测试中显示出了非常令人鼓舞的结果。这包括在8个评估数据集中有6个优于全量微调方法同时在所有数据集中都取得了比LoRA更好的结果。 GPTQ GPTQ通用预训练Transformer量化 General Pre-Trained Transformer Quantization是一种量化技术旨在减少模型的大小使其能够在单个GPU上运行。GPTQ通过一种逐层量化的方法工作这种方法一次量化模型的一层目的是发现最小化输出误差即原始全精度层和量化层输出之间的均方误差MSE的量化权重。首先所有模型的权重被转换成一个矩阵通过一种称为懒惰批更新 lazy batch updating的过程一次处理128列的批次。此过程包括批量量化权重计算MSE并将权重更新为减少MSE的值。在处理校准批次后矩阵中的所有剩余权重根据初始批次的MSE进行更新——然后所有单独的层重新组合以生成量化模型。 GPTQ采用混合INT4/FP16量化方法其中4位整数用于量化权重激活值保持在更高精度的float16数据类型中。随后在推理过程中模型的权重实时反量化以便计算在float16中进行。 GGML/GGUF GGML GGML据说是以其创建者命名为Georgi Gerganov Machine Learning或GPT-Generated Model Language是一个基于C语言的机器学习库旨在对Llama模型进行量化使其能够在CPU上运行。更具体地说该库允许你将量化后的模型保存为GGML二进制格式从而可以在更广泛的硬件上执行。 GGML通过称为k-quant系统的过程来量化模型该系统根据所选的量化方法使用不同位宽的值表示。首先模型的权重被分成32个一组每个组都有一个基于最大权重值即最高梯度幅度的缩放因子。根据选择的量化方法最重要的权重会被量化为高精度数据类型而其余的权重则被分配为低精度类型。例如q2_k量化方法将最大的权重转换为4位整数其余权重转换为2位整数。或者q5_0和q8_0量化方法分别将所有权重转换为5位和8位整数表示。你可以通过查看此代码库中的模型卡来查看GGML的全量化方法范围。 GGUF GGUFGPT-Generated Unified Format是GGML的后继者旨在解决其局限性——最显著的是使非Llama模型的量化成为可能。GGUF也是可扩展的允许集成新功能同时保持与旧LLM的兼容性。然而要运行GGML或GGUF模型你需要使用一个名为llama.cpp的C/C库——该库也是由GGML的创建者Georgi Gerganov开发的。llama.cpp能够读取以.GGML或.GGUF格式保存的模型并使其能够在CPU设备上运行而不是需要GPU。 AWQ 传统上模型的权重量化时不考虑它们在推理过程中处理的数据。与之相反激活感知权重量化 Activation-Aware Weight QuantizationAWQ考虑了模型的激活即输入数据中最显著的特征及其在推理过程中如何分布。通过根据输入的特定特性调整模型权重的精度可以最大限度地减少量化引起的准确性损失。 AWQ的第一阶段是使用一个校准数据子集来收集模型的激活统计数据即在推理过程中被激活的权重。这些被称为显著权重通常占总权重的不到1%。为了提高准确性显著权重在量化过程中会被跳过保持为FP16数据类型。与此同时其余的权重被量化为INT3或INT4以减少LLM其余部分的内存需求。 6. 小结量化是LLM领域的重要组成部分。通过压缩语言模型的大小像QLoRA和GPTQ这样的量化技术有助于提高LLM的采用率。摆脱了全精度模型巨大内存需求的限制组织、AI研究人员和个人都有更多的机会去尝试快速增长的各种LLM。

查看全文

http://www.dnsts.com.cn/news/69884.html