当前位置：首页 > news >正文

公司网站建设手续昆明个人网站建设平台

news 2025/12/26 19:25:11

公司网站建设手续,昆明个人网站建设平台,网络注册平台怎么注册,网上可以报警备案吗文章目录 TL;DRIntroduction背景本文方案实现方式预训练预训练数据训练细节训练硬件支持预训练碳足迹微调SFTSFT 训练细节 RLHF人类偏好数据收集奖励模型迭代式微调#xff08;RLHF#xff09;拒绝采样#xff08;Rejection Sampling#xff09;PPO多轮一致性的系统消息DRIntroduction背景本文方案实现方式预训练预训练数据训练细节训练硬件支持预训练碳足迹微调SFTSFT 训练细节 RLHF人类偏好数据收集奖励模型迭代式微调RLHF拒绝采样Rejection SamplingPPO多轮一致性的系统消息System Message for Multi-Turn Consistency 安全性预训练中的安全性讨论学习和观察基于上下文的温度系数缩放In-Context Temperature RescalingLlama2 Chat 对时间的感知工具使用涌现能力实验结果预训练与开源基础模型的精度对比与闭源模型对比 RLHF奖励模型精度基于模型的评估结果基于人工的评测结果安全性定量评估RLHF 对安全性的提升安全性 scaling 实验安全性对比实验消融实验上下文增加带来的性能提升GQA 对比 MHA 和 MQA Thoughts Paper name Llama 2: Open Foundation and Fine-Tuned Chat Models Paper Reading Note Paper URL: https://ai.meta.com/research/publications/llama-2-open-foundation-and-fine-tuned-chat-models/ Blog URLhttps://huggingface.co/blog/llama2 TL;DR Meta 出品的 Llama 续作 Llama2一系列模型7b、13b、70b均开源可商用。Llama2 在各个榜单上精度全面超过 Llama1同时也超过目前所有开源模型。本文非常详细地介绍了 Llama2 的预训练、SFT、RLHF 的所有细节同时也从模型训练的安全性、环保性等各个角度进行了详细分析。值得精读的大模型研发文章。 Introduction 背景尽快 LLM 训练方法很直观基于自回归的 transformer 模型在大量预料上做自监督训练然后通过人类反馈强化学习 (RLHF) 等技术来与人类偏好对齐。但高计算需求限制了 LLM 只能由少数玩家来推动发展现有的开源大模型例如 BLOOM、Llama1、Falcon虽然都能基本达到匹配非开源大模型如 GPT-3、Chinchilla的能力但这些模型都不适合成为非开源产品级 LLM 比如 ChatGPT、BARD、Claude的替代品因为这些封闭的产品级 LLM 经过大量微调与人类的偏好保持一致大大提高了它们的可用性和安全性。这一步在计算和人工标注中需要大量的成本而且往往不透明或容易重现限制了社区的进步以促进AI对齐研究本文方案开发并发布了 Llama 2包含预训练的大语言模型和微调大语言模型模型规模有 7b、13b、70b 这三种还有个没有开源的 34b 版本预训练预料增加了 40%context length 从 2048 提升到 409670b模型使用了 grouped-query attention GQA提供了微调版本的 LLM称为 Llama 2-Chat针对对话用例进行了优化Llama2 在大多数基准测试中都优于开源聊天模型并且基于有用性和安全性方向进行人工评估期望称为封闭源模型chatgpt等的合适替代品提供了对 Llama 2-Chat 微调和安全改进的方法的详细描述为开源社区做出贡献 Llama2 似乎也与一些封闭源模型相当至少在本文执行的人工评估上如以下图片所示以上实验基于人工进行 helpfuless 方面的评估在 4k 个单轮或多轮的 prompt 下测试得到的结论在大约 2000 个 adversarial prompt 的数据上测试模型的安全性可以看到 Llama 的安全性很不错综合对比结果来看绿色区域代表 Llama2 更强可以看到 Llama2 在帮助性、安全性方面都强于目前主流开源模型甚至比部分闭源模型要好实现方式这个过程始于使用公开可用的在线数据源对 Llama 2 进行预训练。接下来通过应用监督微调来创建 Llama 2-Chat 的初始版本。随后使用带有人类反馈 (RLHF) 方法的强化学习迭代地改进模型特别是通过拒绝采样和近端策略优化 (PPO)。在 RLHF 阶段迭代奖励建模数据与模型增强并行的累积对于确保奖励模型保持在分布内至关重要预训练模型结构延续 Llama 中的自回归 transformer 结构使用更鲁棒的数据清洗更新数据混合策略在 40% 更多的 token 上进行训练context length 扩展了两倍使用 grouped-query attention (GQA) 相比于 Llama1 的优化汇总在以下表格中预训练数据训练语料库包括来自公开可用来源的新混合数据不包括来自 Meta 产品或服务的数据。努力从已知包含大量关于私人的个人信息的某些站点中删除敏感数据。在 2 万亿个数据上进行训练因为这提供了良好的性能-成本权衡对大多数事实源数据进行过采样以增加知识和抑制幻觉训练细节采用 Llama 1 的大部分预训练设置和模型架构使用标准的 transformer 结构使用 RMSNorm 应用 pre-norm使用 SwiGLU activation functionRoPE与 Llama 1 的主要架构差异包括上下文长度和分组查询注意力 (GQA) 的增加 GQA 介绍自回归解码的标准做法是缓存序列中先前 token 的键 (K) 和值 (V) 对以加快注意力计算。然而随着上下文窗口或批量大小的增加多头注意力 (MHA) 模型中与 KV 缓存大小相关的内存成本显着增加。对于更大的模型其中 KV 缓存大小成为一个瓶颈键和值投影可以跨多个头共享而不会大大降低性能。对于上述这种情况有两种主流解决方案 MQA具有单个KV投影的原始多查询格式GQA具有 8 个KV投影的分组查询注意力变体选择 GQA 的原因本文做了一系列实验证明 GQA 变体在大多数评估任务上的表现与 MHA 基线相当并且平均而言优于 MQA 变体为了优化延迟需要在具有张量并行性的单个节点中使用 8 A100 托管最大的模型在这种情况下MQA 的分片不能再跨头完成因为头的数量低于 GPU 的数量。要么复制所有 GPU 中的 KV 值使 KV 缓存大小等于 GQA要么另一种选择是跨批次维度分片。然而跨批次维度分片可能会使推理服务复杂化因为它只当批量大小大于分片的数量并且额外的通信成本在所有情况下都不值得它训练超参数AdamW optimizer学习率余弦学习率2000 step 的 warmup最后 decay 到峰值学习率的 10%weight decay 0.1gradient clipping1.0训练 loss 曲线如下所示即便训练了 2T 的 token 也暂时没有看到饱和现象 tokenizer和 llama1 一样的 tokenizer使用 SentencePiece 实现的 BPE 算法。与 Llama 1 一样将所有数字拆分为单个数字并使用字节来分解未知的 UTF-8 字符。总词汇量为 32k 个 token 训练硬件支持在两个集群上做了实验Meta’s Research Super Cluster (RSC) 和 Meta 内部集群所有集群都使用 A100RSC 使用 NVIDIA Quantum InfiniBand内部集群使用 RoCE (RDMA over converged Ethernet)每GPU功耗上限RSC 是 400W内部集群是 350WRoCE(这是一个更实惠的商业互连网络)几乎可以扩展和昂贵的Infiniband一样高达2000个gpu的规模这使得预训练更加民主化 ChatGPT 对 RoCE 和 NVIDIA Quantum InfiniBand 进行对比性能两种技术都具有低延迟和高带宽的特点因此它们都适用于要求严苛的HPC和AI工作负载。虽然NVIDIA Quantum InfiniBand专门针对其GPU加速系统进行了优化但RoCE提供了更通用的以太网上RDMA功能。网络基础设施RoCE具有在集成方面的优势因为它可以在现有的以太网网络中部署无需专用的InfiniBand硬件。而NVIDIA Quantum InfiniBand则需要专用的InfiniBand交换机和网络基础设施。厂商特定与标准技术NVIDIA Quantum InfiniBand是由NVIDIA开发的专有技术而RoCE是基于标准RDMA和以太网协议的因此更具厂商无关性并得到了广泛采用。预训练碳足迹碳排放也在本文中有了定量的考量计算也提到开源就是为了避免让其他公司来做类似的事情来增加碳排放不过这是不是不包含试错成本… 微调 SFT Quality Is All You Need 第三方SFT数据可从许多不同的来源获得但本文发现其中许多数据具有的多样性和质量不足——特别是对于将 LLM 与对话风格的指令对齐因此本文首先专注于收集数千个高质量的SFT数据示例如下表中所示只通过几千个高质量的数据训练的模型效果就优于大规模开源 SFT 训练的模型这与 Lima 的发现类似有限的干净指令调优数据足以达到高水平的质量本文发现数量级为数万的 SFT 标注数据足以获得高质量的结果。本文在总共收集了 27,540 个注释后停止标注 SFT 数据我们还观察到不同的注释平台和供应商可能导致明显不同的下游模型性能这突显了即使使用供应商来获取注释时进行数据检查的重要性。为了验证我们的数据质量我们仔细检查了一组180个样例将人工提供的注释与模型生成的样本进行手工审查进行了比较。令人惊讶的是我们发现从结果SFT模型中采样的输出往往可以与人类标注者手写的SFT数据相竞争这表明我们可以重新设置优先级并将更多的注释工作投入到基于偏好的RLHFReinforcement Learning from Human Feedback注释中 SFT 训练细节余弦学习率初始学习率 2e-5weight decay 0.1bs 64seq len4096对于微调过程每个样本由一个提示prompt和一个答案answer组成。为了确保模型的序列长度得到正确填充将训练集中的所有提示和答案连接在一起。使用一个特殊的 token 将提示和答案分隔开。采用自回归目标autoregressive objective并将用户提示中的标记损失设为零因此我们只在答案标记上进行反向传播。最后我们对模型进行2个 epoch 的微调 RLHF 人类偏好数据收集选择了与其他方案比如 InstructGPT不一样的二元比较数据主要是因为它允许我们最大化收集到的提示的多样性多元比较数据作为未来工作标注过程标注员写一个 prompt根据提供的标准在两个模型回复中选择更好的回复。为了早呢更加多样性一般使用不同的模型来分别生成一个回复并调整温度等超参数除了要求参与者做出强制选择外我们还要求标注者标注他们对所选择的回应与备选回应的偏好程度他们的选择是明显更好、更好、稍微更好、或者几乎一样好/不确定标注会关注帮助性 (helpfulness) 和安全性 (safety)把这两个作为单独的需求来设计标注文档帮助性是指 Llama 2-Chat 响应满足用户请求并提供请求信息的程度安全性是指 Llama 2-Chat 的响应是否不安全人工注释是每周分批收集的随着我们收集了更多的偏好数据我们的奖励模型得到了改进我们能够为 Llama 2-Chat 训练逐步更好的版本Llama 2-Chat 改进还改变了模型的数据分布。由于如果没有暴露于这个新的样本分布奖励模型的准确性会迅速下降。在新的Llama 2-Chat调优迭代之前使用最新的Llama 2-Chat迭代收集新的偏好数据是很重要的收集了一百万条人类偏好的二元对比数据。与现有的开源数据集相比我们的偏好数据具有更多的对话轮次平均而言更长奖励模型奖励模型将模型响应及其对应的提示包括来自先前回合的上下文作为输入并输出标量分数来指示模型生成的质量例如有用性和安全性一些研究发现帮助性和安全性有时需要 trade-off这可能会使单个奖励模型在两者上表现良好具有挑战性。为了解决这个问题我们训练了两个独立的奖励模型一个针对有用性称为帮助 RM进行了优化另一个用于安全安全 RM从预训练的聊天模型检查点初始化我们的奖励模型因为它确保两个模型都受益于预训练中获得的知识。简而言之奖励模型“知道”聊天模型知道什么。这可以防止两个模型会有信息不匹配的情况这可能导致偏爱幻觉训练 loss促使 chosen 的样本得分比 reject 要高其中 x 是 promptyc 是标注员选择的模型回复yr 是标注员拒绝的模型回复。同时为了利用上标注的两条数据的好坏确定程度明显更好、更好、稍微更好、或者几乎一样好/不确定增加了一个 margin 的 loss 项原理和人脸识别中的 margin 概念基本一致对具有不同响应对使用较大的 margin对响应相似的对使用较小的 margin 训练数据混合策略帮助性奖励模型最终是在所有Meta Helpfulness数据的基础上训练的同时还结合了从Meta Safety和开源数据集中均匀采样的剩余数据Meta Safety奖励模型则是在所有Meta Safety和Anthropic Harmless数据上进行训练的同时还混合了Meta Helpfulness和开源的帮助性数据比例为90/10。我们发现在只有10%帮助性数据的设置下对于那些被所选和被拒绝的回答都是安全的的准确性尤为有益训练细节训练一个 epoch使用和基础模型相同的训练超参数70b模型使用5e-6的学习率其他的使用1e-5学习率3% 的 warmup每个 batch 有 512 pairs 数据迭代式微调RLHF 当我们收到更多批次的人类偏好数据注释时我们能够训练更好的奖励模型并收集更多的提示。因此我们为 RLHF 模型训练了连续版本这里称为 RLHF-V1 … RLHF-V5 等尝试了两种 RLHF 微调算法 Proximal Policy Optimization (PPO)Rejection Sampling fine-tuning拒绝采样从模型中采样 K 个输出并选择具有奖励的最佳候选者与 Constitutional AI: Harmlessness from AI Feedback 论文方法一致。在这里我们更进一步并使用选定的输出进行梯度更新两种 RL 算法的主要区别在于广度在拒绝采样中模型探索给定 prompt 的 K 个样本而 PPO 只进行一次生成深度PPO 中在步骤 t 训练期间样本是在上一步梯度更新后从 t-1 更新的模型策略的函数。在拒绝采样微调中我们在应用于 SFT 的微调之前在给定我们模型的初始策略的情况下对所有输出进行采样以收集新数据集。然而由于我们应用了迭代模型更新两种 RL 算法之间的根本差异不太明显在 RLHF (V4) 之前我们只使用了拒绝采样微调之后我们依次组合这两者在再次采样之前的结果拒绝采样 checkpoint 之上应用 PPO 拒绝采样Rejection Sampling 仅使用我们最大的 70B Llama 2-Chat 执行拒绝采样。所有较小的模型都对来自较大模型的拒绝采样数据进行微调从而将大模型能力提炼为较小的模型。我们将在未来工作中进一步分析这种蒸馏的影响在每个迭代阶段从最近的模型中为每个 prompt 采样 K 个答案。然后使用当时实验可访问的最佳奖励模型对每个样本进行评分并选择给定 prompt 的最佳答案。在我们模型的早期版本直到 RLHF V3我们的方法是仅限于从前一次迭代中收集的样本“袋”中进行答案选择。例如RLHF V3是仅使用来自RLHF V2的样本进行训练的。然而尽管不断改进这种方法在某些能力上出现了一些能力退化。例如通过定性分析发现与之前的版本相比RLHF V3 在构成韵律诗句方面更加困难这表明进一步调查遗忘的原因以及缓解方法可能是未来额外研究的一个富有成果的领域作为回应随后的迭代中我们修改了我们的策略将所有之前迭代中表现最好的样本纳入考虑例如RLHF-V1和RLHF-V2中使用的样本。虽然我们没有呈现具体的数字但这种调整在性能方面表现出了显著的改进并有效地解决了之前提到的问题在下图中说明了拒绝抽样的好处。最大曲线和中位数曲线之间的差异可以被解释为在最佳输出上进行微调的潜在收益。正如预期的那样随着样本数量的增加这种差异增大即更多样本更多机会生成良好的轨迹而中位数保持不变。在样本中探索和获得最大奖励之间存在直接联系。温度参数对于探索也起着重要作用因为较高的温度使我们能够采样更多样化的输出在下图中展示了 Llama 2-Chat-SFT左图和 Llama 2-Chat-RLHF右图的最大奖励曲线这些曲线是在不同温度下进行 N 次样本采样其中N ∈ [1, . . . , 100]得到的。我们可以观察到在迭代模型更新的过程中最佳温度是不固定的RLHF对温度进行了直接影响。对于Llama 2-Chat-RLHF在对10到100个输出进行抽样时最佳温度范围在T ∈ [1.2, 1.3]之间。考虑到有限的计算预算因此需要逐渐重新调整温度。需要注意的是这种温度重新调整对于每个模型来说是在固定步骤数下进行的并且始终是从每个新的RLHF版本的基本模型开始 PPO 优化目标就是提升 reward同时与原始模型的输出加个 KL 散度约束为了训练稳定性并且缓解 reward hacking 情况也即奖励模型高分而真实人工评测低分其中 Rc 是安全性奖励和帮助性奖励的分段组合。在数据集中标记了可能引发潜在不安全响应的提示并从安全模型中优先考虑分数。选择 0.15 的阈值来过滤不安全的响应对应于在 Meta Safety 测试集上评估的 0.89 的准确度和 0.55 的召回率。还发现将最终的线性分数进行白化通过使用logit函数来反转sigmoid函数非常重要以增加稳定性并与上面的KL惩罚项β正确平衡训练细节 AdamW:β1 0.9, β2 0.95weight decay 0.1gradient clipping of 1.0constant learning rate 10−6bs512PPO clip threshold of 0.2mini-batch size of 64KL 惩罚系数7B and 13B 采用 0.0134B 和 70B 采用 0.005训练 200 iter 到 400 iter对于70B 模型每个 iter 花费时间是 330s为了训练更大的 batchsize 使用了 FSDP。这种方法在使用O(1)的前向或后向传递时非常有效但在生成过程中会导致显著的减速约20倍即使使用较大的批次大小和KV缓存。我们通过在生成之前仅一次将模型权重合并到每个节点并在生成后释放内存然后恢复其余的训练循环来缓解了这个问题。通过这种方式我们能够在不影响训练质量的前提下解决了生成时的内存问题多轮一致性的系统消息System Message for Multi-Turn Consistency 在对话设置中有些指令应该适用于所有对话回合例如要简洁回复或者“扮演”某个公众人物。当我们向 Llama 2-Chat 提供这样的指令时后续的回复应始终遵守这些限制。然而我们最初的 RLHF 模型在对话进行几个回合后往往会忘记初始指令如下图左图所示。为了解决这些问题我们提出了 Ghost AttentionGAtt方法这是一个受 Context Distillation 启发的非常简单的方法通过对微调数据进行干预来帮助注意力在多阶段的过程中聚焦。GAtt 使得对话在多个回合内能够保持控制如下图右图所示 GAtt 介绍假设我们可以访问两个人之间的多轮对话数据集例如用户和助手之间的对话其中包含一系列消息 [u1, a1, …, un, an]其中 un 和 an 分别对应第 n 轮对话的用户和助手消息。然后我们定义一个指令inst在整个对话过程中应该被遵守。例如指令可以是扮演某个角色。然后我们将这个指令合成地连接到对话中所有的用户消息上接下来我们可以使用最新的RLHF模型从这个合成数据中进行采样。现在我们有了一个上下文对话和用于微调模型的样本这个过程类似于拒绝抽样。然而我们并不是在所有上下文对话回合中都加入指令而是只在第一个回合中加入这样会导致一个训练时的问题即系统消息即最后一轮之前的所有中间助手消息与我们的样本不匹配。为了解决这个问题以免影响训练我们简单地将之前回合中的所有标记的损失设置为0包括助手消息对于训练指令我们创建了一些合成的限制供采样例如兴趣爱好“您喜欢例如网球”语言“说()例如法语”或者公众人物“扮演()例如拿破仑”。为了获得兴趣爱好和公众人物的列表我们让Llama 2-Chat来生成避免了指令与模型知识不匹配的问题例如让模型扮演它在训练中没有遇到过的角色。为了使指令更加复杂和多样化我们通过随机组合上述限制来构造最终的指令。在构造用于训练数据的最终系统消息时我们还会将一半的原始指令修改为更简洁的形式例如Always act as Napoleon from now会变为Figure: Napoleon。这些步骤生成了一个 SFT 数据集用于微调Llama 2-Chat。 GAtt 评测为了说明 GAtt 如何帮助在微调期间重塑注意力在下图中展示了模型的最大注意力激活。每个图的左侧对应系统消息“Act as Oscar Wilde”。我们可以看到装备了GAtt的模型右图在对话的更大部分保持与系统消息相关的大的注意力激活相比没有GAtt的模型左图。尽管GAtt非常有用但目前的实现还是原始的对这种技术进行更多的开发和迭代可能会进一步增益模型。例如我们可以在微调过程中整合数据教导模型在对话过程中改变系统消息安全性首先讨论了我们对预训练数据和预训练模型的安全调查接下来描述了安全对齐过程解释如何收集与安全相关的注释并利用SFT和RLHF并给出了实验结果。然后讨论了我们进行的红色团队以进一步理解和提高模型的安全性。最后我们提出了 Llama 2-Chat 的定量安全评估预训练中的安全性预训练数据处理从已知包含大量关于私人个人的个人信息的某些地点排除了数据没有做更多过滤主要考虑为了允许 Llama 2 在任务之间更广泛地使用例如它可以更好地用于仇恨言论分类同时避免意外人口统计擦除因此Llama 2 模型应仅在应用仔细的安全性微调后再部署人口统计表示代词Demographic Representation: PronounsPronouns 模型生成中的偏差可能是由于继承自训练数据本身的偏差比如在海量文本语料库中表示“people”的词通常与表示“men”的词更相似的上下文中使用而不是表示“women”的词。如下表a所示在英语训练预料中统计出来 He 的代词使用明显多于 She。这可能意味着模型在对提及 She 代词的上下文进行预训练期间学习较少模型生成 He 的概率可能就会比 She 高人口统计表示身份从宗教、性别和性别、国籍、种族和民族性以及性别取向这五个维度进行分析由上表b可以看到虽然 she 的出现评率比 he 少但是 female 在文档中的出现频率比 male 高也许反映了这些术语的语言标记差异。从国家、种族和民族来看语料明显更倾向于西方人口例如“美国”一词在 69.4% 的参考文献中被提及“欧洲”一词比其他种族和民族更为普遍 “Christian” 是最具代表性的宗教其次是 “Catholic” 和 “Jewish” 数据毒性我们使用在 ToxiGen 数据集上微调的 HateBERT 分类器来衡量预训练语料库的英语部分的毒性率。我们分别对文档的每一行进行评分并对它们进行平均以分配文档分数。基于 10% 随机抽样的样本进行统计分数分布如下图所示大约 0.2% 的评估文档被分配 0.5 或更高的可能性分数这意味着我们的预训练数据中存在大量毒性语言识别使用 fastText 工具进行语言识别大部分是英文语料中文语料只有 0.13% 讨论学习和观察强化学习被证明非常有效特别是考虑到其成本和时间有效性。我们的研究结果强调了 RLHF 成功的关键决定因素在于它在整个注释过程中促进人类和 LLM 之间的协同作用。即使使用成本较高的人工标注员每个单独的标注都存在显着差异。在 SFT 标注数据上微调的模型学习了这种多样性比如下图中 SFT模型有很多低 reward 回复。此外模型的性能受到最熟练注释者的写作能力的限制。但在比较两个输出对 RLHF 的偏好注释时人工注释者可以说不会受到差异的影响道理很简单不是艺术家的人很难画出高质量的画但是评估两幅有明显差异的画的优劣还是比较容易的。因此奖励机制迅速学会将低分数分配给不希望的尾部分布并与人类偏好保持一致。如下图所示可以看到最差的答案逐渐被删除将分布向右移动基于上下文的温度系数缩放In-Context Temperature Rescaling 观察到与 RLHF 相关的一个有趣的现象这是我们之前没有报道过的最佳知识的特征温度的动态重新缩放取决于上下文。温度似乎受到 RLHF 的影响。然而有趣的是我们的发现还表明这种转变并不是在所有 prompt 中统一应用的例如当涉及到与创造力相关的提示时例如“写一首诗”温度的增加继续在我们的各种 RLHF 迭代中生成多样性。这可以从 Self-BLEU 斜率中观察到这反映了与 SFT 模型相当的模式。另一方面对于基于事实信息的提示例如“首都是什么”Self-BLEU 斜率随着时间的推移而减少。这种模式表明尽管温度上升但该模型学会了始终为事实提示提供相同的响应。 Llama2 Chat 对时间的感知对时间感知程度挺好。这种时间概念是在 SFT 中使用了 1000 个与特定日期有关的问题数据所获得的。观察表明尽管 LLM 的训练完全基于下一个 token 预测和随机打乱的数据而不考虑它们的时间上下文但 LLM 已经在很大程度上内化了时间的概念。工具使用涌现能力 OpenAI 的插件的发布在学术界引起了大量话语引发了一些思考如何有效地教模型利用工具或者这个过程是否需要一个实质性的数据集我们的实验表明工具使用可以以零样本的方式自发地从对齐中出现。尽管我们从未明确注释工具使用用法但下图展示了一个实例其中模型展示了在零样本上下文中利用一系列工具的能力在 math 数据上的实验Llama2 使用工具能力很强实验结果预训练与开源基础模型的精度对比在代码、常识推理Commonsense Reasoning、世界知识World Knowledge、阅读理解Reading Comprehension、数学MATH、流行的聚合基准Popular Aggregated Benchmarks等评测集上全面超过开源基础模型与闭源模型对比比不过闭源模型与 GPT-4 的差距还是很大Llama70B与 PaLM540B基本在同一水平 RLHF 奖励模型精度其中 GPT4 是使用 “Choose the best answer between A and B” 提示词测试出来的。帮助性奖励模型在帮助性数据集上精度最高同样安全性奖励模型在安全性数据集上精度最高。对于回复有差异的场景进行分别评测看起来符合预期对于差别较大的回复对判别准确度更高研究了奖励模型的数据和模型大小的缩放趋势目前还没有饱和说明继续增加数据还能提升性能基于模型的评估结果展示了不同的SFTSafety First Training和RLHFReward Learning with Human Feedback版本在安全性和有用性两个方面的进展情况通过我们内部的安全性和有用性奖励模型进行度量。在这组评估中我们在RLHF-V3版本之后在两个方面都优于ChatGPT一种基线模型即无害性harmlessness和有用性helpfulness均高于50%。尽管使用我们的奖励作为点对点指标具有前述相关性但它可能对Llama 2-Chat我们的模型有利偏差。因此为了公平比较我们额外使用GPT-4进行最终结果的计算以评估哪个生成模型更受青睐。为避免任何偏见ChatGPT和Llama 2-Chat输出在GPT-4提示中的顺序会被随机交换。如预期Llama 2-Chat相对于ChatGPT的胜率变得不太显著尽管我们最新的Llama 2-Chat仍超过60%的胜率。这些提示分别对应于安全性和有用性的1,586个和584个验证集的提示。基于人工的评测结果安全性定量评估 generate 的参数是 temperature 0.1、top-p 0.9毒性还有待加强 RLHF 对安全性的提升其中红框区域代表安全性的提升及 RLHF 之前安全性分数较低 RLHF 之后安全性较高提升样例安全性 scaling 实验随着数据量增加安全性得分逐渐提升帮助性也基本稳定同时随着数据量提升低分区域的长尾现象被逐渐缓解安全性对比实验整体优于 ChatGPT 消融实验上下文增加带来的性能提升相同的网络结构训练 150B token在 long-context task 上有大幅涨点通用任务上基本不掉点 GQA 对比 MHA 和 MQA 使用 30b 模型训练 150b token 的实验对比。为了在 GQA 和 MQA 中保持相似的整体参数计数增加了前馈层的维度以补偿注意力层的减少。对于 MQA 变体将 FFN 维度增加 1.33 倍对于 GQA 变体将其增加 1.3 倍。观察到 GQA 变体在大多数评估任务上的表现与 MHA 基线相当并且平均而言优于 MQA 变体基于 8x80g A100 做推理速度验证实验使用 30B 模型对于 GQA 、MQA 和 MHA 进行消融对比。在这些测试中只需在所有 GPU 中复制 MQA 的 KV 头因此 MQA 的 KV 缓存大小等于 GQA并且两个变体的行为非常相似使用 MQA 只是具有稍大的 FFN 维度维度。多查询变体能够以更大的批处理大小实现更高的吞吐量MHA 在 bs1024/seq len256 或 bs128/seq len2048 时会 OOM但是多查询变体能正常跑并在较小的批处理中显示类似的延迟 Thoughts 本文对大模型研发的每个环境都讲解地非常详细非常良心的开源作品难怪大家呼吁 Meta 改名称为新的 “OpenAI”预训练对知识性的语料进行过采样很重要模型的效率优化需要同时考虑训练、测试两个阶段比如考虑到测试阶段的效率就优先使用了 GQA 而不是 MQA SFT 数据质量很重要Llama2 使用 2-3 w 的人工标注语料同时也说明这个数据量就差不多够了再多了收益逐渐变小。建议把更多的人类标注成本放到 RLHF 中 RLHF RM 需要分为帮助性和安全性两个模型进行迭代RLHF 流程需要迭代试优化保证在 LLM 模型能力提升之后 RM 模型的能力也要匹配避免 reward hacking 问题拒绝采样结合 PPO 很有效本文所体现的 Meta 作为大厂的责任心很强花了很大篇幅描述模型的安全性同时也反复强调训练的大模型的碳排放会计入 Meta 的内部计划中并且为了降低其他公司重复进行的预训练操作带来的碳排放增加所以选择开源所有 Llama2 模型除了30b并支持商用

查看全文

http://www.dnsts.com.cn/news/105177.html