wordpress开发门户网站,基于html5的wordpress,做网站要要多少钱,网站建设需要多少天论文速读|Transforming and Combining Rewards for Aligning Large Language Models 论文信息#xff1a; 简介#xff1a; 本文探讨了如何使大型语言模型#xff08;LLMs#xff09;与人类偏好对齐。传统的对齐方法是先从偏好数据中学习一个奖励模型#xff0c;然后使用这…论文速读|Transforming and Combining Rewards for Aligning Large Language Models 论文信息 简介 本文探讨了如何使大型语言模型LLMs与人类偏好对齐。传统的对齐方法是先从偏好数据中学习一个奖励模型然后使用这个奖励模型来更新语言模型。这种方法的背景是我们希望语言模型的输出具有某些期望的属性例如有帮助、无害、真实或有创造性。然而这种方法面临两个主要问题奖励模型的单调变换如何影响对齐效果以及如何将多个奖励模型结合起来以对齐到多个属性。 本文的动机是通过概率解释对齐过程来改进语言模型的对齐效果。作者认为对齐的目标是使模型输出符合特定属性的后验分布。因此对齐到多个属性的目标是生成在所有属性上都“好”的输出样本。这种概率解释需要定义输出何时被认为是“好”的。在从偏好数据中学习的奖励模型的背景下作者认为如果输出的奖励值大于某个特定于提示的参考值则该输出是“好”的。 论文方法 本文提出了一种称为“LSC-变换”log-sigmoid-centered transformation的方法来变换奖励模型。这种方法包括以下步骤 对齐目标的形式化首先定义对齐目标即生成在特定属性上被认为是“好”的输出样本的分布。 奖励变换作者推导出一种自然的变换选择即对中心化的奖励应用log-sigmoid函数。这种变换有两个重要属性 强调改进表现不佳的输出通过减少非常高奖励值的边际效用鼓励模型改进表现不佳的提示并阻止模型通过优化超出奖励模型有效范围的奖励来进行“奖励黑客攻击”。 奖励的合理聚合通过将变换后的奖励求和来实现逻辑与AND操作即变换后的奖励之和对应于输出在所有测量属性上都是“好”的概率。 论文实验 Figure 3展示了使用变换后的奖励与未变换的奖励进行对齐时的改进情况。图中比较了两种评估策略下的对齐模型相对于SFTSupervised Finetuning模型的胜率。 评估策略包括 1使用由PALM-2评估器判断的提示比较对齐策略和随机SFT样本之间的胜率。 2使用T5-XXL评估器与SFT分位数帮助性为85%无害性为95%进行比较的胜率。 结果显示使用变换后的奖励进行对齐在所有KL距离水平上均优于使用原始奖励进行对齐。 论文链接
https://arxiv.org/pdf/2402.00742