网站外部链接建设分析,门户网站建设目标,自己做网站软件,网站被降权如何恢复文章目录 前言0、论文摘要一、Introduction1.1目标问题1.2相关的尝试1.3本文贡献 二.相关工作2.1文本生成模型的训练方法2.2 基于LLM的自动评估2.3 LLM 蒸馏和基于 LLM 的数据增强 三.本文方法3.1 Summarize as Large Language Models3.1.1 前提3.1.2 大型语言模型作为参考具有… 文章目录 前言0、论文摘要一、Introduction1.1目标问题1.2相关的尝试1.3本文贡献 二.相关工作2.1文本生成模型的训练方法2.2 基于LLM的自动评估2.3 LLM 蒸馏和基于 LLM 的数据增强 三.本文方法3.1 Summarize as Large Language Models3.1.1 前提3.1.2 大型语言模型作为参考具有准参考摘要的 MLE 3.1.3 从基于法学硕士的评估中学习对比学习用于总结质量评估的 GPTcore用于摘要质量评估的 GPTRank 四 实验效果4.1数据集4.2 对比模型4.3实施细节4.4评估指标4.5 实验结果4.5.1 通过 GPTcore 学习4.5.2 使用 GPTRank 学习4.5.3 比较研究4.5.4 人类评估和荟萃分析4.5.4.1 人类评估集合4.5.4.2 结果分析4.5.4.3 基于法学硕士的评估的荟萃分析 五 总结局限 前言 On Learning to Summarize with Large Language Models as References2305code paper 0、论文摘要
最近的研究发现与常用摘要数据集中的原始参考摘要相比大型语言模型 (LLM) 生成的摘要更受人类注释者的青睐。 因此我们研究了一种新的文本摘要模型学习设置将法学硕士视为这些数据集的参考或黄金标准预言机。 为了检查与这种新的学习环境相一致的标准实践我们研究了两种基于 LLM 的模型训练摘要质量评估方法并采用对比学习训练方法来利用 LLM 引导的学习信号。 我们在 CNN/DailyMail 和 XSum 数据集上的实验表明在基于 LLM 的评估下较小的摘要模型可以实现与 LLM 类似的性能。 然而我们发现尽管我们提出的训练方法带来了有希望的改进但较小的模型在人类评估下仍无法达到 LLM 级别的性能。 与此同时我们对这种新的学习环境进行了荟萃分析揭示了人类评估与基于法学硕士的评估之间的差异强调了我们研究的这种以法学硕士为参考设置的好处和风险。
一、Introduction
1.1目标问题
最近的研究Liu 等人2023bZhang 等人2023发现大型语言模型LLM如 GPT-3.5Ouyang 等人2022可以生成人类注释者更喜欢的摘要在无参考的人类评估环境中与广泛使用的数据集例如 CNN/DailyMailNallapati 等人2016和 XSumNarayan 等人2018的参考摘要进行比较。现有参考摘要的质量问题有效地限制了在其上训练的摘要模型的性能上限这可能会导致监督摘要模型与法学硕士之间的性能差距正如相关工作所观察到的那样Goyal 等人2022 年Liang 等人等人2022Liu 等人2023bZhang 等人2023。
1.2相关的尝试
1.3本文贡献
因此我们研究了文本摘要模型的新学习设置其中法学硕士被认为是摘要任务的参考或黄金标准预言机。这种 LLMa 参考设置通常在模型训练和评估方面对文本生成模型的学习设置引入了有趣的变化因此我们研究了与这种转变相一致的标准实践§2。 具体来说传统的摘要模型学习设置通常围绕单个参考摘要进行——在训练中标准训练算法最大似然估计MLE要求模型预测参考摘要标记在评估中像ROUGELin2004这样的自动评估指标通过将系统输出与参考摘要进行比较来估计系统输出的质量。相比之下法学硕士提供了所有可能的候选摘要的目标概率分布或质量测量。因此法学硕士可以为任意候选人分配质量分数这使得超越 MLE 的训练技术成为可能例如对比学习Liu 等人2022b和强化学习Paulus 等人2018Stiennon 等人2020Pang He, 2021并为模型评估提供了评估模型输出质量的预言机。 适应这种变化我们研究了两种使用LLM进行摘要质量评估的方法 1GPTScoreFu et al., 2023它将候选摘要的LLM预测概率作为其质量得分 (2) GPTRank我们提出的一种新方法要求法学硕士提供不同摘要的质量排名受到最近基于法学硕士评估的工作 (Liu et al., 2023a) 的启发。 通过这两种评估方法我们采用对比学习方法进行模型训练以有效利用LLM提供的监督信号。使用所提出的方法我们是能够训练较小的摘要模型例如 BARTLewis 等人2020以匹配基于 LLM 的评估下的 LLM 表现§3。 研究了新的法学硕士作为参考设置后我们对该设置本身进行了荟萃分析§4。具体来说我们使用人群和专家注释器对法学硕士和法学硕士引导的较小模型进行人工评估并使用评估结果来评估基于法学硕士的评估方法的可靠性。我们的分析揭示了法学硕士参考设置的好处和风险。 一方面较小的模型确实可以受益于LLM的指导和对比学习方法。 另一方面基于 LLM 的评估无法与人类评估保持一致因为人类评估仍然更喜欢 LLM 而不是较小的模型而它们在基于 LLM 的评估下实现了相似的性能。
总之我们的贡献如下
(1) 我们凭经验证明当使用更好的参考资料 (LLM) 和学习方法对比学习以较小的预算进行训练时BART 等较小模型的性能可以得到改善。1 (2) 我们的荟萃分析强调了 LLM 的局限性基于的培训和评估方法。它表明较小的摘要模型尚无法与法学硕士在人类评估下的表现相匹配这需要进一步检查和改进这种新的学习环境。2
二.相关工作
2.1文本生成模型的训练方法
文本生成模型的标准 MLE 训练有两个主要局限性 1训练目标即交叉熵损失与评估标准例如 ROUGE之间存在差异 2教师强制Williams and Zipser1989训练方式与评估过程中自回归生成行为之间的差异称为暴露偏差Bengio et al.2015Ranzato et al.2016。因此人们提出了超越 MLE 的训练方法来解决这两个限制。其中一系列方法是基于强化学习RL的可以优化文本面向特定奖励函数的生成模型 (Ranzato et al., 2016; Bahdanau et al., 2016; Li et al., 2016; Paulus et al., 2018; Li et al., 2019; Stiennon et al., 2020;庞和何2021。除了强化学习之外还开发了基于监督学习的训练方法例如最小风险训练Shen et al., 2016; Wieting et al., 2019针对具有各种奖励信号的序列级优化Wiseman 和 Rush 2016 年Edunov 等人2018 年。最近还采用了对比学习Hadsell et al., 2006它通过要求模型区分正好和负坏例子来增强模型能力Yang et al., 2019Pan et al., 2019 .2021Cao 和 Wang2021Liu 和 Liu2021Sun 和 Li2021Liu 等人2022bZhao 等人2022Zhang 等人2022b。 沿着这条道路的最新工作探索了使用对比学习来使法学硕士与人类反馈保持一致Yuan 等人2023Zhao 等人2023作为基于人类反馈的强化学习的替代方案Stiennon 等人2020Zhao 等人2023。欧阳等人2022。
2.2 基于LLM的自动评估
最近的工作探索了使用法学硕士进行自动 NLP 评估。 GPTScoreFu et al., 2023利用 LLM 预测的文本序列概率作为质量得分。另一方面一系列工作Chiang 和 yi Lee2023Gao 等2023Chen 等2023Wang 等2023Luo 等2023。例如G-Eval (Liu et al., 2023a) 提出了使用 LLM 执行文本完成任务的评估方法例如预测李克特量表评估或成对比较的答案。值得注意的是其中一些研究Fu et al., 2023Liu et al., 2023aGao et al., 2023Chen et al., 2023Wang et al., 2023都评估了基于LLM的评估方法在摘要人类评估基准 SummEval (Fabbri et al., 2021) 上进行研究发现基于 LLM 的评估比以前的方法如 ROUGE 或 BERTScore (Zhang* et al., 2020) 与人类判断具有更高的相关性。除了摘要评估之外基于 LLM 的评估也已用于文本分类任务Gilardi 等人2023和 RL 代理的奖励设计Kwon 等人2023。
2.3 LLM 蒸馏和基于 LLM 的数据增强
为了提高较小的 NLP 模型的性能相关工作提出了提取 LLM 并使用 LLM 进行数据增强的方法Wang et al., 2021Ding et al., 2022Kang et al., 2023。具体来说工作线Shrid-哈尔等人2022李等人2022 Hsieh 等人2023使用法学硕士生成最终答案和任务相关描述以训练推理任务的较小模型。至于与文本摘要相关的工作Wang 等人。 (2021) 介绍了使用 GPT-3Brown 等人2020生成参考摘要而 Gekhman 等人。 (2023) 提出使用 LLM 来注释摘要事实一致性 (Maynez et al., 2020)用于训练较小的事实一致性评估模型。
三.本文方法
3.1 Summarize as Large Language Models
3.1.1 前提
神经抽象摘要模型 g 旨在生成总结源文档 D 信息的文本序列 SS ← g(D)。当 g 是自回归生成模型时它将给定源文档 D 的候选摘要 S 的概率分解为 其中 si 是 S 中的第 i 个标记S0 是特殊的序列开始 (BOS) 标记Si 是 S 在 Si 之前的前缀字符串lS 是 S 的长度不带 BOS 标记并且pg 是由汇总模型 g 参数化的概率分布。
g 的标准训练算法是带有单个参考黄金标准摘要 S* 的最大似然估计 (MLE)。与等式。 1、本例的 MLE 优化相当于最小化以下交叉熵损失 其中 θ 是 g 的可学习参数。
3.1.2 大型语言模型作为参考
类似于等式。 1、自回归LLM h定义了文本摘要的目标分布 这与单个参考摘要定义的点质量分布不同。因此交叉熵损失变为 其中 S 是可能输出的集合候选摘要。 Kim 和 Rush (2016) 将这种设置称为序列级知识蒸馏。在实践中计算方程。 4 是棘手的因为 S 是无限的。因此我们研究了三种类型的方法来近似方程的优化过程。 4.
具有准参考摘要的 MLE
我们的基线方法将 LLM h 的贪婪解码结果视为准参考摘要并使用 MLE 优化摘要模型 g。具体来说损失函数变为 其中 ˆ S 是 h 的贪心解码结果 其中 s 表示词汇表中的标记。
3.1.3 从基于法学硕士的评估中学习
除了准参考摘要之外参考法学硕士可以为模型训练提供更丰富的监督信号因为它们可以用来评估任何候选摘要的质量。 因此我们采用对比学习方法 BRIO (Liu et al., 2022b)它可以利用 LLM 指导进行模型训练并探索两种基于 LLM 的评估方法即最近推出的 GPTScore (Fu et al., 2023) 还有一个我们稍后会介绍的新方法GPTRank。
对比学习
我们采用对比损失Liu et al., 2022b来更好地利用LLM监督信号它设定了以下目标给定两个候选摘要S1、S2如果S1从基于LLM的评估方法中获得更高的质量分数概括模型 g 还应该为 S1 分配更高的概率方程 1。更详细地说该损失是用一组候选摘要 Sc 定义的该集合按 LLM 分配的质量分数排序并且摘要模型 g 的任务是为更好的候选者分配至少两倍的概率
对应于以下保证金损失 在实践中我们观察到方程中对数概率的大小。 8 高度依赖于候选人摘要的长度。因此我们对等式进行修改。 8 基于长度归一化对数概率 ̄ pg 和等式。 8 改为 其中 λ 是近似平均摘要长度的缩放因子。继刘等人之后。 2022b我们将交叉熵损失等式 5与对比损失结合起来作为多任务损失 其中 α 是对比损失的权重。
用于总结质量评估的 GPTcore
对比学习目标方程 10需要从参考法学硕士中获取真实的候选人总结质量分数。因此我们首先采用GPTScoreFu et al., 2023进行总结质量评估。具体来说GPTScore 将参考 LLM h 预测的候选摘要的长度归一化条件对数概率解释为其质量分数即 因此方程中使用的候选摘要集合 Sc。 10 基于归一化目标分布方程 3进行排序使得对于任何 SiSj ∈ Sci j, ̄ ph(Si|D) ̄ ph(Sj|D)。我们在图 1 中提供了 GPTScore 的说明。
用于摘要质量评估的 GPTRank
最近的工作例如 G-Eval (Liu et al., 2023a)没有利用 LLM 的预测概率而是将自动评估制定为 LLM 的文本完成或填充任务。例如给定源文章和摘要可以要求法学硕士提供摘要的数字质量分数。然而正如刘等人。 (2023a) 发现 LLM 预测分数不够多样化且候选人摘要不同可能会获得相同的分数我们向法学硕士提出排名任务。 所提出的评估方法 GPTRank 要求法学硕士为同一来源文章的不同候选摘要列表提供排名。此外由于最近的工作Liu et al., 2022a, 2023a发现语言生成模型可以受益于评估任务的自我解释阶段因此我们提示法学硕士在提供实际排名之前首先生成解释。然后将该排名用于对比训练等式 10。我们在图 2 中提供了使用 GPTRank 的示例。
四 实验效果
我们以多个法学硕士作为较小模型的参考进行实验并比较不同训练方法的性能。
4.1数据集
我们在 CNN/DailyMail (CNNDM) 数据集上进行实验。使用原始验证集进行模型训练和评估并使用100个测试示例进行基于LLM的评估。法学硕士被提示生成三句话摘要以近似原始摘要风格并使用 0 采样温度来近似贪婪解码过程等式 63。
4.2 对比模型
4.3实施细节
模型训练从在原始 CNNDM 数据集上微调的 BART4 检查点开始。我们选择BART是因为它使用广泛且规模相对较小。 微调过程包括三个步骤 (1) 热启动。我们使用 ChatGPT5 生成 10K 个用于微调的摘要和 1K 个用于验证的摘要并通过 MLE 训练对原始 BART 检查点进行微调等式 5。 (2) MLE 培训。使用步骤 (1) 中的微调检查点我们继续对不同 LLM 生成的准参考摘要进行 MLE 训练来微调模型。 (3)对比训练。从步骤 (2) 继续我们使用多任务、对比学习目标不断微调模型等式 11。方程式的候选摘要。 10 个是从步骤2中训练的检查点生成的并且不同的光束搜索Vijayakumar 等人2018用于为每个数据点生成 8 个候选点。6 我们注意到为了更公平的比较在以下部分中我们比较步骤2和步骤3中检查点的性能在预算方面使用相似数量的数据进行训练。 关于检查点选择对于 MLE 训练我们使用验证集上的交叉熵损失作为标准而对于对比训练我们使用对比损失等式 10。 自动评估 对于基于参考的评估我们报告系统输出与参考 LLM 生成的准参考摘要之间的 ROUGE-1/2 F1 分数。 对于无参考评估我们使用 GPTScoreFu 等人2023或 GPTRank图 2。特别是对于 GPTScore我们报告了对数概率的非标准化和标准化总和。
4.4评估指标
4.5 实验结果
4.5.1 通过 GPTcore 学习
我们首先使用 GPTScore 来研究学习。 我们选择的参考 LLM 是 OpenAI 的 text-davinci-003 (GPT3D3)因为它的 API 提供了对预测对数概率的访问。 使用 GPT3D3可以生成大约 2K 个摘要用于 MLE 训练并生成 200 个数据点用于对比学习。
我们在表中报告了测试集上的模型性能。 1. 比较以下模型的性能 (1) GPT3D3 (2) 在原始 CNNDM 数据集上微调的 BART 检查点 (3) GPT3D2OpenAI 的text-davinci-002), (4) 7B Alpaca 检查点,7 (5) ChatGPT。 我们得出以下观察结果 1与原始 BART 检查点相比根据 GPTScore 或 ROUGE 衡量对 LLM 的准参考摘要进行 MLE 训练可以有效提高模型性能。它表明使用更好的参考摘要进行训练可以缩小较小的摘要模型和法学硕士之间的性能差距。 2对比学习得到的模型BRIO.GPT3D3可以比通过MLE训练微调的模型BART.GPT3D3获得明显更好的GPTScore证明了对比学习对于近似参考LLM目标分布的有效性。 (3) BRIO.GPT3D3 已经可以达到与参考 LLM (GPT3D3) 本身类似的 GPTScore同时仅通过对比学习对 100 个示例进行训练这显示了进一步缩小性能差距的有希望的路径。
4.5.2 使用 GPTRank 学习
我们现在使用 GPTRank 进行模型训练和评估的实验。我们选择的参考 LLM 是 ChatGPT 8 和 GPT4 (OpenAI, 2023)因为它们在摘要评估方面表现出了最先进的性能 (Liu et al., 2023a)。9 对于对比学习使用 500 或 1000 个数据点模型训练ChatGPT和GPT4分别作为参考LLM并使用100个数据点进行验证。 为了进行更准确的评估我们选择ChatGPT作为基线模型并使用LLM在不同系统和ChatGPT之间进行配对比较。此外我们允许法学硕士预测两个摘要之间的平局。10以 ChatGPT 作为参考 LLM 的结果如表 2 所示。
结果与我们在第 3.2 节中观察到的结果类似 1使用更好的参考进行训练有助于提高摘要模型的性能。 (2) 对比学习比标准 MLE 训练更有效因为用对比学习训练的模型 (BRIO.ChatGPT) 可以优于其对应模型 (BART.ChatGPT)。 3在ChatGPT本身的评估下BRIO.ChatGPT在与基线模型ChatGPT的比较中赢得了一半以上这表明对比学习可以针对特定的评估指标即GPTRank有效地优化摘要模型。 除了使用ChatGPT作为参考LLM之外我们还使用GPT4作为GPTRank的骨干模型进行实验。我们在选项卡中报告结果。 3并注意以下几点 1使用不同的LLM时GPTRank的评估结果不同。例如虽然 BRIO.ChatGPT 在 Tab 中的 ChatGPT 评估下优于 ChatGPT。 2、GPTRank与GPT4仍然更喜欢ChatGPT。 2使用对比学习和GPT4作为参考LLM训练的模型检查点BRIO.GPT4在GPT4的评估下能够优于ChatGPT这也表明BRIO.GPT4可以优于BRIO.ChatGPT。它显示了选择用于对比训练的适当评估方法的重要性。 (3) BRIO.ChatGPT 的性能优于 BART.GPT4尽管 BRIO.ChatGPT 是使用据称较弱的参考 LLM 进行训练的这表明了对比学习的优势以及使用更好的训练方法的重要性。
4.5.3 比较研究
我们研究了我们的训练方法在主干模型和数据格式的选择方面的泛化能力。 FLAN-T5 实验 我们重复第 3.3 节中的实验但使用 30 亿个 FLANT5Chung 等人2022模型11 作为骨干模型。
结果在选项卡中。 图 4 表明对于模型性能而言训练算法可能比模型大小更重要因为 BRIO.GPT4 的性能优于 T5.GPT4。 通过对比学习训练的 FLAN-T5 检查点 T5BRIO.GPT4 取得了很强的性能。然而我们注意到它的摘要比其他系统的摘要要长得多这使得结果更难以解释因为最近的工作发现人类和基于法学硕士的摘要评估中的摘要评级和长度之间存在很强的相关性。Liu 等人2023b Rajani 等人2023。进一步的讨论在附录 A.4 中。
XSum 实验我们现在在另一个常用数据集 XSumNarayan et al., 2018上进行实验。我们遵循原始的 XSum 数据格式让模型生成一句话摘要。实验设置与§3.1 和§3.3 中的类似更多细节参见附录A.5。结果如表所示。 图 5 显示了类似的趋势即使用更好的参考进行训练有助于提高模型性能。 我们注意到对比学习的增益在 XSum 上是微不足道的BART.GPT4 与 BRIO.GPT4这可能是因为与 CNNDM 相比BART.GPT4 和 ChatGPT 之间的性能差距较小这限制了改进空间。
4.5.4 人类评估和荟萃分析
在第 3 节中我们已经证明在基于 LLM 的评估下通过对比学习训练的较小摘要模型可以实现与 LLM 相当甚至更好的性能。然而法学硕士和人工评估之间的一致性仍然需要检查。因此我们首先对第 3 节中的模型性能进行人类评估然后对 LLM 与人类的一致性进行荟萃分析。
4.5.4.1 人类评估集合
评估设计为了实现更直接、更稳健的比较并降低任务难度我们将人类评估制定为两个不同系统之间的成对比较任务。 摘要对在三个方面进行比较1显着性2连贯性以及3总体偏好/质量其中注释者需要选择哪个摘要更好允许并列。详细的方面定义见附录 B.1。人群注释集合 我们使用 Amazon Mechanical Turk12 (MTurk) 进行人群注释集合。每个数据示例都由三名注释者进行注释他们为一项任务提供两分钟的时间并获得相应的补偿。参与的众批标注者需要通过相关资质测试并具有评估摘要质量的经验。我们为 100 个测试示例的集合选择了三个系统对其中 ChatGPT 是基线 LLM并将第 3.3 节中的三个 BART 检查点与 ChatGPT 进行比较BART、BART.GPT4 和 BRIO.GPT4。为了检查注释者间的一致性我们按照 Goyal 等人的方法计算了 Krippendorff 的 alpha (Krippendorff, 2011) 和 MASI 距离 (Passonneau, 2006)。 2022。我们发现平均一致性为 0.064接近 Goyal 等人报告的一致性 (0.05)。 2022类似的评估设置。 专家评 审众批注释的低一致性引起了人们对注释质量的担忧性。相关工作Goyal et al., 2022Zhang et al., 2023也观察到了类似的现象并认为一致性低可能是由于人类评估固有的主观性和不同系统的性能差距较小造成的。然而较低的一致性使得验证注释质量变得非常困难。13因此三位共同作者14进行了仔细的专家评估以更好地理解这一现象并提供更可信的评估结果。 我们选择了 50 个测试示例对三个人群评估的系统组以及 BART.GPT4 和 BRIO.GPT4 之间的附加组进行配对比较。经过仔细注释后我们发现专家注释者的平均一致性为0.044这再次证实了相关工作中关于摘要评估固有主观性的假设Goyal et al., 2022Zhang et al., 2023 。此外专家们在 58% 的情况下达成一致与最近工作中的一致水平 (65%) 类似 (Rafailov et al., 2023)。我们在附录 B.2 中提供了进一步的分析其中显示了两种主要情况1注释者一致赞成 LLM 摘要的情况 (2) LLM 和较小的 LM 都具有良好性能的情况导致注释者偏好不同。虽然通过更受限制的评估协议可能会取得更高的一致性但我们认为这种更高的一致性可能是“人为的”并且无法反映人类偏好的多样化分布。
4.5.4.2 结果分析
人群注释和专家评估结果见表 1。 6 和选项卡。分别为 7 个。 我们注意到 1以LLM为参考训练的模型BART.GPT4和BRIO.GPT4可以大幅优于在原始CNNDM数据集上训练的BART检查点显示了以更好的参考进行训练的重要性。 2在专家评估的直接比较中BRIO.GPT4在三个方面都优于BART.GPT4这证明了LLM反馈的对比学习的有效性。 (3) 尽管 BART.GPT4 和 BRIO.GPT4 受到基于 ChatGPT表 2或 GPT4 的评估方法的青睐但在人类评估下它们都无法超越 ChatGPT 表 3。这一结果凸显了人类评估与基于法学硕士的评估之间的差异我们将在下一节中进一步研究这一差异。
4.5.4.3 基于法学硕士的评估的荟萃分析
我们使用专家评估结果来评估基于LLM的评估以及人群注释的性能通过计算它们与专家评估的多数票的一致性。除了 GPTScore 和 GPTRank 之外我们还比较了 G-Eval 的性能Liu et al., 2023a。用于 GPTRank 和 G-Eval 的提示是特定于方面的。更多详细信息参见附录 B.3。这些协议在表中报告。如图8所示呈现出以下趋势 1基于LLM的评估方法性能各异GPT4优于ChatGPT。 2GPT4Rank已经可以超越个体众包工作者的表现而众包工作者的多数投票仍然达到最高的一致性。 五 总结
在这项工作中我们研究了一种新的文本摘要模型学习设置其中法学硕士被设置为参考。在这种情况下我们利用基于LLM的评估方法通过对比学习来指导模型训练并凭经验证明我们方法的效率和有效性。此外我们对基于法学硕士的评估的可靠性进行了人类评估和荟萃分析揭示了其作为更好的培训参考的好处以及在与人类评估保持一致方面的局限性。我们相信我们的研究结果揭示了将法学硕士可靠地应用于较小的、特定于任务的 NLP 模型的整个开发循环即训练-验证-评估的方向。
局限
我们报告的基于 LLM 的评估结果来自 OpenAI 的 API可能会发生变化。因此我们的实验的可重复性是有限的。 为了缓解这个问题我们将发布训练数据、模型输出以及法学硕士和人工评估结果以方便未来的工作。 我们进行的基于法学硕士的评估和人工评估都可能是资源密集型的需要大量的时间和预算。 因此我们在选择评估样本量时力求在评估结果的可靠性与时间和预算的约束之间找到平衡。更大规模的评估可能会产生更可靠的结果我们将其留给未来在这个方向上更专注的工作。 我们选择不将汇总事实一致性作为人类评估和基于法学硕士评估的荟萃分析中的个人质量方面。 相关工作Tang et al., 2022Zhang et al., 2023发现CNNDM数据集上的事实错误率较低尤其是LLM摘要。在我们的专家评估过程中作者也没有发现事实一致性方面存在重大缺陷。因此需要更大的样本量来评估事实一致性以了解错误模式这超出了本工作的范围。然而我们认为这样的评估对于更好地理解法学硕士和法学硕士指导模型的总结质量非常重要我们希望这项工作的成果例如系统输出可以成为未来这方面工作的有用资源。话题。