律师事务所网站方案,八爪鱼采集新闻到wordpress,做网站需要域名,wordpress 汽车模板下载人工智能咨询培训老师叶梓 转载标明出处
检索增强生成技术尽管出现了各种开源方法和商业系统#xff0c;如Bing Chat#xff0c;但生成的长文本答案中缺乏事实性和清晰逻辑的问题仍未得到解决。为了解决这些问题#xff0c;来自蚂蚁集团和清华大学的研究者们提出了一种名为…人工智能咨询培训老师叶梓 转载标明出处
检索增强生成技术尽管出现了各种开源方法和商业系统如Bing Chat但生成的长文本答案中缺乏事实性和清晰逻辑的问题仍未得到解决。为了解决这些问题来自蚂蚁集团和清华大学的研究者们提出了一种名为FoRAGFactuality-optimized Retrieval Augmented Generation的新方法。
图1展示了在网络增强型长文本问答任务中大模型的输入处理过程。图中左上角描绘了任务的输入左下角展示了现有的生成器如何直接生成答案而中间部分则介绍了本文提出的大纲增强生成器。这种生成器在生成长篇答案前会先起草一个组织模式和大纲以增强答案的逻辑性。图的右侧展示了本文提出的双重细粒度的事实性优化方法该方法通过在事实性评估和奖励建模这两个核心步骤中融入细粒度设计来优化事实性并在每个步骤中提出了多种粒度级别的方法。
方法
FoRAG技术的核心在于两阶段生成过程。该方法包括两个阶段首先是生成答案的大纲然后是扩展大纲生成完整的回答。
大纲增强的RAG
大纲增强型生成器
在大多数现有的开源方法中回答是直接生成的即检索到的内容与原始查询直接连接并使用特定的提示模板输入到生成模型中。然而与闭源方法生成的回答相比这些回答通常较短且缺乏清晰的逻辑结构。为了提高性能一种可能的方法是使回答更加有组织。一些研究发现包含任务描述和一些示例的精心设计的提示将提高不同任务上生成回答的质量。例如“让我们一步一步思考”的技术通过鼓励链式推理能力显著提高了性能。
受上述工作的启发研究者们将大纲增强技术引入到回答生成中。他们提出的生成器包括大纲阶段和扩展阶段这与人类回答问题时通常先概述和组织答案然后再扩展每个点的直觉一致。具体来说为了生成具有清晰逻辑流程的高质量输出他们提示模型首先输出最终答案的大纲然后将草稿连接到提示中以生成完整回答。在表1中通过应用大纲增强生成技术生成的回答Ans. (OE)比原始回答Ans. (Ori)显著更长这表明了更强的逻辑结构。 大纲增强型长文本问答数据集
目前用于训练网络增强型RAG模型的开源网络增强型长文本问答数据集只有两个。英文数据集WebGLM-QA包含44k个样本而中文数据集WebCPM包含5,500个样本。两个数据集中的查询都从ELI5中采样WebGLM-QA从中采样问题WebCPM还使用人工注释者将问题翻译成中文。然后使用网络搜索引擎收集相关段落。
研究者们使用这两个数据集中的查询和相关段落构建了一个大纲增强型双语长文本问答数据集。他们应用大纲增强生成技术使用GPT4收集大纲增强型回答。他们设计了一个提示指导GPT4以逐步的方式执行大纲阶段和扩展阶段。表1中提供了现有数据集和他们的大纲增强型回答的详细统计数据。可以清楚地看到他们的示例回答比现有工作中的回答长得多这是由于更强的逻辑结构。从WebCPM和WebGLM派生的大纲增强型回答是公开可用的。
事实性优化的RAG
为了解决网络增强型长文本问答中的事实性问题研究者提出了一种新颖的事实性优化方法他们开发了一种新颖的双重细粒度RLHF框架该框架表征了自动化评估和奖励建模的不同粒度。
直接应用RLHF的困难
在大模型对齐中使用人类反馈的强化学习RLHF是一种广泛使用的技术用于减少不良生成例如聊天助手任务中的有害回答。将非事实性视为某种不良行为自然而然地促进网络增强型RAG中的事实性的一种方法是利用RLHF来防止生成器产生非事实性回答。通常RLHF是在手动注释的偏好数据上进行的。例如给定查询和检索到的上下文回答的事实性可以被注释为其中反映潜在的人类偏好。RLHF训练一个奖励模型来估计给定任何查询、参考和回答的事实性即学习人类偏好函数R。然后应用RL方法如PPO基于训练好的奖励模型来优化生成模型。
然而直接将传统的RLHF方法应用于网络增强型LFQA的事实性优化会遇到两个固有困难。首先手动注释的事实性标签通常很昂贵这涉及到比较长篇回答和其相应冗长参考之间的事实细节。其次标准RLHF使用整体奖励即只有在整个回答的最后一个token时才不为零。这种整体奖励只能为生成模型的训练提供稀疏的信号。在网络增强型LFQA中由于回答通常是长篇的因此由于使用整体奖励而导致的稀疏问题将更加夸张。
双重细粒度RLHF
鉴于传统RLHF在网络增强型RAG的事实性优化中的上述困难研究者们提出了一种双重细粒度RLHF框架以细粒度的方式进行事实性优化。与主要关注单一维度的先前工作不同他们的框架结合了两个核心步骤的细粒度设计事实性评估和奖励建模。
研究者首先介绍了必要的符号和定义这些符号和定义使得可以为答案表征多个奖励构成RL过程中的更密集的奖励信号。具体来说他们首先将输出分解为L个文本跨度每个跨度对应于评估粒度其中每个跨度在步骤结束。密集的奖励信号是一个L维向量其第l维代表给定查询和检索上下文的输入的每个跨度的奖励该奖励分配给最终token在。特别是当L1时他们的方法退化为具有整体奖励的标准RLHF。
细粒度评估
研究者考虑了答案分解和自动化片段评估的三个不同粒度级别
整体这是评估答案的标准粒度。每个生成的答案都与单一的事实性分数相关联。句子级别如先前研究建议的可以将答案分解为句子然后分别评估每个句子。在这种情况下评估结果被表示为其中i是句子的索引。子声明级别按照先前的工作他们可以通过大模型进一步将每个句子分解为多个子声明每个子声明包含单个事实信息。分解后他们分别评估每个子声明。由于使用大模型的分解打破了子声明与原始答案之间的关联因此他们将所有子声明的分数聚合成一个分数以评估句子的事实性。更具体地说假设句子i有j个子声明那么句子的评估分数由给出其中表示句子i的子声明j的事实性分数Agg是聚合函数以平均值、最小值或最大值的形式。
细粒度奖励建模
在两个可能的粒度级别上构建奖励模型
序列级别为每个序列学习一个单一的奖励其实际形式取决于评估的粒度。通过这种方式关联的奖励反映了相应序列的事实性然后被分配给每个序列的最后一个标记。标记级别为序列中的每个标记学习一个奖励。通过这种方式序列的奖励是通过聚合所有标记级别的奖励来计算的即。 在表2中展示了不同细粒度评估和细粒度奖励建模技术的组合在训练损失方面的对比。这种双重细粒度RLHF框架不仅解决了事实性问题还为网络增强型RAG提供了一种新的优化策略可以推广到其他RLHF任务中。通过这种方法研究者们能够更细致地评估和优化生成回答的事实性从而提高回答的质量和可信度。
实验
实验使用了两个常用的网络增强型长文本问答Web-enhanced Long-form QA数据集WebGPT数据集和WebCPM数据集。WebGPT数据集包含272个样本每个样本由ELI5数据集中的一个问题、几个Bing检索到的网页以及提取的参考资料组成。而WebCPM数据集则是一个中文数据集结构与WebGPT类似研究者们随机将其分为了训练集、验证集和测试集。 表3展示了FoRAG-L 7B和FoRAG-C 6B在这两个数据集上与其他现有方法的性能比较。结果显示FoRAG-C 6B在五个评估指标中超过了所有基线方法而FoRAG-L 7B在所有指标上表现最佳尤其是与参数数量为其24倍的WebGPT-175B相比FoRAG-L 7B在双语网络增强型问答任务中显示出了优越性。 为了进一步评估大纲增强型生成器的有效性研究者们训练了两个基线模型这些模型直接基于数据集生成答案而没有使用大纲阶段。表4中的结果显示使用大纲增强型技术可以显著提高模型在连贯性和有用性方面的性能尤其是在中文任务中。
研究者们还评估了事实性优化技术的有效性。表4表明添加事实性优化技术可以显著提高问答和句子层面的事实性一致性得分而不影响其他两个指标或生成长度。
研究者们比较了不同事实性优化粒度的FoRAG方法的性能并发现子声明级别的评估表现最佳。他们还发现与常规的段落级奖励建模相比标记级奖励建模的性能较差这可能是因为数据集的长度可能导致了标记级建模的过拟合。
最后研究者们评估了训练效率并发现大纲增强型生成步骤对训练时间的影响几乎可以忽略不计而双重细粒度RLHF步骤对推理时间没有影响。尽管双重细粒度RLHF框架的最佳执行版本比标准RLHF多花了大约67.7%的时间但通过使用多头奖励层和精心设计的关注掩码可以在一次前向传递中计算所有句子的奖励从而使得额外的计算成本变得微不足道。总的来说FoRAG在合理的额外计算成本下超越了基线方法。
论文链接https://arxiv.org/pdf/2406.13779