当前位置：首页 > news >正文

淘宝网站可以做百度快照吗河南建设人才教育信息网

news 2026/1/21 22:44:19

淘宝网站可以做百度快照吗,河南建设人才教育信息网,网站前台空白,百度搜索关键词设置概述 RAG#xff0c;Retrieval-Augmented Generation#xff0c;检索增强生成。RAG诞生自2020年Patrick Lewis等人的论文。通用的基础大模型基本无法满足实际业务需求#xff0c;主要有以下几方面原因#xff1a; 知识局限#xff1a;模型自身的知识完全源于它的训练数…概述 RAGRetrieval-Augmented Generation检索增强生成。RAG诞生自2020年Patrick Lewis等人的论文。通用的基础大模型基本无法满足实际业务需求主要有以下几方面原因知识局限模型自身的知识完全源于它的训练数据而现有主流大模型的训练集基本都是构建于网络公开的数据对于一些实时性的、非公开的或离线的数据是无法获取到的这部分知识也就无从具备幻觉问题所有的AI模型的底层原理都是基于数学概率其模型输出实质上是一系列数值运算大模型也不例外所以它有时候会一本正经地胡说八道尤其是在大模型自身不具备某一方面的知识或不擅长的场景。而这种幻觉问题的区分是比较困难的因为它要求使用者自身具备相应领域的知识数据安全对于企业来说数据安全至关重要没有企业愿意承担数据泄露的风险将自身的私域数据上传第三方平台进行训练。这也导致完全依赖通用大模型自身能力的应用方案不得不在数据安全和效果方面进行取舍。 RAG的核心思想将传统的信息检索IRInformation Retrieval技术与现代的生成式大模型结合起来。 RAG模型在生成答案之前会首先从一个大型的文档库或知识库中检索到若干条相关的文档片段。再将这些检索到的片段作为额外的上下文信息输入到生成模型中从而生成更为准确和信息丰富的文本。 RAG工作步骤接收请求首先系统接收到用户的请求信息检索®系统从一个大型文档库中检索出与查询最相关的文档片段。这一步的目标是找到那些可能包含答案或相关信息的文档生成增强(A)将检索到的文档片段与原始查询一起输入到大模型中注意使用合适的提示词比如原始的问题是XXX检索到的信息是YYY给大模型的输入应类似于请基于YYY回答XXX输出生成(G)大模型基于输入的查询和检索到的文档片段生成最终的文本答案并返回给用户。 RAG应用流程主要包含两个阶段准备数据阶段数据提取—文本分割—向量化embedding—数据入库投入应用阶段用户提问—数据检索召回—注入Prompt—LLM生成答案。 RAG系统核心组件嵌入模型将文本转换为向量表示生成模型负责最终的内容生成重排序模型优化检索结果的相关性向量数据库存储和检索向量化的内容提示模板规范化的查询处理模板AI Agent智能决策和任务协调应用场景包括但不限于问答系统文章摘要翻译聊天机器人电商推荐未来发展方向更高级的检索技术通过引入Transformer等最新技术RAG可以更高效地检索到相关性更高的信息让生成的内容更精准多模态RAG的崛起未来RAG可能会整合图像、音频、视频等多种数据类型生成更丰富、更具表现力的内容个性化定制根据用户的偏好和情境提供更个性化的信息提升用户体验让AI更懂你自我提问型RAG系统可以自动分解复杂问题实现更深层次的学习和理解让AI变得更聪明自适应检索根据查询类型的不同调整检索策略。比如事实类问题和创造性任务可以采用不同的检索方式混合检索结合关键词匹配和语义搜索等多种检索方法避免单一检索方式可能遗漏的相关信息。文本分块也叫文本分割chunkchunking其目的是提高效率、相关性和上下文保持。分块能减少计算开销增加检索相关信息的可能性同时保持信息完整性。但也存在风险如上下文丢失、冗余和不一致性。选择策略需考虑文档类型结构化和非结构化、查询复杂性、资源可用性和期望结果速度、准确性、上下文。主要考虑两个因素 embedding模型的Tokens限制情况语义完整性对整体的检索效果的影响。常见的文本分块方式句分割以句子的粒度进行切分保留一个句子的完整语义。常见切分符包括句号、感叹号、问号、换行符等固定长度分割根据embedding模型的token长度限制将文本分割为固定长度字符数、单词数或Token数会损失很多语义信息一般通过在头尾增加一定冗余量重叠比来缓解语义分块根据有意义的单元对文档进行分段持续将单元添加到现有块中直到余弦相似度显著下降一旦下降明显就开始新的分块。与固定大小分块不同能够保持语言的自然流畅性。递归分块基于内在分隔符如段落或章节进行分块如果某个块的大小超过限制则将其进一步分割为更小的块。 13种分块策略的对比仅供参考策略名称描述优点缺点实施建议固定长度分块将文本按预定义长度(如基于令牌或字符)分割适合简单文档或快速处理简单性、统一性、效率上下文丢失、相关性问题、潜在信息丢失选择合适大小考虑使用重叠窗口以保持上下文基于句子的分块按句子边界分割确保每个块是完整的思想适合短响应如客户查询保持上下文、易于实现、更好的可读性块大小不一致、不适合长句、控制力弱使用NLP库检测句子必要时合并短司段落分块将文档按段落分割每个段落通常包含完整想法或主题适合结构化文档更丰富的上下文、逻辑分割大小不一致、可能超出令牌限制监控块大小必要时分割大段落以保持上下文文档分块将整个文档视为一个块或最小分割保持完整结构和上下文适合法律或医学文档保持完整上下文、还合结构化文本、简单可扩展性问题、效率低、缺乏细节提取适用于不希望分割影响流程的场景滑动窗口分块通过滑动窗口创建重叠块确保相邻块共享内容适合需保持跨部分上下文的文档上下文连续性、提高检索效果冗余、计算成本高优化窗口大小和重叠使用去重技术处理冗余语义分块使用嵌入或机器学习模型按语义意义分割确保每个块主题连贯上下文相关性、灵活性、提高检索准确性复杂性、处理时间长、计算成本高、值调整利用预训练模型平衡成本和粒度递归分块使用层次分隔符或多个分隔符逐步分割为小块适合大型结构化文档层次上下文、可扩展性、意义块、细粒度控制实现复杂、可能丢失上下文、复杂性高、计算开销大使用文档结构标识层次存储块位置元数据上下文增强分块为每个块添加周国块的摘要或元数据保持序列间的上下文适合长文档增强上下文、提高连贯性复杂性、存储开销大生成简洁摘要考虑用关键术语或概念作为元数据模式特定分块按内容类型(如文本、表格、图像)分别处理每个类型按其性质分块定制方法、提高准确性实现复杂、集成困难使用OCR处理图像将表格转为结构化数据保持索引一致代理分块使用AI(如大型语言模型)按内容结构和语义建议块边界或按代理角色任务组织任务导向效率、聚焦相关数据、灵活性、智能分割复杂设置、计算密集、成本高、可能过分专业化、丢失全局上下文选择性使用优化LLM提示明确代理角色和任务规则子文档分块总结整个文档或大节并将摘要作为元数据附加到单个块适合大型文档集层次检索、上下文深度额外处理、元数据管理复杂自动化摘要生成高效存储摘要混合分块结合多种分块策略动态适应不同查询类型或文档结构适合多用途系统灵活性、优化性能逻辑复杂、维护难度大制定选择策略的标准广泛测试以确保可靠性基于令牌的分块按预定义令牌数(如单词或子词)分割确保块在模型令牌限制内优化语言模型、精确控制块大小、一致性上下文碎片化忽略语义结构灵活性有限确保块在模型令牌限制内选择策略时需考虑以下因素文档类型结构化如报告适合段落分块非结构化如聊天记录适合语义分块查询复杂性复杂查询需语义或代理分块简单查询可用固定长度分块资源可用性计算资源有限时优先固定长度或基于句子的分块期望结果速度优先选固定长度准确性优先选语义分块上下文优先选滑动窗口。数据检索常见的数据检索方法包括相似检索、全文检索等根据检索效果一般可以选择多种检索方式融合提升召回率。相似检索即计算查询向量与所有存储向量的相似性得分返回得分高的记录。包括余弦相似性、欧氏距离、曼哈顿距离等全文检索在数据存入时通过关键词构建倒排索引在检索时通过关键词进行全文检索找到对应记录。技术 BM25ES使用的传统检索方法基于TF-IDF原理对文档进行排序。在关键词匹配方面表现优异但在语义理解上存在局限DPR采用双编码器架构将查询和文档映射至高维向量空间通过语义相似度进行匹配在开放域问答中展现出优异性能REALM创新地将检索过程融入语言模型训练实现检索器与生成器的协同优化。通过同步更新机制该方法在知识密集型任务中展现出优势。多模态体现文本最为成熟以BERT和T5为代表的Transformer架构为核心通过注意力机制增强文本理解能力推动多种实际应用的发展音频借助Wav2Vec 2.0等预训练模型进行特征表示为语音识别等应用提供支持视频通过I3D TimeSformer等技术捕捉时空特征实现视觉与文本信息的融合提升视频理解和字幕生成等任务的效果跨模态整合多种数据形式如Flamingo模型实现文本、图像和视频的统一处理。检索即生成方法通过利用大规模配对数据集实现高效的跨模态信息检索与生成。应用与分类图片来源。评估 RAG系统的产出成果主要涉及以下几点检索器组件检索的相关文档context生成器组件产出的最终答案answer最初的用户问题question。因此RAG评估应将question、context、answer三者一起评估这三者也叫RAG三元组。通过检测三元组之间两两元素的相关度来评估RAG效果 Context Relevance衡量召回的Context能够支持Query的程度即相关性Groundedness衡量LLM的Response遵从召回的Context的程度。得分低幻觉大Answer Relevance衡量最终的Response回答对Query提问的相关度。 RagAs RAGAs(RAG Assessment)用于评估RAG的开源框架可通过pip安装pip install ragas 官网https://www.ragas.io/ Ragas需要以下信息 question用户问题answerRAG生成的答案(由LLM给出)contexts根据用户的问题从外部知识源检索的上下文即与问题相关的文档ground_truths人类提供的基于问题的真实(正确)答案。唯一需要人类提供的信息。 Ragas提供五种评估指标包括 faithfulness忠实度衡量答案与给定上下文的事实一致性。根据answer和检索到的context计算得出并将计算结果缩放到(0,1)范围且越高越好。如果答案中提出的所有基本事实(claims)都可以从给定的上下文中推断出来则生成的答案被认为是忠实的。计算过程首先从生成的答案中识别一组claims。然后将这些claims中的每一项与给定的context进行交叉检查以确定是否可以从给定的context中推断出它。公式 Answer relevancy答案相关性评估答案与问题之间相关程度。不完整或包含冗余信息的答案将获得较低分数。通过计算question和answer获得的取值在0到1之间分数越高相关性越好。对答案相关性的评估不考虑真实情况而是对答案缺乏完整性或包含冗余细节的情况进行惩罚。LLM会被提示多次为生成的答案生成适当的问题并测量这些生成的问题与原始问题之间的平均余弦相似度。基本思想如果生成的答案准确地解决最初的问题LLM应该能够从答案中生成与原始问题相符的问题。Context Precision上下文精度评估所有在上下文(contexts)中呈现的与基本事实(ground-truth)相关的条目是否排名较高。理想情况下所有相关文档块(chunks)必须出现在顶层。该指标使用question和计算contexts值范围在0到1之间其中分数越高表示精度越高。 Context Recall上下文召回率衡量上下文与人类提供的真实答案(ground truth)的一致程度。根据ground truth和检索到的Context计算出来的取值在0到1之间值越高表示性能越好。为了根据真实答案(ground truth)估算上下文召回率(Context recall)分析真实答案中的每个句子以确定它是否可以归因于检索到的Context。在理想情况下真实答案中的所有句子都应归因于检索到的Context。 Context Relevancy上下文相关性根据用户问题和上下文计算得到并且取值范围在(0,1)之间值越高表示相关性越好。理想情况下检索到的Context应只包含解答question的信息。首先通过识别检索到的Context中与回答question相关的句子数量来估计|S|的值。公式入门案例 from datasets import Dataset from ragas import evaluate from ragas.metrics import (faithfulness,answer_relevancy,context_recall,context_precision, )questions [问题1,问题2 ]ground_truths [事实1,事实2 ]answers [] contexts []# Inference for query in questions:answers.append(chain.invoke({question: query}))contexts.append([docs.page_content for docs in retriever.get_relevant_documents(query)])# To dict data {user_input: questions,response: answers,retrieved_contexts: contexts,reference: ground_truths }# Convert dict to dataset dataset Dataset.from_dict(data) result evaluate(dataset dataset, metrics[context_precision,context_recall,faithfulness,answer_relevancy,],embeddingsembeddings ) df result.to_pandas()开发框架如LangChain、LlamaIndex。 LangChain核心功能模块化设计支持将模型、提示模板、索引、工具等组件链式组合构建复杂工作流如多步骤对话代理或自动化任务广泛集成可连接数据库、API、文件系统等数据源并集成多种LLM适合需要动态交互的应用场景记忆管理支持记录对话历史实现上下文感知的交互例如聊天机器人能根据前文回答后续问题。适用场景需结合外部工具的多模态应用如实时数据查询生成报告复杂对话系统如客服中台、自动化任务链。 LlamaIndex核心功能高效索引与检索提供向量索引、树状索引、关键词表索引等多种数据结构优化大规模数据的快速查询尤其擅长语义相似性搜索简化RAG流程从数据加载、分块到索引生成一体化开发者仅需几行代码即可搭建基于私有数据的问答系统可扩展性支持分布式索引轻松应对TB级数据适合企业级知识库或实时分析场景。适用场景文档问答、知识库搜索如内部Wiki查询需快速响应的实时系统如金融数据分析。维度LangChainLlamaIndex核心定位通用型框架支持复杂工作流专注于数据索引与检索灵活性高可自定义链、代理中优化检索性能功能更垂直学习曲线较陡峭需掌握组件交互较平缓开箱即用数据处理支持多源异构数据但检索效率一般专精高效检索尤其适合大规模数据典型用例聊天机器人、任务自动化文档搜索引擎、实时推荐系统总结 LangChain需手动组合数据加载、分割、索引和生成模块适合需要定制化流程的项目LlamaIndex提供一站式索引构建如VectorStoreIndex.from_documents()即可完成核心步骤。如何选择选LangChain若项目需整合多种工具如数据库API、构建多步骤逻辑如先检索再生成报表或需要长期维护复杂对话状态。选LlamaIndex若核心需求是快速搭建基于私有数据的问答系统或处理海量数据的高效检索如企业知识库。混合使用建议用LlamaIndex快速实现RAG原型后期引入LangChain扩展为支持多工具的智能代理。问题与挑战 RAG存在多个待解决的关键问题系统性能面对海量数据时的扩展性受限实时处理和资源受限环境下的部署困难检索效率与计算资源消耗的平衡问题质量控制检索内容的相关性和时效性难以保证长文本生成时的检索精确度有待提升检索知识与生成内容的连贯性存在缺陷社会影响数据集固有偏见可能被系统放大模型决策过程缺乏透明度和可解释性系统公平性与伦理问题需要关注从RAG组件角度其挑战是检索、生成和整个RAG系统。检索动态和广泛的知识库潜在知识库的动态性和广泛性这要求评估指标能够有效地衡量检索文档的精确度、召回率和相关性时间敏感性信息的相关性和准确性会随时间变化增加评估过程的复杂性信息源的多样性需要考虑信息源的多样性和检索到误导性或低质量信息的可能性。生成忠实度和准确性生成组件的评估重点在于生成内容对输入数据的忠实度和准确性这不仅涉及事实正确性还包括对原始查询的相关性和生成文本的连贯性。主观性某些任务如创意内容生成或开放式问题回答的主观性增加评估的复杂性因为它们引入关于“正确”或“高质量”响应的变异性。 RAG系统检索与生成的相互作用整个RAG系统的评估引入额外的复杂性因为检索和生成组件之间的相互作用意味着不能仅通过独立评估每个组件来完全理解整个系统的性能。实际考虑评估系统的整体有效性和可用性时还需要考虑响应延迟、对错误信息的鲁棒性以及处理模糊或复杂查询的能力。进阶向量数据库缓存缓存能显著降低延迟和模型调用成本RAG中最常见的缓存技术提示缓存Prompt Cache)、精确缓存Exact Cache、语义缓存Semantic Cache。 Prompt Cache 对系统提示的缓存最常见的是System Prompt。若没有提示缓存模型需要在每次查询时都处理系统提示而设置提示缓存则只需要在第一次查询时处理一次系统提示。在提示缓存中系统提示部分的缓存内容实际上是经过Decoder处理后的隐藏状态hidden states类似于KV Cache原理。提示缓存对涉及长文档的查询也很有用。比如你应用程序的很多用户查询都与同一个长文档如一本小说和一个代码库相关这个长文档可以被缓存以供多个查询重用。但与系统提示的缓存不同对长文档的缓存缓存的是文档内容本身上下文而不是向量化后的结果。 Exact Cache 相比于Prompt Cache精确缓存则更加通用和直接。系统会存储已处理的内容以便在请求相同内容时重复使用精确缓存使用基于规则的标准化匹配。精确缓存也用于基于嵌入的检索以避免重复的向量搜索。如果传入的查询已经在向量搜索缓存中就获取缓存的搜索结果如果不在就执行该查询的向量搜索并缓存结果。对于需要多个步骤例如思维链和/或耗时操作例如检索、SQL 执行或网络搜索的查询来说缓存特别有用。精确缓存可使用内存来实现以实现快速检索。但内存有限缓存也可使用Redis或分层存储等数据库来实现以平衡速度和容量。使用分类器预测是否缓存输入特征可能包括查询的通用性程度历史查询频率数据更新频率用户相关性时效性要求输出是否应该缓存该查询。 Semantic Cache 与精确缓存不同语义缓存不要求传入的查询与任何已缓存的查询完全相同。语义缓存允许重用相似的查询是基于向量相似度的模糊搜索。语义缓存只有在已有可靠方法能确定两个查询在语义上是否相似时才能工作。一种常见的方法是基于嵌入的相似度对每个查询使用Embedding模型生成嵌入向量使用向量搜索找到与当前查询嵌入最接近的缓存嵌入假设这个相似度分数是X若X超过已设置的相似度阈值则认为缓存的查询与当前查询相同返回缓存的结果。若没有则处理当前查询并将其与其嵌入和结果一起缓存。此方法需要一个向量数据库来存储缓存查询的嵌入。潜在问题语义缓存的成功依赖高质量的嵌入、向量搜索的有效性和可靠性以及可信的相似度度量设置合理的相似度阈值比较难依赖大量的试错。如果系统错误地将传入查询判断为与另一个查询相似从缓存中获取的响应将是不正确的此外由于涉及向量搜索语义缓存耗时且计算密集。这种向量搜索的速度与成本取决于缓存嵌入数据库的大小。如果缓存命中率很高即大部分查询都能通过利用缓存结果有效回答可以考虑使用语义缓存。但一定要注意在引入语义缓存前评估与之相关的效率、成本与性能风险。拓展 RAG发展迅速各种新方法不断被提出算法特点优点缺点Simple RAG基于用户查询检索相关文档并使用LLM生成响应的基本方法- 适用于广泛的任务和数据- 计算成本低处理速度快- 所需数据量少- 实现相对容易不适用于复杂查询或高级推理Active RAG根据用户反馈迭代改进查询以提高相关性的方法通过用户反馈提高输出的质量、准确性和可靠性- 需要收集和处理用户反馈- 计算成本高于Simple RAGCorrective RAG对生成的输出进行修正或交叉检查以确保事实准确性的方法- 保证事实的准确性- 获得可靠的输出- 计算成本高于Simple RAG- 修正处理的实现复杂Self RAG通过自我反省或自我批评来提高RAG结果质量的方法。LLM会对每个回答进行批评判断其是否与查询相关。如果无关则使用外部资源如果相关则检查幻觉和准确性- 通过自我反思提高输出质量- 抑制幻觉的产生- 计算成本高于Simple RAG和Corrective RAG- 实现复杂Speculative RAG针对特定查询生成多个响应并利用检索模型提供相关信息的方法。这些响应通过评分系统进行评估选择最准确且上下文合适的响应能够处理模糊查询或具有多种解释的查询- 计算成本高于Self RAG- 实现复杂Multimodal RAG结合文本、图像、视频等多种数据类型生成更丰富响应的方法结合多种数据类型生成基于更全面理解的输出- 需要处理多种数据类型的前处理- 计算成本高Advanced RAG使用高密度检索或Transformer等先进检索技术实现高性能检索的方法通过高级搜索技术提高输出质量- 计算成本高- 高级搜索技术的实现复杂Knowledge-intensive RAG专注于专业或领域特定信息的方法提高特定领域输出的质量和准确性- 需要构建专业知识库- 适用范围有限Memory RAG通过记忆过去的交互提高未来响应的质量、连续性和个性化的方法记忆过去的交互生成个性化的输出- 需要内存管理机制- 需要考虑隐私问题Meta-learning RAG通过少样本学习或零样本学习功能快速适应新任务的方法快速适应新任务和数据- 学习数据的选择至关重要- 计算成本高HtmlRAG直接使用HTML保留标题、表格等有价值的信息结构而不是使用纯文本。通过清理和修剪技术处理HTML中的额外噪音和大小保留标题和表格等信息结构需要处理HTML中的噪声FastRAG使用模式和脚本学习高效处理数据不完全依赖AI模型的方法。结合文本检索和知识图谱查询提高精度减少90%的处理时间和85%的成本大幅减少处理时间和成本模式和脚本学习的适用范围有限Auto-RAG使用LLM细化查询通过多轮对话规划检索直到收集到足够信息的自主方法。该系统会根据问题难度自适应调整并用自然语言解释其过程对问题难度的适应性高- 需要多轮对话处理- 实现复杂CORAG考虑块间相关性使用蒙特卡洛树搜索(MCTS)框架处理添加块的单调效用问题。还使用设置代理适应各种查询类型考虑块之间的相关性蒙特卡洛树搜索的实现复杂MemoRAG采用具有长期记忆的双系统方法。轻量级LLM创建数据库的全局记忆并生成回答草稿以指导检索工具而更强大的LLM使用检索到的数据生成最终回答通过轻量级强大LLM的组合实现高效处理需要构建双系统RAG-Thief旨在揭示RAG系统中私有知识库与LLM集成的隐私风险。通过从对抗性查询开始从响应中学习并生成更有效的查询自动提取私有数据成功率超过70%有效分析隐私风险实现需要专业知识AssistRAG在LLM中嵌入智能助手以管理工具、记忆和计划的方法。通过两阶段训练过程课程助手学习和增强偏好优化增强信息检索和决策能力能够管理工具、内存和计划实现复杂LaB-RAG结合图像标签、RAG和LLM生成图像描述的方法。使用简单分类器将X射线图像转换为文本标签这些标签帮助预训练LLM生成详细的放射报告而无需直接使用图像数据- 专注于图像字幕生成- 轻量且具有高性价比依赖于图像分类器的精度Video-RAG无需大量微调即可增强模型对长视频的理解是一种轻量且经济高效的解决方案。采用即插即用方式使用开源工具从视频中提取对齐信息并将此数据作为辅助文本与LVLM集成- 深入理解长视频内容- 轻量且具有高性价比需要视频数据的前处理Retrieval-Augmented Forecasting (RAF)增强Chronos等时间序列基础模型(TSFM)通过动态检索相关时间序列示例来改进预测的方法。应对时间序列数据的事件驱动和进化特性提高时间序列数据的预测精度专注于时间序列数据RuAG使用LLM的常识定义谓词并通过蒙特卡洛树搜索高效探索数据将大规模数据集转换为可解释的逻辑规则。这些逻辑规则随后转换为自然语言并集成到LLM提示中增强推理能力将数据转换为可解释的逻辑规则蒙特卡洛树搜索的实现复杂MMed-RAG旨在提高医疗视觉语言模型在诊断和报告生成等任务中的事实准确性。通过自适应上下文选择和偏好微调解决幻觉和错位等问题专注于医疗领域的图像和语言处理专注于医疗数据Path-RAG通过改进PathVQA-Open任务中的病理图像分析增强癌症诊断的框架。使用HistoCartography从图像中提取知识选择关键补丁以整合专家见解将准确率从38%提高到47%并改善长文本问答专注于癌症诊断等病理图像分析专注于病理图像分析长上下文随着Gemini-1.5和GPT-4等支持长上下文的模型出现RAG也相应演进 Self-Route实现RAG与长上下文处理的动态调度SFR-RAG提供轻量高效的外部信息整合方案LA-RAG专注于提升语音识别能力HyPA-RAG通过参数自适应优化法律文本处理MemoRAG创新地采用双系统架构处理非结构化知识NLLB-E5突破多语言检索的限制其他 Graph RAG利用图数据库增强知识连接可更好地理解文档间的关系Hybrid RAG结合多种技术优势包含图结构和传统检索方法Agentic RAG Router使用AI Agent来路由和处理查询可选择最适合的处理路径Agentic RAG Multi-Agent使用多个专门AI Agent协同工作可调用不同工具如向量搜索、网页搜索、Slack、Gmail等数据集基准测试benchmark包括数据集和工具。数据集 NQNatural Questions从Wikipedia里挑选既有长篇大论也有简短精悍。主要考验模型在问答任务中的表现尤其是它能不能从一堆文档中找到相关信息然后生成准确、靠谱的答案。MS MARCOMicrosoft Machine Reading ComprehensionBing搜索引擎的真实记录里面包含真实的搜索查询和对应的文档、答案。主要用来测试RAG在文档检索和段落排序上的能力看看它能不能找到最相关的信息并生成高质量、连贯的回答。简单来说就是看模型能不能像搜索引擎一样聪明。TriviaQA包含各种问题和对应的正确答案。主要用来测试RAG在获取事实信息方面的能力能不能从海量文档中找到相关的知识点并生成准确的回答。尤其是那些冷知识或常识性问题特别适合用来考验模型。FEVERFact Extraction and Verification提供一些主张要求模型去找到相关的证据来验证这些主张的真实性。它主要用来测试RAG在事实检索和验证方面的能力看看它能不能找到靠谱的证据并生成有根有据的回答。工作类型四类 Query-based RAG基于查询的RAG也称为提示增强。它将用户的查询与从文件中检索到的信息直接整合到语言模型输入的初始阶段。这种模式是RAG应用中广泛采用的方法。一旦检索到文档它们的内容就会与用户的原始查询合并创建一个组合输入序列。这个增强序列随后被输入到预先训练好的语言模型中以生成回复。Latent Representation-based RAG在基于隐式表示的RAG框架中检索到的对象作为隐式表示融入生成模型从而提高模型的理解能力和生成内容的质量。生成模型与检索对象的潜在表征相互作用提高生成内容的准确性。这种方法在处理代码、结构化知识和多模态数据方面显示出巨大的潜力和适应性。特别是在代码相关的领域如EDITSUM、BASHEXPLAINER和RetrieveNEdit等技术采用FiD方法通过编码器处理的融合来促进整合。Re2Com和RACE等方法也采用为不同类型输入设计多个编码器的设计。Logit-based RAG在基于对数似然的RAG中生成模型在解码过程中通过对数融合检索信息。通常对数通过模型求和或组合以产生逐步生成的概率。在代码到文本转换任务中Rencos并行生成检索代码的多个摘要候选然后使用编辑距离进行规范化计算最终概率以选择最匹配原始代码的摘要输出。在代码摘要任务中EDITSUM通过在概率级别整合原型摘要来提高摘要生成质量。对于文本到代码任务kNN-TRANX模型结合信心网络和元知识来合并检索到的代码片段。它利用seq2tree结构生成与输入查询紧密匹配的目标代码提高代码生成的准确性和相关性。这种方法特别适合序列生成任务。侧重于生成器训练并且可以设计出新颖的方法有效地利用获取的概率分布以适应后续任务。Speculative RAG推测式RAG旨在通过利用检索而非纯生成来节省资源并加快响应速度。REST技术通过用检索替代推测解码中的小型模型实现草稿生成。GPTCache通过构建语义缓存来存储LLM的响应解决使用LLM API时的高延迟问题。推测式RAG目前主要适用于序列数据。它解耦生成器和检索器使得预训练模型可以直接作为组件使用。在这个范式下可探索更广泛的策略有效利用检索到的内容。优化方案参考 https://www.gptsecurity.info/2024/05/26/RAG/https://luxiangdong.com/2023/09/25/ragone/https://zhuanlan.zhihu.com/p/668082024企业级RAG组件缓存

查看全文

http://www.dnsts.com.cn/news/68080.html