AB-RAG:自适应预算检索增强生成用于可靠问答
摘要
AB-RAG是一种无需训练、骨干无关的框架,通过估计答案置信度自适应地检索段落以进行问答,在多个骨干和数据集上提高了效率和准确性。
arXiv:2606.29090v1 Announce Type: new
摘要:检索增强生成(RAG)已成为将大型语言模型与外部知识结合的标准方式,但大多数系统无论问题难度如何,都为每个问题检索固定数量的段落。这导致简单问题上计算浪费,困难问题上信息不足,且无法提供生成答案何时可信的信号。随着基于商业语言模型API的问答系统比例日益增长,一种无需重新训练底层模型、能决定检索多少信息以及对其自身答案可信度的评估方法具有明确的实用价值。本文提出AB-RAG(自适应预算检索增强生成),一种无需训练且骨干无关的框架:生成答案,从三个信号组合中估计其置信度,然后决定是停止还是检索更多证据,同时受固定检索预算约束。估计器结合了模型自身确定性、答案与证据之间的一致性以及检索得分的方差。对于暴露令牌概率的模型,可直接读取确定性信号;对于封闭API,则通过自一致性进行近似,因此该方法无需访问模型内部即可工作。在三个骨干和两个数据集上,核心结果表明,置信度估计能在每个骨干上可靠地区分正确与错误答案,在一个事实型数据集上实现了高置信度答案与低置信度答案之间57.6%对0%的精确匹配完美分离。自适应策略提高了能力强骨干的准确性,并且研究诚实地报告了其负面和细微的发现,包括一个被证明不适用于简短答案的置信度信号,以及一个通过测量发现并纠正了符号的检索信号。整个研究仅在一台消费级笔记本电脑上完成,API花费仅几美元。
查看缓存全文
缓存时间: 2026/06/30 05:30
# 自适应预算检索增强生成:面向可靠问答的框架 来源:https://arxiv.org/html/2606.29090 ###### 摘要 检索增强生成(RAG)已成为将大语言模型锚定于外部知识的标准方法,然而多数系统对每个问题都检索固定数量的段落,而不考虑问题的难度。这不仅在简单问题上浪费计算资源,在困难问题上又因检索不足而影响答案质量,而且无法提供生成答案是否可信的信号。随着越来越多的问答系统构建于商业语言模型API之上,一种无需重新训练底层模型、即可决定检索量以及答案可信度的方法,具有明确的实用价值。本文提出AB-RAG(自适应预算检索增强生成),这是一个无需训练、与骨干模型无关的框架:先生成答案,接着结合三种信号评估置信度,然后在设定的检索预算内决定是停止还是检索更多证据。置信度评估器综合了模型自身的确定性、答案与证据之间的一致性,以及检索分数的方差。对于能输出token概率的模型,可直接读取确定性信号;对于封闭API,则通过自一致性近似替代,因此该方法无需访问模型内部状态。在三种骨干模型和两个数据集上的核心结果表明,置信度评估能够可靠地区分每种骨干模型上的正确与错误答案,在事实类数据集上,高置信度与低置信度答案的精确匹配率分别达到57.6%和0%。自适应策略在能力较强的骨干模型上提升了准确率,本研究还诚实地报告了负面的和微妙的发现,包括一个被证明不适用于短答案的置信度信号,以及一个通过测量发现并纠正了符号错误的检索信号。整项研究仅在一台消费级笔记本电脑上完成,API花费仅几美元。 ## I 引言 检索增强生成(RAG)[28 (https://arxiv.org/html/2606.29090#bib.bib1)]已成为将大语言模型(LLM)锚定于外部知识的标准方法。RAG系统不再仅依赖模型在训练中记忆的事实,而是从语料库中检索相关段落,在模型作答前将其作为证据呈现。典型的流水线对每个查询检索固定数量的段落,将其附加到提示中,然后生成答案。这在许多情况下表现良好,但它隐含了一个假设:每个问题需要相同数量的证据,而这一假设往往是错误的。对于一个简单的事实性问题,如“尼日尔的首都巴马科是哪个非洲国家的城市?”,一个段落即可回答。而对于多跳问题,如“哪一位导演将电影A和演员B联系起来?”,往往需要多轮证据收集才能连接中间事实。当检索深度固定时,系统在简单问题上过度检索,浪费了计算资源、上下文窗口空间,以及付费API的费用;同时在困难问题上检索不足,导致缺乏足够证据来正确回答。本文提出AB-RAG(自适应预算检索增强生成),一种使检索深度自适应且有预算的框架。AB-RAG不是检索固定数量的段落,而是先生成答案,评估对该答案的置信度,然后决定是停止还是检索更多证据。它重复这一循环,直到答案足够可信或检索预算耗尽。核心理念是:系统应检索问题实际需要的证据量,不多也不少。这同时带来三个好处:简单查询早停以提高效率,困难查询不确定时多检索以增强鲁棒性,以及一个可调阈值来权衡检索成本与准确率。图1 (https://arxiv.org/html/2606.29090#S1.F1)对比了这两种机制。见下方图注 图1:固定深度的RAG对每个查询应用相同的检索预算,导致简单问题过度检索、困难问题检索不足。AB-RAG在每次回答后评估置信度,仅在需要时检索更多,受预算约束。 AB-RAG的一个重要特性是它无需训练且与骨干模型无关。它不需要微调、单独的奖励模型或特殊标记,可以包装在任何现有生成器之上。这使其与此前的自适应方法区分开来。例如,Self-RAG[2 (https://arxiv.org/html/2606.29090#bib.bib2)]训练模型发射反思标记;FLARE[18 (https://arxiv.org/html/2606.29090#bib.bib3)]依赖单一置信度信号且无显式检索预算。而AB-RAG可以与任何骨干模型配合工作,无论是暴露token级别概率的开放权重模型,还是不暴露概率的封闭商业API。对于封闭API,它用自一致性代理替代缺失的概率。这一点至关重要,因为当今大量部署的QA系统构建于专有API之上,而仅适用于内部概率可访问的方法对它们不适用。这种与骨干模型无关的立场也指导了我们此前在多智能体系统中自适应决策的工作[22 (https://arxiv.org/html/2606.29090#bib.bib4)],其中智能体根据自身局部信号而非中央训练控制器行动。 ### I-A 问题陈述与目标 本工作解决的问题是问答中检索的不可靠和低效使用。固定深度的RAG无法将检索力度与查询难度匹配,且标准流水线无法提供生成答案可信度的信号。项目目标如下: 1. 1.设计一个无需训练、置信度驱动的自适应检索框架,在显式预算下为每个查询调整检索深度。 2. 2.构建一个多信号置信度评估器,结合模型内部确定性、答案与证据的一致性、以及检索质量,无需训练任何模型。 3. 3.使该框架既能运行于提供真实token对数概率的开放权重骨干模型,也能运行于不提供这些概率的封闭API,在封闭情况下使用自一致性代理。 4. 4.通过实验找出哪些置信度信号能真正预测答案正确性,将提出的信号视为待检验的假设,而非默认它们全部有效。 5. 5.在不同的模型规模和两个数据集上仔细评估该框架,并将负面或细微的发现如实报告为真实结果,而非掩盖它们。 ### I-B 贡献 本工作做出以下贡献: - •一个无需训练、有预算、多信号的自适应检索框架,可运行于开放权重和封闭API骨干模型,填补了先前自适应RAG方法留下的空白。 - •一个置信度评估器,能在每个测试的骨干模型上可靠地区分正确与错误答案,在事实类数据集上实现了57.6%对0%的精确匹配率,支持强大的选择性预测应用。 - •对所提出的三个置信度信号的诚实实证研究,显示只有模型确定性信号具有强预测能力,证据一致性信号因明确的机制原因不适用于短答案问答,以及检索方差信号最初符号错误,后经测量修正。 - •证明整个方法可在单台消费级笔记本电脑(4GB GPU,仅几美元API费用)上复现。 ### I-C 论文组织 本文其余部分组织如下:第二节 (https://arxiv.org/html/2606.29090#S2)回顾背景和相关工作,将AB-RAG与标准、训练型及无需训练的自适应RAG进行对比。第三节 (https://arxiv.org/html/2606.29090#S3)介绍方法:系统架构、检索栈及其控制方程、三信号置信度评估器、以及作为形式化算法的自适应预算循环。第四节 (https://arxiv.org/html/2606.29090#S4)描述实现,包括开发环境、数据集、模型骨干以及API成本分析。第五节 (https://arxiv.org/html/2606.29090#S5)报告所有实验结果,涵盖检索质量、三种骨干模型上的静态与自适应对比、置信度与正确性分析、成本-准确率权衡、以及信号消融与诊断。第六节 (https://arxiv.org/html/2606.29090#S6)总结并提出未来工作方向。 ## II 背景与相关工作 ### II-A 概念背景 本节解释AB-RAG所依赖的概念,以便读者无需事先熟悉检索系统或语言模型置信度即可阅读后续内容。 **检索增强生成**。在固定语料上训练的语言模型只能回答其记忆中的内容,且无法引用来源或保持时效性。RAG通过在生成前增加检索步骤来解决这一问题。当问题到达时,检索器搜索语料库中可能包含答案的段落,并将这些段落作为证据放入模型提示中。模型随后利用证据而非仅凭记忆来回答,从而减少幻觉,并使系统能够处理其从未训练过的知识[44 (https://arxiv.org/html/2606.29090#bib.bib35),10 (https://arxiv.org/html/2606.29090#bib.bib38)]。 **稀疏与稠密检索**。主要有两类检索器。稀疏检索(此处以BM25为代表)将查询的字面词与每个段落的词进行匹配,根据词重叠打分,稀有词权重更高,且长段落不会不公平地受益。它速度快,当答案与问题共享词汇时表现强劲,但会错过用不同词汇表达相同思想的段落。稠密检索则使用神经嵌入模型将查询和每个段落编码为向量,并通过这些向量的接近程度来衡量相似性。由于向量捕捉的是语义而非精确词,稠密检索可以匹配同义表达,但它高度依赖嵌入模型的质量。常见的策略是将两者结合,使BM25的词汇精确性与稠密检索的语义召回相互增强。 **重排序**。像BM25和稠密搜索这样的检索器独立地为每个段落打分,且针对大规模语料库的速度进行了优化,因此它们的排序只是近似的。重排序器改进了小候选集的排序。交叉编码器重排序器将查询和单个段落作为整体输入,输出相关性分数,这使其能够建模快速检索器无法捕获的细粒度交互。由于速度太慢无法在整个语料库上运行,它只应用于检索器返回的顶部候选。 **置信度与选择性预测**。模型可以生成答案,但本身并不告诉我们该答案是否可信。置信度估计试图为答案附加一个反映其正确可能性的数值[11 (https://arxiv.org/html/2606.29090#bib.bib20),21 (https://arxiv.org/html/2606.29090#bib.bib22)]。如果该数值可靠,就能实现选择性预测:系统在自信时回答,在不自信时弃权或收集更多信息。AB-RAG正是以这种方式使用置信度,作为决定停止还是检索更多的信号。 ## II-B 相关工作 **标准RAG**。早期的RAG工作[28 (https://arxiv.org/html/2606.29090#bib.bib1)]和稠密段落检索(DPR)[23 (https://arxiv.org/html/2606.29090#bib.bib5)]确立了检索-生成的模式,后者展示了学习型稠密检索器在开放域问答中可超越传统稀疏方法。这些系统使用固定检索深度,不针对查询进行调整。后续工作如REALM[12 (https://arxiv.org/html/2606.29090#bib.bib26)]、RETRO[4 (https://arxiv.org/html/2606.29090#bib.bib29)]和Fusion-in-Decoder[14 (https://arxiv.org/html/2606.29090#bib.bib28)]扩展或重构了检索-读取流水线,但检索本身在查询难度方面基本保持静态。上下文检索[38 (https://arxiv.org/html/2606.29090#bib.bib36)]、最近邻语言模型[13 (https://arxiv.org/html/2606.29090#bib.bib49)]、工具使用模型[42 (https://arxiv.org/html/2606.29090#bib.bib37),32 (https://arxiv.org/html/2606.29090#bib.bib42)]和组合式检索-推理程序[24 (https://arxiv.org/html/2606.29090#bib.bib41),37 (https://arxiv.org/html/2606.29090#bib.bib40)]将这些范式扩展到其他方向,而标准检索基准如BEIR[46 (https://arxiv.org/html/2606.29090#bib.bib43)]、Natural Questions[27 (https://arxiv.org/html/2606.29090#bib.bib44)]和ExpertQA[30 (https://arxiv.org/html/2606.29090#bib.bib51)]支持其评估。语言模型也已知在其参数中直接编码了大量事实知识[36 (https://arxiv.org/html/2606.29090#bib.bib34)],结构化输出场景同样受益于检索锚定[3 (https://arxiv.org/html/2606.29090#bib.bib39)]。检索已与大规模少样本学习[15 (https://arxiv.org/html/2606.29090#bib.bib52)]、显式推理链[50 (https://arxiv.org/html/2606.29090#bib.bib53)]以及推理-行动循环[55 (https://arxiv.org/html/2606.29090#bib.bib54)]相结合,近期工作也聚焦于系统性地评估RAG系统[8 (https://arxiv.org/html/2606.29090#bib.bib55),5 (https://arxiv.org/html/2606.29090#bib.bib56)]。 **Self-RAG**。Self-RAG[2 (https://arxiv.org/html/2606.29090#bib.bib2)]通过训练模型发射特殊反思标记来实现自适应生成,这些标记决定何时检索,并对检索到的证据和生成的答案进行评判。这是一个强有力的方法,但它需要利用专门构建的数据集训练模型,这使得应用成本高昂,且无法直接用于权重不可修改的封闭API。 **FLARE**。前瞻主动检索(FLARE)[18 (https://arxiv.org/html/2606.29090#bib.bib3)]在长文本生成过程中,通过监控模型的token概率来决定何时检索:当即将生成的句子看起来不确定时,检索更多信息。它是无需训练的(AB-RAG也是如此),但它依赖单一信号(token概率),并且没有设置显式的检索预算,因此无法限制回答一个查询的成本。相关迭代方法将检索与推理交替进行[47 (https://arxiv.org/html/2606.29090#bib.bib32)]或反复细化查询[43 (https://arxiv.org/html/2606.29090#bib.bib33)],但同样缺乏显式预算。同时期的工作通过根据预测的复杂度路由查询[16 (https://arxiv.org/html/2606.29090#bib.bib48)]或检测生成过程中的低置信度跨度并进行验证[48 (https://arxiv.org/html/2606.29090#bib.bib47)]来实现自适应检索,这在精神上与AB-RAG相近,但要么需要训练的路由器,要么针对长文本生成而非有预算的短答案问答。 **检索组件**。本工作中的检索栈使用了成熟的构建块。BM25[41 (https://arxiv.org/html/2606.29090#bib.bib6),40 (https://arxiv.org/html/2606.29090#bib.bib40)]
相似文章
面向金融文档问答的代理式检索增强生成
本文介绍了 FinAgent-RAG,这是一个用于金融文档问答的代理式框架,它结合了迭代检索、程序化思维推理和自适应资源分配,以提高准确性并降低成本。
FinRAG-12B:一种经过生产验证的银行业有据可依问答方案
FinRAG-12B 是一款针对银行业检索增强生成(RAG)优化的 120 亿参数大语言模型,具备统一训练框架,可提升回答质量、引用依据的可靠性以及校准后的拒绝回答能力。该模型在引用依据方面优于 GPT-4.1,并已部署于 40 多家金融机构,在成本和延迟方面具有显著优势。
MM-BizRAG:重新思考面向通用企业问答的多模态检索增强生成
MM-BizRAG 是一个面向企业问答的多模态检索增强生成系统,通过文档结构感知分割和版式感知解析,在异构企业文档上的表现比以视觉为中心的基线方法最高提升 32%。该论文还提出了 FastRAGEval——一种基于 LLM 的高效评估指标,其与人类判断的对齐程度优于 RAGChecker,且成本更低。
SEMA-RAG:一种用于医学推理的自进化多智能体检索增强生成框架
SEMA-RAG是一种自进化多智能体RAG框架,用于医学问答,它将解读、探索和裁决解耦为三个专业智能体,在多个基准测试中相较于基线取得了显著的准确率提升。
当检索无济于事:一项大规模生物医学 RAG 研究
这项大规模研究涵盖 5 个模型(7B–72B)、10 个生物医学问答数据集、4 种检索方法和 4 个语料库,发现在生物医学问答任务中,RAG 相比无检索基线仅带来微小且不稳定的提升(1–2 个百分点)。研究得出结论:主要瓶颈并非检索质量,而是模型有效利用检索证据的能力有限。