答案存在性驱动RAG重写增益
摘要
本文研究在RAG问答流程中,重写检索段落所带来的性能提升是否因果性地由重写上下文中出现黄金答案字符串所驱动,并通过跨多个模型和数据集的受控干预审计进行验证。
查看缓存全文
缓存时间: 2026/06/09 08:41
论文页面 - 答案存在驱动RAG重写增益
来源:https://huggingface.co/papers/2606.05633
作者:
,
,
,
,
,
,
,
,
,
摘要
受控干预实验揭示,重写语境中存在黄金答案会显著提升问答性能:移除黄金答案导致F1大幅下降,注入黄金答案则改善结果;而传统的探测方法对哨兵变更表现脆弱。
检索增强问答(https://huggingface.co/papers?q=Retrieval-augmented%20QA)流程通常先将检索到的段落通过大语言模型重写器(https://huggingface.co/papers?q=LLM%20rewriter),再送入较小的阅读器(https://huggingface.co/papers?q=reader),在多跳基准测试上可使F1提升数十个百分点;这一增益通常归因于证据质量的改善。我们提出疑问:该提升是否因果性地由重写语境中出现黄金答案字符串驱动,而非源于梳理过程本身,并通过受控干预审计(https://huggingface.co/papers?q=intervention%20audit)来检验。对于每个重写语境,我们在对编译输出进行四种受控编辑(https://huggingface.co/papers?q=controlled%20edits)之一后重新运行阅读器(https://huggingface.co/papers?q=reader):移除黄金答案片段(https://huggingface.co/papers?q=gold%20answer%20span)、替换一个长度匹配的随机非答案片段(安慰剂)、或将黄金答案注入原本缺失的重写结果中(放在前缀或中间句子边界处)。在跨越三个阅读器(https://huggingface.co/papers?q=reader)系列(Qwen2.5-7B、Qwen3.5-35B、GLM-4.7)、两个数据集(HotpotQA、2WikiMultihopQA)以及三种编译器配置(仅MA、仅MB、MA+验证)的十二组(单元、基线]干预实验中,移除黄金答案使阅读器F1比配对答案在编译层(https://huggingface.co/papers?q=answer-in-compile%20strata)中的长度匹配安慰剂额外下降28至64个百分点;而在原本缺乏黄金答案的重写结果中前置黄金答案,使12组单元×基线组合中的10组F1提升+0.7至+9.7个百分点。配套的五哨兵审计(https://huggingface.co/papers?q=sentinel%20audit)表明,传统的单-[MASK]探测方法本身对哨兵敏感:在2Wiki上,它报告+4.12 F1的“非泄漏残差”,但在四种替代哨兵下,该残差变为-3.33至-7.81 F1,并且未能通过其中三个哨兵的等价检验(1/4通过)。我们不提出新的重写器或缓解方案;我们发布干预运行器和哨兵面板,以便其他重写增益声明可以依据相同标准进行检验。
查看arXiv页面(https://arxiv.org/abs/2606.05633)查看PDF(https://arxiv.org/pdf/2606.05633)添加到收藏夹(https://huggingface.co/login?next=%2Fpapers%2F2606.05633)
在你的agent中获取此论文:
hf papers read 2606\.05633
没有最新的CLI?curl \-LsSf https://hf\.co/cli/install\.sh \| bash
引用此论文的模型0
尚无模型与此论文关联
在模型README.md中引用arxiv.org/abs/2606.05633以从此页面链接。
引用此论文的数据集0
尚无数据集与此论文关联
在数据集README.md中引用arxiv.org/abs/2606.05633以从此页面链接。
引用此论文的Spaces0
尚无Space与此论文关联
在Space README.md中引用arxiv.org/abs/2606.05633以从此页面链接。
包含此论文的收藏集0
尚无收藏集包含此论文
将这篇论文添加到收藏集(https://huggingface.co/new-collection)中以从此页面链接。
相似文章
当检索无济于事:一项大规模生物医学 RAG 研究
这项大规模研究涵盖 5 个模型(7B–72B)、10 个生物医学问答数据集、4 种检索方法和 4 个语料库,发现在生物医学问答任务中,RAG 相比无检索基线仅带来微小且不稳定的提升(1–2 个百分点)。研究得出结论:主要瓶颈并非检索质量,而是模型有效利用检索证据的能力有限。
EverydayGPT:面向高效安全混合GPT-RAG对话问答的置信门控路由
EverydayGPT 引入置信门控路由(CGR)机制,该机制针对每个查询决定使用RAG、直接GPT生成还是拒绝,在85%的查询上实现120倍延迟降低,同时保持答案质量,这在500问题基准测试中得到验证。
相同问题,不同来源,不同答案:医疗多源RAG系统中的来源依赖性审计
本文提出了一个用于审计医疗多源RAG系统中来源依赖性的框架,发布了TransplantQA基准、HERO-QA检索策略以及一个结构化输出裁判,用于衡量跨来源答案关系。研究表明,更好的检索揭示出比先前估计更多的分歧,并主张将NLP评估从答案正确性转向跨来源关系分析。
OCC-RAG:面向忠实问答的最优认知核心
OCC-RAG 引入了一系列紧凑型小语言模型,这些模型针对忠实问答进行了优化,采用新颖的流程来合成多上下文多跳问答数据。该模型在推理和忠实度基准测试中表现出与大型模型相当的竞争性能。
RAG 能知道检索错误吗?在知识冲突下诊断上下文遵从性
本文提出了一种名为“上下文驱动分解”(CDD)的探针,用于诊断检索增强生成(RAG)系统在面对检索上下文与参数化知识冲突时,是否遵从检索上下文。同时,发布了 Epi-Scale 基准测试,以便在多种模型家族中进行系统性研究。