答案存在性驱动RAG重写增益

Hugging Face Daily Papers 论文

摘要

本文研究在RAG问答流程中,重写检索段落所带来的性能提升是否因果性地由重写上下文中出现黄金答案字符串所驱动,并通过跨多个模型和数据集的受控干预审计进行验证。

检索增强的问答流程通常将检索到的段落通过一个LLM重写器,然后再送入一个较小的阅读器,在多跳基准测试中F1分数提升了数十个百分点;这种提升通常归因于证据质量的改善。我们通过受控干预审计提出疑问:这种提升是否因果性地由重写上下文中出现黄金答案字符串所驱动,而非重写本身。对于每个重写上下文,我们在编译输出上执行四种受控编辑之一后重新运行阅读器:删除黄金答案跨度、替换一个长度匹配的随机非答案跨度(安慰剂)、将黄金答案注入到原本没有黄金答案的重写中(在开头或中间句子边界)。在涵盖三个阅读器家族(Qwen2.5-7B、Qwen3.5-35B、GLM-4.7)、两个数据集(HotpotQA、2WikiMultihopQA)以及三种编译器配置(仅MA、仅MB、MA+验证)的十二个已完成(单元格,基线)干预运行中,在配对的答案在编译中的分层上,删除黄金答案导致阅读器F1分数比长度匹配的安慰剂下降28到64个百分点,而在原本没有黄金答案的重写中前置黄金答案,在12个(单元格,基线)组合中有10个的F1分数提升了+0.7到+9.7个百分点。一个伴随的五哨兵审计显示,传统的单[MASK]探测本身对哨兵敏感:在2Wiki上,它报告了一个+4.12 F1的“无泄漏残差”,在四个替代哨兵下翻转至-3.33到-7.81 F1,并且在四个哨兵中有三个未能通过等价性检验(1/4通过)。我们不提出新的重写器或缓解措施;我们发布干预运行器和哨兵面板,以便其他重写增益声明可以按照相同的标准进行测试。
查看原文
查看缓存全文

缓存时间: 2026/06/09 08:41

论文页面 - 答案存在驱动RAG重写增益

来源:https://huggingface.co/papers/2606.05633

作者:

,

,

,

,

,

,

,

,

,

摘要

受控干预实验揭示,重写语境中存在黄金答案会显著提升问答性能:移除黄金答案导致F1大幅下降,注入黄金答案则改善结果;而传统的探测方法对哨兵变更表现脆弱。

检索增强问答(https://huggingface.co/papers?q=Retrieval-augmented%20QA)流程通常先将检索到的段落通过大语言模型重写器(https://huggingface.co/papers?q=LLM%20rewriter),再送入较小的阅读器(https://huggingface.co/papers?q=reader),在多跳基准测试上可使F1提升数十个百分点;这一增益通常归因于证据质量的改善。我们提出疑问:该提升是否因果性地由重写语境中出现黄金答案字符串驱动,而非源于梳理过程本身,并通过受控干预审计(https://huggingface.co/papers?q=intervention%20audit)来检验。对于每个重写语境,我们在对编译输出进行四种受控编辑(https://huggingface.co/papers?q=controlled%20edits)之一后重新运行阅读器(https://huggingface.co/papers?q=reader):移除黄金答案片段(https://huggingface.co/papers?q=gold%20answer%20span)、替换一个长度匹配的随机非答案片段(安慰剂)、或将黄金答案注入原本缺失的重写结果中(放在前缀或中间句子边界处)。在跨越三个阅读器(https://huggingface.co/papers?q=reader)系列(Qwen2.5-7B、Qwen3.5-35B、GLM-4.7)、两个数据集(HotpotQA、2WikiMultihopQA)以及三种编译器配置(仅MA、仅MB、MA+验证)的十二组(单元、基线]干预实验中,移除黄金答案使阅读器F1比配对答案在编译层(https://huggingface.co/papers?q=answer-in-compile%20strata)中的长度匹配安慰剂额外下降28至64个百分点;而在原本缺乏黄金答案的重写结果中前置黄金答案,使12组单元×基线组合中的10组F1提升+0.7至+9.7个百分点。配套的五哨兵审计(https://huggingface.co/papers?q=sentinel%20audit)表明,传统的单-[MASK]探测方法本身对哨兵敏感:在2Wiki上,它报告+4.12 F1的“非泄漏残差”,但在四种替代哨兵下,该残差变为-3.33至-7.81 F1,并且未能通过其中三个哨兵的等价检验(1/4通过)。我们不提出新的重写器或缓解方案;我们发布干预运行器和哨兵面板,以便其他重写增益声明可以依据相同标准进行检验。

查看arXiv页面(https://arxiv.org/abs/2606.05633)查看PDF(https://arxiv.org/pdf/2606.05633)添加到收藏夹(https://huggingface.co/login?next=%2Fpapers%2F2606.05633)

在你的agent中获取此论文:

hf papers read 2606\.05633

没有最新的CLI?curl \-LsSf https://hf\.co/cli/install\.sh \| bash

引用此论文的模型0

尚无模型与此论文关联

在模型README.md中引用arxiv.org/abs/2606.05633以从此页面链接。

引用此论文的数据集0

尚无数据集与此论文关联

在数据集README.md中引用arxiv.org/abs/2606.05633以从此页面链接。

引用此论文的Spaces0

尚无Space与此论文关联

在Space README.md中引用arxiv.org/abs/2606.05633以从此页面链接。

包含此论文的收藏集0

尚无收藏集包含此论文

将这篇论文添加到收藏集(https://huggingface.co/new-collection)中以从此页面链接。

相似文章

当检索无济于事:一项大规模生物医学 RAG 研究

arXiv cs.CL

这项大规模研究涵盖 5 个模型(7B–72B)、10 个生物医学问答数据集、4 种检索方法和 4 个语料库,发现在生物医学问答任务中,RAG 相比无检索基线仅带来微小且不稳定的提升(1–2 个百分点)。研究得出结论:主要瓶颈并非检索质量,而是模型有效利用检索证据的能力有限。

OCC-RAG:面向忠实问答的最优认知核心

arXiv cs.CL

OCC-RAG 引入了一系列紧凑型小语言模型,这些模型针对忠实问答进行了优化,采用新颖的流程来合成多上下文多跳问答数据。该模型在推理和忠实度基准测试中表现出与大型模型相当的竞争性能。

RAG 能知道检索错误吗?在知识冲突下诊断上下文遵从性

arXiv cs.CL

本文提出了一种名为“上下文驱动分解”(CDD)的探针,用于诊断检索增强生成(RAG)系统在面对检索上下文与参数化知识冲突时,是否遵从检索上下文。同时,发布了 Epi-Scale 基准测试,以便在多种模型家族中进行系统性研究。