答案存在性驱动RAG重写增益

Hugging Face Daily Papers 2026/06/04 03:00 论文

rag retrieval-augmented-generation qa llm intervention-audit answer-presence re-ranking

摘要

本文研究在RAG问答流程中，重写检索段落所带来的性能提升是否因果性地由重写上下文中出现黄金答案字符串所驱动，并通过跨多个模型和数据集的受控干预审计进行验证。

检索增强的问答流程通常将检索到的段落通过一个LLM重写器，然后再送入一个较小的阅读器，在多跳基准测试中F1分数提升了数十个百分点；这种提升通常归因于证据质量的改善。我们通过受控干预审计提出疑问：这种提升是否因果性地由重写上下文中出现黄金答案字符串所驱动，而非重写本身。对于每个重写上下文，我们在编译输出上执行四种受控编辑之一后重新运行阅读器：删除黄金答案跨度、替换一个长度匹配的随机非答案跨度（安慰剂）、将黄金答案注入到原本没有黄金答案的重写中（在开头或中间句子边界）。在涵盖三个阅读器家族（Qwen2.5-7B、Qwen3.5-35B、GLM-4.7）、两个数据集（HotpotQA、2WikiMultihopQA）以及三种编译器配置（仅MA、仅MB、MA+验证）的十二个已完成（单元格，基线）干预运行中，在配对的答案在编译中的分层上，删除黄金答案导致阅读器F1分数比长度匹配的安慰剂下降28到64个百分点，而在原本没有黄金答案的重写中前置黄金答案，在12个（单元格，基线）组合中有10个的F1分数提升了+0.7到+9.7个百分点。一个伴随的五哨兵审计显示，传统的单[MASK]探测本身对哨兵敏感：在2Wiki上，它报告了一个+4.12 F1的“无泄漏残差”，在四个替代哨兵下翻转至-3.33到-7.81 F1，并且在四个哨兵中有三个未能通过等价性检验（1/4通过）。我们不提出新的重写器或缓解措施；我们发布干预运行器和哨兵面板，以便其他重写增益声明可以按照相同的标准进行测试。

查看原文

查看缓存全文

缓存时间: 2026/06/09 08:41

论文页面 - 答案存在驱动RAG重写增益

来源：https://huggingface.co/papers/2606.05633

作者：

摘要

受控干预实验揭示，重写语境中存在黄金答案会显著提升问答性能：移除黄金答案导致F1大幅下降，注入黄金答案则改善结果；而传统的探测方法对哨兵变更表现脆弱。

检索增强问答(https://huggingface.co/papers?q=Retrieval-augmented%20QA)流程通常先将检索到的段落通过大语言模型重写器(https://huggingface.co/papers?q=LLM%20rewriter)，再送入较小的阅读器(https://huggingface.co/papers?q=reader)，在多跳基准测试上可使F1提升数十个百分点；这一增益通常归因于证据质量的改善。我们提出疑问：该提升是否因果性地由重写语境中出现黄金答案字符串驱动，而非源于梳理过程本身，并通过受控干预审计(https://huggingface.co/papers?q=intervention%20audit)来检验。对于每个重写语境，我们在对编译输出进行四种受控编辑(https://huggingface.co/papers?q=controlled%20edits)之一后重新运行阅读器(https://huggingface.co/papers?q=reader)：移除黄金答案片段(https://huggingface.co/papers?q=gold%20answer%20span)、替换一个长度匹配的随机非答案片段（安慰剂）、或将黄金答案注入原本缺失的重写结果中（放在前缀或中间句子边界处）。在跨越三个阅读器(https://huggingface.co/papers?q=reader)系列（Qwen2.5-7B、Qwen3.5-35B、GLM-4.7）、两个数据集（HotpotQA、2WikiMultihopQA）以及三种编译器配置（仅MA、仅MB、MA+验证）的十二组（单元、基线]干预实验中，移除黄金答案使阅读器F1比配对答案在编译层(https://huggingface.co/papers?q=answer-in-compile%20strata)中的长度匹配安慰剂额外下降28至64个百分点；而在原本缺乏黄金答案的重写结果中前置黄金答案，使12组单元×基线组合中的10组F1提升+0.7至+9.7个百分点。配套的五哨兵审计(https://huggingface.co/papers?q=sentinel%20audit)表明，传统的单-[MASK]探测方法本身对哨兵敏感：在2Wiki上，它报告+4.12 F1的“非泄漏残差”，但在四种替代哨兵下，该残差变为-3.33至-7.81 F1，并且未能通过其中三个哨兵的等价检验（1/4通过）。我们不提出新的重写器或缓解方案；我们发布干预运行器和哨兵面板，以便其他重写增益声明可以依据相同标准进行检验。

查看arXiv页面(https://arxiv.org/abs/2606.05633)查看PDF(https://arxiv.org/pdf/2606.05633)添加到收藏夹(https://huggingface.co/login?next=%2Fpapers%2F2606.05633)

在你的agent中获取此论文：

hf papers read 2606\.05633

没有最新的CLI？curl \-LsSf https://hf\.co/cli/install\.sh \| bash

引用此论文的模型0

尚无模型与此论文关联

在模型README.md中引用arxiv.org/abs/2606.05633以从此页面链接。

引用此论文的数据集0

尚无数据集与此论文关联

在数据集README.md中引用arxiv.org/abs/2606.05633以从此页面链接。

引用此论文的Spaces0

尚无Space与此论文关联

在Space README.md中引用arxiv.org/abs/2606.05633以从此页面链接。

包含此论文的收藏集0

尚无收藏集包含此论文

将这篇论文添加到收藏集(https://huggingface.co/new-collection)中以从此页面链接。

答案存在性驱动RAG重写增益

论文页面 - 答案存在驱动RAG重写增益

摘要

引用此论文的模型0

引用此论文的数据集0

引用此论文的Spaces0

包含此论文的收藏集0

相似文章

当检索无济于事：一项大规模生物医学 RAG 研究

EverydayGPT：面向高效安全混合GPT-RAG对话问答的置信门控路由

相同问题，不同来源，不同答案：医疗多源RAG系统中的来源依赖性审计

OCC-RAG：面向忠实问答的最优认知核心

RAG 能知道检索错误吗？在知识冲突下诊断上下文遵从性

提交意见反馈