长上下文与检索增强语言模型中证据使用的四条件诊断协议

arXiv cs.CL 论文

摘要

本文提出了一种四条件诊断协议,用于分离长上下文和检索增强语言模型中的无证据可答性、神谕证据可恢复性、全上下文利用以及检索条件利用,并在多个数据集上对五种开源权重模型进行了测试。

arXiv:2606.06758v1 公告类型: new 摘要:最终答案准确性、检索召回率和引用重叠本身并不能确定长上下文或检索增强语言模型是否使用了提供给它的证据。模型可能从参数记忆中回答,即使收到正确的段落也可能失败,或者在引用证据时未能将其转换为所请求的答案。本文提出了一种匹配的四条件证据可用性协议——无证据、全上下文、检索证据和神谕证据参考——用于在固定示例、提示、评分字段、检索设置和有效性检查下诊断证据利用。ONCU 被用作协议绑定的恢复神谕参考证据优势的估计器,并且仅针对分母有效组进行计算;分母无关的答案、证据、检索和失败审计指标单独报告。实证研究评估了来自 Qwen、Gemma、Llama 和 Mistral 系列的五个本地开源权重模型,涉及 Controlled-ONCU-safe16K、HotpotQA-ONCU 和 2WikiMultiHopQA-ONCU,共获得 18,000 个 ONCU 兼容预测。主要发现是任务相关的瓶颈分裂:受控合成设置主要暴露全上下文利用失败,而测试的现实多跳设置主要暴露分母无关答案和证据指标中的检索链覆盖失败,ONCU 在神谕改进组上支持相同的方向。贡献在于提供了一个诊断协议,用于分离无证据可答性、神谕证据可恢复性、全上下文利用和检索条件利用,而不是为长上下文或检索增强系统提供单一评分排行榜。
查看原文
查看缓存全文

缓存时间: 2026/06/08 09:20

# 长上下文与检索增强语言模型中证据利用的四条件诊断协议 来源:https://arxiv.org/html/2606.06758 \\JAIRAE 待分配 \\JAIRTrackArticle ###### 摘要\. 背景:仅凭最终答案准确率、检索召回率和引用重叠度本身无法判断长上下文或检索增强语言模型是否使用了所提供的证据。模型可能从参数记忆中作答,可能在收到正确段落的情况下仍然失败,也可能引用了证据却未将其转化为所请求的答案。目标:我们研究一种匹配的诊断协议,如何在指定评估条件下提供上下文证据时,分离出无证据可答性、神谕证据可恢复性、完整上下文利用率以及检索条件化利用率。方法:我们提出一种匹配的四条件证据可用性协议——无证据、完整上下文、检索证据和神谕证据参考——在固定样例、提示、评分字段和有效性检查下,将每个得分项绑定到不同的诊断角色。ONCU 被用作该协议绑定的恢复神谕参考证据优势估计量,并且仅在分母有效组中进行解释。实证研究涵盖来自 Qwen、Gemma、Llama 和 Mistral 系列的五个本地开源权重模型,在 Controlled-ONCU-safe16K、HotpotQA-ONCU 和 2WikiMultiHopQA-ONCU 上生成 18,000 个 ONCU 兼容的预测。结果:在测试的本地模型、数据集和检索器条件下,主要发现是任务依赖的瓶颈分化。受控的合成设置主要暴露完整上下文利用失败,而测试的现实多跳设置在无分母自由回答/证据指标中暴露检索链覆盖失败,ONCU 在神谕改进组上支持相同方向。Dense@16 和 hybrid@16 检索输入缩小了一些差距,但未推翻测试的现实多跳协议中完整上下文优于检索的模式。结论:贡献在于为测试的本地开源权重和重建的 QA 设置提供了一个协议级别的诊断框架。它将无证据可答性、神谕参考可恢复性、完整上下文利用和检索条件化利用分离开,而不将 ONCU 视为通用排名分数。††copyright:none††journalvolume:0††article:0††publicationmonth:1††journalyear:2026## 1\.引言 长上下文语言模型和检索增强系统通常用最终答案准确率来评估。准确率是必要的,但它无法识别模型如何使用证据。模型可以不阅读提供的上下文而正确回答问题,可以在收到正确证据的情况下仍然失败,或者可以给出看似正确的答案却引用了不相关的段落。反之,检索后阅读的流水线可能因检索去除了干扰项而提高最终准确率,也可能因检索丢弃了多跳证据链中的一跳而降低准确率。这些情况在科学上是不同的,但仅凭最终准确率无法区分它们。我们提出一个诊断性问题:当上下文证据可供模型使用时,可恢复的证据衍生优势有多少被测试的输入条件实际恢复?这个问题不等于询问模型是否有长上下文窗口、检索器是否有高召回率,或者答案是否正确。它需要比较同一模型和样例的至少三个量:模型在没有证据的情况下能回答什么,在相关证据被隔离时能回答什么,以及在实际完整上下文或检索证据条件下能回答什么。我们在本文中操作性地使用“证据利用”。该协议测量可观察的条件级行为:当在固定提示、解码控制、检索设置和评分规则下改变证据可用性时,答案和证据分数如何变化。它并不声称对个别答案的内部模型状态、注意力路径或隐藏计算进行机制性因果归因。因此,我们将证据利用评估框架化为一个匹配的诊断协议。该协议固定四个证据可用性条件:无证据、完整上下文、检索证据和神谕证据参考。答案契约、解码策略、检索设置和评分流水线在所有条件下保持不变。ONCU 是协议中基线调整的恢复优势估计量:它将上下文条件的分数归一化到无证据基线和神谕证据参考之间。其诊断内容来自协议的绑定,而非仅代数比率:无证据可答性、可恢复的神谕证据优势、完整上下文利用率和检索条件化利用率在同一模型、样例、评分字段、分组方案和分母有效性检查下联合估计。这种区分很重要,因为几种常见指标本身无法识别证据利用。原始答案 F1 不减去无证据可答性。证据 F1 不验证引用的证据是否被转化为最终答案。检索召回率衡量的是阅读前的可用性,而非阅读器的使用。神谕差距忽略了模型在无上下文情况下已能回答的内容。所提出的框架旨在将这些因素分开:证据可用性、完整上下文定位、检索链覆盖、多跳集成、答案转换和输出格式稳定性。对于广泛的 JAIR 读者,该框架的预期用途是诊断性的。AI 研究人员可以使用该协议来询问明显的上下文改进是来自证据使用、无证据可答性、检索链覆盖、长上下文定位还是输出格式稳定性。这对模型开发者、检索系统设计者、基准作者和评估者都很重要,因为相同的最终答案分数可能对应不同的机制,从而得出不同的研究结论。报告的评估包含三个 ONCU 兼容的基准组件:Controlled-ONCU-safe16K、HotpotQA-ONCU 和 2WikiMultiHopQA-ONCU。这些数据集支持相同的四条件协议,因为可以从相同的底层样例构建无证据、完整上下文、检索证据和神谕证据输入。我们评估了一个三模型主面板:Qwen2.5-14B、Qwen3-14B 和 Gemma3-12B,并增加了模型家族扩展,包括 Llama3.1-8B 和 Mistral-Small3.1-24B。正文优先呈现核心四条件结果、分母有效性审计、模型家族扩展、匹配的 dense@16/hybrid@16 ONCU 敏感性,以及受控长度-位置缩放作为机制证据。仅检索检查、面向阅读器的扫描、交叉编码器重排序、外部 BABILong/RULER-lite 验证以及失败分类验证作为支持性审计报告,而非独立的基准声明。 ##### 核心论点。贡献不在于一个新的通用分数,而是一个匹配的诊断协议,使得在相同样例下,无证据可答性、神谕参考增益、完整上下文利用率和检索条件化利用率共同可观察。ONCU 是该协议内的一个估计量:对于指定的评分字段和上下文条件,它估计在减去无证据可答性后,操作性神谕参考证据优势的恢复比例。诊断价值来自同时观察四个证据角色并辅以分母有效性审计,这分离了答案先验与证据衍生增益,以及检索覆盖与阅读器侧转换,而不将结果转换为排行榜分数或声称机制性因果归因。 ##### 诊断命题。对于评分字段 \(S\) 和上下文条件 \(c\),恢复的证据优势目标 \(R_c = (S_c - S_{\mathrm{no}}) / (S_{\mathrm{oracle}} - S_{\mathrm{no}})\) 仅当 \(S_{\mathrm{no}}\)、\(S_c\)、\(S_{\mathrm{oracle}}\)、分组方案以及分母有效性条件 \(S_{\mathrm{oracle}} > S_{\mathrm{no}}\) 在同一模型和样例下被观察时,才可识别为条件级诊断。如果缺少其中任何一项,两次评估可能在报告的指标上一致,但对于条件是否恢复了证据衍生优势存在分歧。这就是四条件协议所填补的经验和形式空白。本文做出五项贡献: - •它指定了一个固定的四条件证据可用性协议,在相同样例、模型、答案契约、检索控制、评分字段和分组策略下,联合观察无证据、完整上下文、检索证据和神谕证据行为。 - •它定义了神谕参考利用的分母有效性机制:明确标记非正的神谕超基线分母,分离原始和裁剪后的利用率机制,并在归一化估计量旁边报告无分母的自由答案、证据、检索和失败模式审计指标。 - •它使用 ONCU 作为协议绑定的恢复神谕参考证据优势估计量,同时将更广泛的诊断对象设定为匹配协议加上有效性审计,而非独立的指标或模型排名分数。 - •它给出了一个形式上的联合可观察性论证和反例,说明为什么答案准确率、证据 F1、检索召回率、神谕差距、上下文增益或没有匹配证据角色的归一化对比无法单独区分协议针对的失败模式。 - •它提供了在测试的本地开源权重模型、重建的神谕兼容 QA 组件和检索器设置下的聚合失败模式审计,表明受控的合成设置主要暴露完整上下文利用失败,而测试的基于 HotpotQA 和 2WikiMultiHopQA 的检索后阅读设置通常暴露证据链覆盖失败。 ##### 为何这不只是归一化增益。归一化增益提供了一个比率;它本身并不决定分子和分母的含义。在本文中,该比率之所以有意义,是因为协议在相同样例上固定了四个证据角色:无证据、完整上下文、检索证据和神谕证据参考。分母有效性审计是估计量的一部分,因为如果没有神谕超基线的优势,则无法支持恢复优势的解释。因此,输出是一个失败定位的诊断对比,并附有无分母的自由答案、证据和检索指标,而不是独立的归一化分数或模型排行榜。 ## 2\.相关工作 本节将本文定位于问答评估、长上下文建模、检索、基础性和归一化性能对比的实践背景中。它还找出了在结构和评估动机上最接近的 JAIR 文章,因为本贡献旨在作为期刊风格的诊断框架,而不是另一个特定任务的基准报告。 ### 2\.1\.闭书、开书和无上下文评估 闭书问答评估模型在没有任务特定上下文时能回答什么,而开书和检索增强设置在生成前提供外部段落。这种区分对于本文至关重要,因为无证据可答性不是一个干扰变量:它是必须估计的量之一。标准开书准确率可能很高,即使部分分数来自参数记忆、数据集先验或问题伪影。因此,我们协议中的无证据条件与传统闭书基线扮演的角色不同。它不是用于对模型排序;它估计了不应归功于所提供上下文的答案性能比例。这种定位不同于在 SQuAD 或 HotpotQA 等数据集上的普通开书 QA 评估,其中精确匹配和令牌 F1 仍然是主要答案指标(rajpurkar2016squad;yang2018hotpotqa)。这些指标是必要的,但不足以诊断证据利用。它们无法识别答案是否在无上下文时已经可用,完整上下文是否提供了模型未能定位的可用证据,或者检索上下文是否遗漏了证据链的一部分。ONCU 通过将每个上下文条件与同一模型和样例的无证据基线和隔离证据参考进行比较,来解决这个更窄的诊断目标。 ### 2\.2\.长上下文基准和上下文敏感性测试 长上下文基准评估模型是否能处理长输入、检索针、聚合分布式事实,或回答长文档上的问题(bai2024longbench;kuratov2024babilong;hsieh2024ruler;kamradt2023needle)。LongBench 提供异构的长上下文任务;BABILong 强调对嵌入在长文档中的事实进行推理;RULER 将针式测试扩展到多跳追踪和聚合。这些基准是重要的先驱,因为它们暴露了在短上下文 QA 中不可见的失败。它们也激发了本文的核心诊断关注点:长上下文长度和最终答案准确率本身无法识别证据衍生优势是否被恢复。位置敏感性和针式测试尤其相关,因为它们揭示了相关信息在某些上下文长度或位置可能比其他更难使用(liu2024lost)。本协议利用了这一见解,但提出了一个更窄的核算问题。位置敏感性分数可以显示当证据放置在早期、中间或远离查询时性能下降,但它不必为相同样例分离无证据可答性、隔离证据可答性、完整上下文阅读、检索上下文阅读和分母有效性。因此,ONCU 不是位置敏感型基准的替代品,而是一种在匹配的证据可用性协议下将这些效应表达为恢复的神谕参考优势的方式。本协议通过提出一个大多数长上下文基准没有直接实例化的问题来补充这些基准:对于相同样例和相同模型,在无证据、完整上下文、检索子集和隔离神谕证据下分别获得多少性能?匹配的四条件设计将这个问题转化为一个可审计的对比,在相同的分母归一化分析中分离答案先验、完整上下文定位、检索链覆盖和答案转换。 ### 2\.3\.检索评估与阅读器侧利用 检索增强生成将证据选择与答案生成分开(lewis2020rag;karpukhin2020dpr)。经典和神经检索指标,包括词汇 BM25 风格检索、稠密检索、排名融合和固定预算下的召回率,衡量相关段落是否在阅读器看到提示之前出现(robertson2009bm25;cormack2009rrf;reimers2019sbert)。这些指标对于诊断证据可用性不可或缺,但它们是阅读器前的量。检索器可能暴露了必要的段落,而阅读器仍然未能集成或将其转换为正确答案;反之,较弱的检索分数有时也可能提供足够的上下

相似文章

WhenLoss:诊断长上下文记忆系统中的写入与检索瓶颈

arXiv cs.CL

介绍了一种四条件诊断协议,用于识别长上下文记忆系统的失败是由于写入端的压缩丢弃了证据,还是检索端未能找到已存储的信息。分析表明,大多数基线模型的写入端差距占主导,从而推动了所提出的预期预测压缩(EPC)方法,该方法提高了相关证据的保留能力。

衡量开源权重 LLM 中的评估上下文发散:一种配对提示协议及对对齐管线特定异质性的初步证据

arXiv cs.CL

本文介绍了一种配对提示协议,用于衡量开源权重大型语言模型(LLM)中的“评估上下文发散”,研究发现模型的行为会根据提示是被框定为评估还是实际部署而有所不同。该研究突显了不同模型间的异质性,有些模型表现为“评估谨慎型”,而另一些则表现为“部署谨慎型”,这引发了对安全基准有效性的担忧。

MEDSYN: 复杂临床病例中多证据综合的多模态大语言模型基准测试

arXiv cs.CL

MEDSYN 是一个多语言多模态基准,用于评估多模态大语言模型(MLLMs)在复杂临床病例上的表现,每个病例最多包含 7 种不同的视觉证据类型。研究表明,虽然前沿模型在鉴别诊断生成方面与人类专家相当,但所有 MLLMs 在最终诊断选择中均存在显著差距,原因是异质临床证据综合能力不足。