证据缺失并非证据不足:事实核查中NEI构建伪影的诊断

arXiv cs.CL 论文

摘要

本文介绍了NEI-CAP,一种用于评估事实核查基准中“信息不足”示例构建方式的诊断协议,揭示了在易于取巧的NEI构建上训练的模型无法迁移到更难的、语义相关的信息不足案例上。

arXiv:2605.26663v1 公告类型:新 摘要:证据缺失并非证据不足,但事实核查基准可能使它们在观测上相似。“信息不足”(NEI)标签通常通过不同的证据条件来操作化,而这种选择静默地决定了验证器学习的内容及其分数可能隐藏的问题。我们引入了NEI-CAP,一种对证据不足评估的构建感知诊断协议。每个NEI示例都带有其产生的构建家族;NEI-CAP检查捷径线索,通过人工判定验证困难案例,并测试能力是否在构建间迁移。我们在SciFact风格的科学验证中实例化该协议,并以FEVER和HoVer作为有限的外部对照。在这些设置中,NEI能力不能可靠地迁移:在易于取巧的构建上训练的模型无法识别语义相关的信息不足,而混合构建的训练缩小了差距但未能弥合。固定声明诊断进一步表明,证据条件会改变对参考支持/驳斥标签的置信度,而不仅仅是NEI召回率,因此聚合的NEI分数可能隐藏模型实际解决了哪个问题。
查看原文
查看缓存全文

缓存时间: 2026/05/27 09:08

# 证据缺失并非证据不足:事实验证中NEI构建伪像的诊断

来源:https://arxiv.org/html/2605.26663

###### 摘要

证据缺失并非证据不足,但事实验证基准可能使它们在观测上趋于相似。信息不足(NEI)标注常通过不同的证据条件来操作化,而这种选择在不知不觉中决定了验证器学习的内容,以及其分数可能掩盖的问题。我们提出NEI-CAP,一种面向构建感知的不足证据评估诊断协议。每个NEI示例都带有生成它的构建族;NEI-CAP审计捷径线索,通过人工裁决验证困难案例,并测试能力是否跨构建族转移。我们将该协议实例化到SciFact风格的科学验证中,并以FEVER和HoVer作为有边界的外部控制。在这些设置下,NEI能力无法可靠转移:在易产生捷径的构建上训练的模型无法识别语义相关的不足证据,而混合构建训练缩小了差距但未完全消除。固定主张的诊断进一步表明,证据条件不仅影响NEI召回率,还会改变对参考Support/Refute标签的置信度,因此聚合的NEI分数可能掩盖模型实际上解决了哪个问题。

证据缺失并非证据不足:事实验证中NEI构建伪像的诊断

Jingxi Qiu1,2,Zeyu Han2,Cheng Huang1,†
1ZenWeave AI,2乔治城大学,†通讯作者
[email protected] (https://arxiv.org/html/2605.26663v1/mailto:[email protected]),[email protected] (https://arxiv.org/html/2605.26663v1/mailto:[email protected])

## 1 引言

事实验证系统在可用证据无法得出结论时,将主张标注为支持、反驳或*信息不足*(NEI)(Thorne et al.,2018 (https://arxiv.org/html/2605.26663#bib.bib1);Wadden et al.,2020 (https://arxiv.org/html/2605.26663#bib.bib2);Jiang et al.,2020 (https://arxiv.org/html/2605.26663#bib.bib3))。NEI标注本应是证据条件化的:对于主张cc和证据集EE,它意味着EE无论从哪个方向都无法确定cc。然而,构建这些负面证据集本身就是一个设计步骤,没有任何形式定义涵盖它。一个空字段、一篇不相关的段落、一个高重叠的检索遗漏,以及从引用文献中提取的非理由句子,都可能被标注为NEI,而基于其中一种构建训练的验证器,其预测NEI的原因可能与证据是否实际充足关系不大。

先前关于事实验证伪像的研究侧重于主张侧。Schuster等人(2019 (https://arxiv.org/html/2605.26663#bib.bib4))表明,仅基于主张的分类器可以部分解决FEVER,而对抗性或对比性验证资源进一步表明,标准的证据感知准确性可能掩盖脆弱的决策规则(Thorne and Vlachos,2019 (https://arxiv.org/html/2605.26663#bib.bib21);Schuster et al.,2021 (https://arxiv.org/html/2605.26663#bib.bib22))。另一条研究路线通过移除原本有效证据的部分内容来研究证据充足性(Atanasova et al.,2022 (https://arxiv.org/html/2605.26663#bib.bib5);Vladika et al.,2025 (https://arxiv.org/html/2605.26663#bib.bib16))。我们研究一个互补的失效模式——负面证据条件在最初是如何构建的——并认为这种构建在不知不觉中决定了验证器学习的内容以及聚合的NEI-F1可能掩盖什么。图1 (https://arxiv.org/html/2605.26663#S1.F1) 说明了这一机制。简单NEI可以通过识别缺失、格式或主题不匹配来解决;困难NEI则保持证据与主张相关但不完整,当模型将重叠误认为充足时可能诱导错误的Support。NEI-CAP正是针对这一差距,将构建族作为评估记录的一部分,而不是将NEI视为一个无构建的类别。

请参见图注

图1:NEI构建伪像的概念说明。简单的NEI构建,如占位符或不相关段落,可能教会关于缺失、格式或主题不匹配的捷径。困难NEI则保持证据在语义上相关但不完整;因此验证器可能因重叠而过度预测Support,而不是识别不足。NEI-CAP记录构建族、审计捷径、验证困难示例,并压力测试NEI能力是否转移。示例为示意图;实验使用第3节 (https://arxiv.org/html/2605.26663#S3)–4节 (https://arxiv.org/html/2605.26663#S4) 中描述的SciFact、FEVER和HoVer构建。

NEI-CAP将构建显式化。每个NEI示例都带有产生它的证据条件族,这使我们能够审计每个族中的捷径特征,并压力测试在一个族上训练的模型是否能识别另一个族中的不足。我们将该协议实例化到SciFact风格的科学验证(Wadden et al.,2020 (https://arxiv.org/html/2605.26663#bib.bib2)),并以FEVER(Thorne et al.,2018 (https://arxiv.org/html/2605.26663#bib.bib1))、HoVer(Jiang et al.,2020 (https://arxiv.org/html/2605.26663#bib.bib3))以及更广泛的事实验证文献(Augenstein et al.,2019 (https://arxiv.org/html/2605.26663#bib.bib23);Aly et al.,2021 (https://arxiv.org/html/2605.26663#bib.bib14))为背景。主要发现是聚合NEI-F1无法检测到的转移失败。一个在占位符NEI上训练的DeBERTa验证器,在五个随机种子下达到了完美的匹配占位符NEI-F1,但在BM25近缺失和引用的非理由评估上NEI-F1得分为零;该崩溃在RoBERTa和SciBERT上可复现。概率质量转移到了Support和Refute,而非NEI,因此该失败并非校准伪像。在随机不相关NEI上训练的结果仅略好,表明问题超出了占位符检测。混合构建训练缩小了差距但未完全消除。固定主张的诊断进一步表明,交换证据不仅改变了NEI召回率,还会影响参考Support或Refute标签的置信度。因此,构建选择影响了验证器在整个三分类任务上的表现,而不仅仅是NEI角落。

我们做出三项贡献。首先,我们将NEI重新定义为一种对构建敏感的证据条件,而非单一的负面标注。其次,我们引入NEI-CAP:一种诊断协议,将构建族作为显式评估变量,审计其捷径表面,并通过人工裁决验证困难案例。第三,我们在SciFact、FEVER和HoVer上的实验表明,易产生捷径的训练无法转移至语义相关的不足证据,而多种子和混合构建协议并不能消除对构建分层报告的需求。

## 2 相关工作

### 2.1 事实验证基准

事实验证通常被形式化为一个三分类问题:给定一个主张和一个证据集,预测证据是支持、反驳还是不足以验证该主张。FEVER引入了一个大规模维基百科基准,包含Supported、Refuted和NotEnoughInfo标签(Thorne et al.,2018 (https://arxiv.org/html/2605.26663#bib.bib1));SciFact将这一形式扩展到需要检索包含证据的摘要和理由的专家撰写的科学主张(Wadden et al.,2020 (https://arxiv.org/html/2605.26663#bib.bib2));HoVer则增加了多跳证据检索,其中验证可能依赖于分布在多个维基百科文章中的事实(Jiang et al.,2020 (https://arxiv.org/html/2605.26663#bib.bib3))。MultiFC将事实检测扩展到现实世界中的多领域主张(Augenstein et al.,2019 (https://arxiv.org/html/2605.26663#bib.bib23));HealthFC专注于有证据支持的医疗主张(Vladika et al.,2023 (https://arxiv.org/html/2605.26663#bib.bib28));FEVEROUS增加了结构化表格证据(Aly et al.,2021 (https://arxiv.org/html/2605.26663#bib.bib14));VitaminC则创建了对比性的主张-证据对,需要对微小的事实变化保持敏感(Schuster et al.,2021 (https://arxiv.org/html/2605.26663#bib.bib22))。以理由为中心的资源进一步询问系统是否识别用于支持预测的证据(DeYoung et al.,2020 (https://arxiv.org/html/2605.26663#bib.bib12))。在这些基准中,NEI标签被视为一个固定的第三类,但它的证据侧如何构建则由每个基准自行决定——而这种选择并未成为评估协议的一部分。

### 2.2 数据集伪像与行为评估

NLP基准通常包含伪像,使模型无需学习预期能力即可获得高分。在自然语言推理中,仅基于假设的分类器可以从无前提的输入中恢复标签(Gururangan et al.,2018 (https://arxiv.org/html/2605.26663#bib.bib6);Poliak et al.,2018 (https://arxiv.org/html/2605.26663#bib.bib17)),而受控挑战集(如HANS)表明,高基准准确性可能掩盖对词汇或句法启发式的依赖(McCoy et al.,2019 (https://arxiv.org/html/2605.26663#bib.bib18))。类似的捷径效应也出现在NLI之外,包括论证推理伪像(Niven and Kao,2019 (https://arxiv.org/html/2605.26663#bib.bib19));更广泛而言,捷径学习是现代神经系统的已知失效模式(Geirhos et al.,2020 (https://arxiv.org/html/2605.26663#bib.bib20))。在事实验证中,Schuster等人(2019 (https://arxiv.org/html/2605.26663#bib.bib4))展示了FEVER中类似的主张侧线索,并证明仅基于主张的基线仍与证据感知模型具有竞争力;FEVER2.0风格的对抗性工作进一步强调了对扰动的鲁棒性(Thorne and Vlachos,2019 (https://arxiv.org/html/2605.26663#bib.bib21))。更广泛的研究使用对比集、反事实增强数据和行为测试来暴露脆弱的捷径依赖(Kaushik et al.,2020 (https://arxiv.org/html/2605.26663#bib.bib8);Gardner et al.,2020 (https://arxiv.org/html/2605.26663#bib.bib7);Ribeiro et al.,2020 (https://arxiv.org/html/2605.26663#bib.bib13))。这些研究主要考察主张侧、假设侧或局部决策边界伪像。NEI-CAP将同样的诊断立场延伸到证据侧,并提出NEI证据本身的构建可能教会哪些捷径。

### 2.3 证据充足性与缺失证据

一个主张在现实世界中可能为真或假,但可用证据仍不足以断定,因此证据充足性是一个与真实性预测不同的问题。Atanasova等人(2022 (https://arxiv.org/html/2605.26663#bib.bib5))通过移除原本有效证据的部分内容并询问事实检测模型是否注意到遗漏来使这一问题可操作化,而理由评估基准则询问模型是否识别支持性段落而非仅预测标签(DeYoung et al.,2020 (https://arxiv.org/html/2605.26663#bib.bib12))。关于缺失反证的工作同样认为,证据的可用性和充足性是构建在事实检测数据集中的假设(Glockner et al.,2022 (https://arxiv.org/html/2605.26663#bib.bib26))。同样的问题也出现在生成式事实性评估中,其中长形式的主张被分解为原子事实并对照支持来源进行检查(Min et al.,2023 (https://arxiv.org/html/2605.26663#bib.bib24)),以及检索增强生成或接地评估中,其中生成的主张必须得到所提供上下文的支持(Niu et al.,2024 (https://arxiv.org/html/2605.26663#bib.bib25);Jacovi et al.,2025 (https://arxiv.org/html/2605.26663#bib.bib27))。这些研究推动了证据敏感评估,但它们通常将负面或不支持条件视为已给定的或从有效条件中推导出来的。NEI-CAP则逆向工作:它追问不足证据集最初是如何构建的,以及这种构建决定了验证器可以被认为学到了什么。

## 3 NEI-CAP:面向构建感知的NEI评估

图1 (https://arxiv.org/html/2605.26663#S1.F1) 激励了NEI-CAP作为将捷径识别与证据不足识别分开的方法。本节通过一个构建变量、一个紧凑的证据条件分类法以及协议1中的操作工作流程来形式化该想法。

### 3.1 证据条件化的NEI

一个验证实例为\((c, E, y)\),其中\(c\)是主张,\(E = \{e_1, \ldots, e_k\}\)是其证据集,\(y \in \{\text{Support}, \text{Refute}, \text{NEI}\}\)。NEI标签是配对\((c, E)\)的性质,而非单独主张的性质(Thorne et al.,2018 (https://arxiv.org/html/2605.26663#bib.bib1);Wadden et al.,2020 (https://arxiv.org/html/2605.26663#bib.bib2)):证据是否不足取决于提供了什么证据。我们通过为每个示例扩展一个构建变量来使这种依赖显式化:\(x = (c, E, y, z, g)\),其中\(z\)记录产生\(E\)的NEI证据条件族,\(g\)是一个分组标识符,用于将同一主张的变体保留在同一个划分中。模型永远不会收到\(z\)或\(g\);它们仅用于诊断干预,只用于审计、划分和分层报告。

### 3.2 NEI构建族

NEI-CAP将易产生捷径的构建与语义相关的不足证据区分开来。前者暴露了格式、主题、位置或检索的捷径;后者测试那些仍然与主张相关但仍被识别为不足的证据。这遵循了对比集和行为评估的相同动机:基准应揭示模型何时通过非预期的决策规则成功,而非预期的能力(Gardner et al.,2020 (https://arxiv.org/html/2605.26663#bib.bib7);Ribeiro et al.,2020 (https://arxiv.org/html/2605.26663#bib.bib13);Geirhos et al.,2020 (https://arxiv.org/html/2605.26663#bib.bib20))。表1 (https://arxiv.org/html/2605.26663#S3.T1) 列出了本文其余部分使用的紧凑分类法;完整的定义、元数据字段和捷径风险维度见附录A (https://arxiv.org/html/2605.26663#A1)。

| 族 | 证据条件 | 角色 |
|---|---|---|
| 占位符 | 固定/空的无证据标记 | 格式捷径锚点 |
| 随机不相关 | 不相关的证据 | 主题不匹配锚点 |
| 位置偏差 | 可预测的非理由 | 位置/来源审计 |
| BM25近缺失 | 高重叠但不足的证据 | 困难NEI |
| 引用的非理由 | 引用但非理由的证据 | 困难NEI |
| 同文档 | 同来源的非理由证据 | 来源控制的NEI |
| 固定主张 | 相同主张,改变证据 | 证据替换诊断 |
| 缺失跳 | 多跳证据中移除所需事实 | 外部多跳控制 |

表1:紧凑的NEI-CAP构建分类法。

### 3.3 诊断协议

协议1列出了五个阶段,用于生成第5节 (https://arxiv.org/html/2605.26663#S5)–6节 (https://arxiv.org/html/2605.26663#S6) 中报告的分层构建证据。各阶段共享一个共同输出规范:每个阶段返回一个类型化的人工制品,下一阶段可直接使用,无需从原始文本重新推导任何内容。

**协议1:NEI-CAP诊断工作流**

输入:主张-证据示例 \((c, E, y)\) 和构建规则。
输出:审计表、经裁决的子集、分层构建的指标以及主张边界。

1. **构建。** 分配构建族 \(z\) 和组 ID \(g\)。
2. **审计。** 按标签和构建衡量证据侧的捷径特征。
3. **验证。** 裁决用于核心主张的候选困难NEI。
4. **压力测试。** 评估

相似文章

部分证据基准:对智能体系统中授权受限证据的评估

arXiv cs.AI

本文提出了 Partial-Evidence-Bench,这是一个用于衡量智能体 AI 系统中“授权受限证据”失败模式的确定性基准测试。它评估模型在处理访问控制限制可见性的任务时的表现,重点考察其识别并报告信息不完整的能力,而非悄无声息地生成看似完整实则遗漏关键信息的回答。

用于检测AI生成证据的CIFAR合成证据语料库

arXiv cs.AI

本文介绍了CIFAR合成证据语料库,这是一个专门用于在法律背景下检测AI生成证据的数据集。该语料库涵盖多种文档类型和篡改策略,包含结构化元数据,并提供了一个用于评估检测系统的基准套件。