ConflictScore: 识别与衡量语言模型如何处理矛盾证据

arXiv cs.CL 2026/06/26 04:00 论文

conflicting-evidence factuality faithfulness metrics language-models truthfulness benchmark

摘要

ConflictScore是一种新度量，用于量化语言模型在面对其基础文档中的矛盾证据时的识别能力，它将响应分解为原子声明并衡量矛盾平衡。论文还引入了ConflictBench，这是一个涵盖多种矛盾形式的基准测试，并展示了该度量可以提高TruthfulQA上的真实性。

arXiv:2606.26437v1 公告类型：新摘要：现有的事实性和忠实度度量方法评估答案是否被其基础文档支持或反驳，但无法捕捉支持和反驳证据并存的情况。我们引入ConflictScore，这是一种新型度量，用于量化模型响应在其基础文档中识别矛盾证据的能力。我们的框架将响应分解为原子声明，对每个声明针对每个基础文档进行标注，然后将这些标注聚合为两个互补指标：ConflictScore-Count (CS-C)，即存在矛盾的声明比例；以及ConflictScore-Ratio (CS-R)，即支持与反驳证据之间的平衡。我们开发了ConflictBench，这是一个覆盖多种矛盾形式（如歧义、矛盾、观点分歧）的基准测试，以系统评估我们的度量。实验表明，ConflictScore能有效检测跨领域的过度自信声明，并可作为纠正反馈机制，提升TruthfulQA上的真实性。

查看原文

查看缓存全文

缓存时间: 2026/06/26 05:15

# ConflictScore：识别与衡量语言模型如何处理冲突证据
来源：https://arxiv.org/abs/2606.26437
查看PDF (https://arxiv.org/pdf/2606.26437)

> **摘要：** 现有的事实性和忠实性指标仅评估答案是否被其基础文档支持或反驳，但无法捕捉支持与反驳证据并存的情况。我们提出了 ConflictScore，这是一种新颖的度量标准，能够量化模型对其基础文档中冲突证据的回应程度。我们的框架将回应分解为原子声明，将每个声明与每份基础文档进行标注，然后将这些标注聚合为两个互补的度量：ConflictScore-Count (CS-C)，即展示冲突的声明比例；以及 ConflictScore-Ratio (CS-R)，即支持与反驳证据之间的平衡程度。我们构建了 ConflictBench，这是一个涵盖歧义、矛盾、分歧意见等多种冲突形式的基准测试，用于系统评估我们的度量标准。实验表明，ConflictScore 能够有效检测各领域的过度自信声明，并可作为纠正性反馈机制，提升 TruthfulQA 上的真实性。

## 提交历史

来自：Siyi Liu [查看电子邮件 (https://arxiv.org/show-email/461de426/2606.26437)] **[v1]** 2026年6月24日星期三 23:00:09 UTC (459 KB)

ConflictScore: 识别与衡量语言模型如何处理矛盾证据

相似文章

一种更优的识别大语言模型过度自信的方法

当证据冲突时：检索增强生物医学问答中的不确定性与顺序效应

上下文-参数冲突的三种机制：预测框架与实证验证

从上下文感知到冲突感知：将对比解码推广到LLM中的知识冲突

SoCRATES: 迈向跨领域与社会认知变化的主动式LLM调解的可靠自动评估

提交意见反馈