ConflictScore: 识别与衡量语言模型如何处理矛盾证据

arXiv cs.CL 论文

摘要

ConflictScore是一种新度量,用于量化语言模型在面对其基础文档中的矛盾证据时的识别能力,它将响应分解为原子声明并衡量矛盾平衡。论文还引入了ConflictBench,这是一个涵盖多种矛盾形式的基准测试,并展示了该度量可以提高TruthfulQA上的真实性。

arXiv:2606.26437v1 公告类型:新 摘要:现有的事实性和忠实度度量方法评估答案是否被其基础文档支持或反驳,但无法捕捉支持和反驳证据并存的情况。我们引入ConflictScore,这是一种新型度量,用于量化模型响应在其基础文档中识别矛盾证据的能力。我们的框架将响应分解为原子声明,对每个声明针对每个基础文档进行标注,然后将这些标注聚合为两个互补指标:ConflictScore-Count (CS-C),即存在矛盾的声明比例;以及ConflictScore-Ratio (CS-R),即支持与反驳证据之间的平衡。我们开发了ConflictBench,这是一个覆盖多种矛盾形式(如歧义、矛盾、观点分歧)的基准测试,以系统评估我们的度量。实验表明,ConflictScore能有效检测跨领域的过度自信声明,并可作为纠正反馈机制,提升TruthfulQA上的真实性。
查看原文
查看缓存全文

缓存时间: 2026/06/26 05:15

# ConflictScore:识别与衡量语言模型如何处理冲突证据
来源:https://arxiv.org/abs/2606.26437
查看PDF (https://arxiv.org/pdf/2606.26437)

> **摘要:** 现有的事实性和忠实性指标仅评估答案是否被其基础文档支持或反驳,但无法捕捉支持与反驳证据并存的情况。我们提出了 ConflictScore,这是一种新颖的度量标准,能够量化模型对其基础文档中冲突证据的回应程度。我们的框架将回应分解为原子声明,将每个声明与每份基础文档进行标注,然后将这些标注聚合为两个互补的度量:ConflictScore-Count (CS-C),即展示冲突的声明比例;以及 ConflictScore-Ratio (CS-R),即支持与反驳证据之间的平衡程度。我们构建了 ConflictBench,这是一个涵盖歧义、矛盾、分歧意见等多种冲突形式的基准测试,用于系统评估我们的度量标准。实验表明,ConflictScore 能够有效检测各领域的过度自信声明,并可作为纠正性反馈机制,提升 TruthfulQA 上的真实性。

## 提交历史

来自:Siyi Liu [查看电子邮件 (https://arxiv.org/show-email/461de426/2606.26437)] **[v1]** 2026年6月24日星期三 23:00:09 UTC (459 KB)

相似文章

一种更优的识别大语言模型过度自信的方法

MIT News — Artificial Intelligence

MIT研究人员开发了一种新方法,通过衡量相似模型间的跨模型分歧来识别过度自信的LLM,而非仅依赖自洽性指标。该方法能更好地捕捉认知不确定性,并在高风险应用中更准确地识别出不可靠的预测。

上下文-参数冲突的三种机制:预测框架与实证验证

arXiv cs.CL

本文提出了一个三机制框架,以解决大型语言模型(LLM)在处理训练知识与新文档之间冲突时出现的实证矛盾,并在五大主流模型上进行了验证。该框架区分了参数强度与参数唯一性,并展示了任务框架和证据连贯性如何显著影响模型行为。