ConflictScore: 识别与衡量语言模型如何处理矛盾证据
摘要
ConflictScore是一种新度量,用于量化语言模型在面对其基础文档中的矛盾证据时的识别能力,它将响应分解为原子声明并衡量矛盾平衡。论文还引入了ConflictBench,这是一个涵盖多种矛盾形式的基准测试,并展示了该度量可以提高TruthfulQA上的真实性。
arXiv:2606.26437v1 公告类型:新
摘要:现有的事实性和忠实度度量方法评估答案是否被其基础文档支持或反驳,但无法捕捉支持和反驳证据并存的情况。我们引入ConflictScore,这是一种新型度量,用于量化模型响应在其基础文档中识别矛盾证据的能力。我们的框架将响应分解为原子声明,对每个声明针对每个基础文档进行标注,然后将这些标注聚合为两个互补指标:ConflictScore-Count (CS-C),即存在矛盾的声明比例;以及ConflictScore-Ratio (CS-R),即支持与反驳证据之间的平衡。我们开发了ConflictBench,这是一个覆盖多种矛盾形式(如歧义、矛盾、观点分歧)的基准测试,以系统评估我们的度量。实验表明,ConflictScore能有效检测跨领域的过度自信声明,并可作为纠正反馈机制,提升TruthfulQA上的真实性。
查看缓存全文
缓存时间: 2026/06/26 05:15
# ConflictScore:识别与衡量语言模型如何处理冲突证据 来源:https://arxiv.org/abs/2606.26437 查看PDF (https://arxiv.org/pdf/2606.26437) > **摘要:** 现有的事实性和忠实性指标仅评估答案是否被其基础文档支持或反驳,但无法捕捉支持与反驳证据并存的情况。我们提出了 ConflictScore,这是一种新颖的度量标准,能够量化模型对其基础文档中冲突证据的回应程度。我们的框架将回应分解为原子声明,将每个声明与每份基础文档进行标注,然后将这些标注聚合为两个互补的度量:ConflictScore-Count (CS-C),即展示冲突的声明比例;以及 ConflictScore-Ratio (CS-R),即支持与反驳证据之间的平衡程度。我们构建了 ConflictBench,这是一个涵盖歧义、矛盾、分歧意见等多种冲突形式的基准测试,用于系统评估我们的度量标准。实验表明,ConflictScore 能够有效检测各领域的过度自信声明,并可作为纠正性反馈机制,提升 TruthfulQA 上的真实性。 ## 提交历史 来自:Siyi Liu [查看电子邮件 (https://arxiv.org/show-email/461de426/2606.26437)] **[v1]** 2026年6月24日星期三 23:00:09 UTC (459 KB)
相似文章
一种更优的识别大语言模型过度自信的方法
MIT研究人员开发了一种新方法,通过衡量相似模型间的跨模型分歧来识别过度自信的LLM,而非仅依赖自洽性指标。该方法能更好地捕捉认知不确定性,并在高风险应用中更准确地识别出不可靠的预测。
当证据冲突时:检索增强生物医学问答中的不确定性与顺序效应
本文在冲突证据条件下评估了六个开放权重的大语言模型在生物医学问答中的表现,揭示了准确率下降和预测翻转,并提出了一个冲突感知的弃权评分,提高了选择性准确率。
上下文-参数冲突的三种机制:预测框架与实证验证
本文提出了一个三机制框架,以解决大型语言模型(LLM)在处理训练知识与新文档之间冲突时出现的实证矛盾,并在五大主流模型上进行了验证。该框架区分了参数强度与参数唯一性,并展示了任务框架和证据连贯性如何显著影响模型行为。
从上下文感知到冲突感知:将对比解码推广到LLM中的知识冲突
该论文将对比解码推广到一种冲突感知范式,该范式在外部上下文和参数先验之间动态分配权威,提出了TriState-Bench评估协议,并引入了自适应机制路由(ARR)来解决修正与抵抗之间的不对称性。
SoCRATES: 迈向跨领域与社会认知变化的主动式LLM调解的可靠自动评估
SoCRATES提出了一个真实的多领域基准,用于评估主动式LLM调解器,显示顶尖模型在冲突解决中仅能弥合约三分之一的共识差距。