当证据冲突时：检索增强生物医学问答中的不确定性与顺序效应

arXiv cs.CL 2026/05/15 04:00 论文

biomedicine retrieval-augmented llm uncertainty evidence-conflict robustness question-answering

摘要

本文在冲突证据条件下评估了六个开放权重的大语言模型在生物医学问答中的表现，揭示了准确率下降和预测翻转，并提出了一个冲突感知的弃权评分，提高了选择性准确率。

arXiv:2605.14115v1 公告类型：新摘要：生物医学检索增强的大语言模型（LLM）常常面临不完整、误导性或内部矛盾的证据，但评估通常侧重于在有帮助上下文下的答案准确性，而非冲突下的可靠性。利用HealthContradict，我们在五种受控证据条件下评估了六个开放权重的大语言模型：无检索上下文、仅正确上下文、仅错误上下文，以及两种包含正确和矛盾文档且顺序相反的混合条件。在这种冲突证据顺序对比中，同一份文档同时存在且仅顺序颠倒，每个模型的准确率均下降，11.4%–25.2%的预测发生翻转。为了支持这些困难情况下的弃权，我们还评估了一种冲突感知的弃权评分，该评分结合了模型置信度与证据冲突检测器。在两个最困难的条件下，该评分在仅置信度基础上提高了选择性准确率：在仅错误（'IC'）条件下，75%、50%和25%覆盖率的平均增益为7.2–33.4分；在错误优先冲突（'ICC'）条件下，增益为3.6–14.4分。这些结果表明，冲突的生物医学证据既是一个不确定性也是一个鲁棒性问题，并激励了明确考虑证据分歧的评估和弃权方法。

查看原文

查看缓存全文

缓存时间: 2026/05/15 06:19

# 当证据冲突：检索增强型生物医学问答中的不确定性与顺序效应
来源：https://arxiv.org/html/2605.14115
Yikun Han, Mengfei Lan, Halil Kilicoglu University of Illinois Urbana\-Champaign \{yikunh2, mlan3, halil\}@illinois\.edu

###### 摘要

生物医学检索增强型大语言模型（LLMs）经常面临不完整、具有误导性或内部矛盾的证据，然而评估通常侧重于有利上下文下的答案准确性，而非冲突情况下的可靠性。利用HealthContradict，我们在五种受控证据条件下评估了六个开放权重的LLM：无检索上下文、仅正确上下文、仅错误上下文，以及两种包含正确和矛盾文档但顺序相反的混合条件。在这种冲突证据的顺序对比中——相同两篇文档同时存在，仅顺序反转——每个模型的准确率均下降，11.4%–25.2%的预测结果发生翻转。为了支持在这些困难情况下的弃权，我们还评估了一种冲突感知的弃权分数，该分数结合了模型置信度与证据冲突检测器。在两个最困难的条件下，与仅基于置信度的方法相比，该分数在75%、50%和25%覆盖率下，提高了选择性准确率，在仅错误（'IC'）条件下平均提升7.2–33.4个百分点，在错误优先冲突（'ICC'）条件下平均提升3.6–14.4个百分点。这些结果表明，冲突的生物医学证据既是一个不确定性问题，也是一个鲁棒性问题，并激励了明确考虑证据差异的评估和弃权方法。¹¹¹源代码可在以下地址获取：https://github.com/YikunHan42/When_Evidence_Conflicts

当证据冲突：检索增强型生物医学问答中的不确定性与顺序效应

Yikun Han, Mengfei Lan, Halil Kilicoglu††thanks:通讯作者
伊利诺伊大学厄巴纳-香槟分校
\{yikunh2, mlan3, halil\}@illinois\.edu

## 1 引言

检索增强型LLM越来越多地用于生物医学问答（QA），其中期望回答基于检索到的证据，而非无依据的参数化回忆（Lewis et al., 2020 (https://arxiv.org/html/2605.14115#bib.bib1); Chen et al., 2024 (https://arxiv.org/html/2605.14115#bib.bib3); Xiong et al., 2024 (https://arxiv.org/html/2605.14115#bib.bib5)）。然而，检索到的证据并不总是可靠的：文档可能不完整、具有误导性或内部矛盾。在这种情况下，对检索增强型响应的不确定性估计至关重要。一个可靠的系统应该在证据不可信时降低置信度，并且应避免将所有上下文视为同等信息量。这一要求在生物医学领域尤为重要，因为决策可能直接影响患者结果和公共卫生，并且由于研究和患者群体的差异，证据冲突很常见。

当前的评估方法仅部分捕捉了模型在矛盾生物医学证据下的行为。大多数先前的工作侧重于检索证据下的答案准确性（Chen et al., 2024 (https://arxiv.org/html/2605.14115#bib.bib3); Xiong et al., 2024 (https://arxiv.org/html/2605.14115#bib.bib5); Singhal et al., 2023 (https://arxiv.org/html/2605.14115#bib.bib19); Sallinen et al., 2025 (https://arxiv.org/html/2605.14115#bib.bib13)），而非当检索上下文具有误导性或内部冲突时模型置信度的行为。先前研究表明，LLM对冲突知识和提示位置敏感（Longpre et al., 2021 (https://arxiv.org/html/2605.14115#bib.bib18); Liu et al., 2024 (https://arxiv.org/html/2605.14115#bib.bib4)），但尚不清楚这些不稳定性是否反映在生物医学QA的不确定性估计中。这在健康环境中尤其重要，因为冲突信息可能破坏决策和对建议的信任（Carpenter et al., 2016 (https://arxiv.org/html/2605.14115#bib.bib24)）。错误预测在高置信度下做出时尤其令人担忧，而当相同证据在不同顺序下产生不同答案和置信度时，则更令人担忧。

我们利用HealthContradict语料库研究冲突生物医学证据下的不确定性（Zhang et al., 2026 (https://arxiv.org/html/2605.14115#bib.bib17)）。图1 (https://arxiv.org/html/2605.14115#S1.F1)给出了基准结构的一个具体示例：一个生物医学问题配有一篇支持真实答案的检索文档和一篇与之矛盾的检索文档。

参见图注图 1：用于在引言中阐述基准结构的HealthContradict示例。显示的混合证据提示对应于'CIC'条件，其中问题首先与正确的检索文档配对，其次与矛盾的检索文档配对。利用六个开放权重的LLM，我们评估了五种受控检索上下文条件：无上下文（'NC'）、仅正确上下文（'CC'）、仅错误上下文（'IC'），以及两种包含相同两篇文档但顺序相反的混合条件，即正确优先冲突（'CIC'，正确文档后跟错误文档）和错误优先冲突（'ICC'，错误文档后跟正确文档）。这种设计能够对检索增强型QA中的上下文效应进行受控分解。它分离了（i）有利上下文的好处（'CC' vs. 'NC'），（ii）误导性上下文的危害（'IC' vs. 'NC'），以及（iii）冲突上下文下的顺序敏感交互效应（'CIC' vs. 'ICC'）。我们从准确率和校准角度评估性能，以及不确定性对上下文顺序的敏感性。

我们的主要贡献如下：

- • 扩展了Zhang等人（2026 (https://arxiv.org/html/2605.14115#bib.bib17)）的答案级分析，我们在更广泛的六个近期开放权重LLM上，对支持性、误导性和冲突性生物医学证据下的*不确定性*进行了受控评估。确认并量化了先前报道的方向，我们表明不确定性质量强烈依赖于证据正确性：正确的证据同时提高了准确率和校准，而错误的证据则急剧降低了两者，包括从'CC'到'IC'的平均ECE增加了七倍。
- • 我们通过比较'CIC'和'ICC'（两者包含相同的两篇文档但顺序相反）来量化冲突证据下的顺序效应。将Zhang等人（2026 (https://arxiv.org/html/2605.14115#bib.bib17)）的顺序效应分析扩展到更广泛的六个开放权重模型，我们发现，在整个模型集中，当正确文档首先出现时，准确率一致更高，并且反转顺序会在11.4%–25.2%的情况下改变预测，同时伴随不确定性变化。
- • 我们在最困难的设置中提出并评估了一种冲突感知的弃权分数，并表明仅凭原始模型置信度是不够的。在'IC'和'ICC'中，该分数在保留集上的选择性准确率持续优于仅基于置信度的基线。

## 2 相关工作

检索增强生成已成为知识密集型NLP任务的标准方法，近期工作已在通用和生物医学环境中审视了其优势和失败模式（Lewis et al., 2020 (https://arxiv.org/html/2605.14115#bib.bib1); Chen et al., 2024 (https://arxiv.org/html/2605.14115#bib.bib3); Xiong et al., 2024 (https://arxiv.org/html/2605.14115#bib.bib5)）。当有领域知识和检索证据支持时，生物医学LLM也显示出强大的任务性能（Singhal et al., 2023 (https://arxiv.org/html/2605.14115#bib.bib19); Sallinen et al., 2025 (https://arxiv.org/html/2605.14115#bib.bib13)）。这些文献为我们的研究提供了更广泛的背景。然而，其中大多数侧重于在有用检索下的答案质量，而非当检索噪声或矛盾时模型置信度的可靠性。

更接近我们的设置，先前关于QA中知识冲突的研究表明，当存储的知识和提供的证据不一致时，LLM可能很脆弱（Longpre et al., 2021 (https://arxiv.org/html/2605.14115#bib.bib18)）。更广泛地说，长上下文研究表明，模型行为强烈依赖于信息在提示中出现的位置，当相关证据未被放置在有利位置时，性能通常会下降（Liu et al., 2024 (https://arxiv.org/html/2605.14115#bib.bib4)）。近期工作还表明，LLM置信度在语义等价但提示敏感的输入变体下可能校准失误，表明可靠性可能依赖于提示形式以及含义（Cox et al., 2025 (https://arxiv.org/html/2605.14115#bib.bib23)）。HealthContradict尤其相关，因为它明确地基准测试了与正确和矛盾证据配对的生物医学问题（Zhang et al., 2026 (https://arxiv.org/html/2605.14115#bib.bib17)）。我们的工作建立在该基准的答案级冲突和位置分析之上，但将焦点转向不确定性、校准以及这些顺序效应对可靠性的影响。

我们的工作也与关于不确定性估计、校准和弃权的研究相联系。校准方法和指标旨在使置信度与经验正确性对齐（Naeini et al., 2015 (https://arxiv.org/html/2605.14115#bib.bib7); Guo et al., 2017 (https://arxiv.org/html/2605.14115#bib.bib6)），而近期关于LLM的工作研究模型概率或言语化置信度是否能反映模型知道和不知道的内容（Kadavath et al., 2022 (https://arxiv.org/html/2605.14115#bib.bib10); Kuhn et al., 2023 (https://arxiv.org/html/2605.14115#bib.bib21)）。选择性预测和弃权提供了一种额外的安全机制，允许系统对不确定情况进行延迟处理（Geifman and El-Yaniv, 2017 (https://arxiv.org/html/2605.14115#bib.bib8); Kamath et al., 2020 (https://arxiv.org/html/2605.14115#bib.bib20)）。与这些设置相比，我们在检索增强型生物医学任务中研究不确定性，其中正确和误导性证据可能同时出现，使得置信度质量和提示顺序鲁棒性成为核心评估目标，而非次要诊断指标。

## 3 方法

图2 (https://arxiv.org/html/2605.14115#S3.F2)总结了完整的评估流程，从配对证据结构和五种受控上下文条件，到受约束的YES/NO评分、条件级评估，以及冲突感知的选择性预测。

参见图注图 2：实验框架概述。(A) 输入示例结构：每个HealthContradict实例包含一个生物医学是否问题、一篇支持真实答案的正确证据文档和一篇相反的错误证据文档。(B) 受控检索上下文：每个实例被转换为五种评估条件：无上下文（'NC'）、仅正确（'CC'）、仅错误（'IC'）、正确优先冲突证据（'CIC'）和错误优先冲突证据（'ICC'）。(C) 共享的LLM评分流程：使用受约束的YES/NO下一词元评分评估六个开放权重LLM，从中导出置信度、熵和logit边际。(D) 条件级评估：模型输出用于衡量预测性能（准确率、AUROC）、校准误差（ECE、Brier）以及冲突证据下的顺序效应。(E) 冲突感知的选择性预测：置信度、熵、logit边际、问题嵌入和文档嵌入被输入一个条件内逻辑冲突检测器，其输出的冲突分数与原始置信度结合，以支持预测与弃权的决策。### 3.1 HealthContradict基准与证据条件

我们在HealthContradict（Zhang et al., 2026 (https://arxiv.org/html/2605.14115#bib.bib17)）上进行评估，这是一个旨在测试模型在支持性和矛盾证据下行为的生物医学QA基准。我们使用发布的完整基准，其中包含920个是否健康问题。每个实例包括一个问题、一个真实答案和两篇立场相反的检索文档：一篇支持真实答案，另一篇与之矛盾。如Zhang等人（2026 (https://arxiv.org/html/2605.14115#bib.bib17)）所述，问题来源于TREC健康错误信息赛道（2019、2021、2022），配对证据文档选自相应的TREC文档池（2019年的ClueWeb12-B13和2021/2022年的C4网络爬取），并由NIST评估员标注。由于这些是经相关性和可信度判断的通用网页，而非精选的生物医学文献，检索到的证据通常使用非正式、面向消费者的散文；图1 (https://arxiv.org/html/2605.14115#S1.F1)中显示的示例反映了这一来源。

遵循基准设计及我们的评估设置，我们评估五种上下文条件。'NC'不提供检索证据，仅测试模型的参数知识。'CC'仅提供正确文档。'IC'仅提供错误文档。'CIC'同时呈现两篇文档，正确文档在前，错误文档在后；而'ICC'则反转顺序。这些条件使我们能够分离三种效应：有益证据的好处（'CC' vs. 'NC'）、误导性证据的影响（'IC'），以及模型预测和置信度对冲突证据顺序的敏感性（'CIC' vs. 'ICC'）。附录7 (https://arxiv.org/html/2605.14115#A1.T7)给出了相应的原始提示模板。

### 3.2 模型

我们评估六个开放权重的因果LLM：Llama-3.1-8B-Instruct (Grattafiori et al., 2024 (https://arxiv.org/html/2605.14115#bib.bib12)), Meditron3-8B (Sallinen et al., 2025 (https://arxiv.org/html/2605.14115#bib.bib13)), Phi-4 (Abdin et al., 2024 (https://arxiv.org/html/2605.14115#bib.bib14)), Qwen3-4B-Instruct-2507 和 Qwen3-8B (Yang et al., 2025 (https://arxiv.org/html/2605.14115#bib.bib15)), 以及 Qwen3.5-9B (Qwen Team, 2026 (https://arxiv.org/html/2605.14115#bib.bib16))。这组模型涵盖了从4B到14B参数的规模，包括通用检查点和一个医学适应模型Meditron3-8B。

所有模型均使用相同的提示格式和受限答案空间进行评估。遵循Zhang等人（2026 (https://arxiv.org/html/2605.14115#bib.bib17)），由于HealthContradict是一个是否QA基准，我们仅对二元标签集\{YES, NO\}进行评分，而非允许自由形式生成。对于暴露聊天模板的分词器，我们在推理前将每个提示包装为用户消息。预测随后根据YES和NO的下一词元logits得出。五个提示模板直接对应于Zhang等人（2026 (https://arxiv.org/html/2605.14115#bib.bib17)）引入的模板；附录A (https://arxiv.org/html/2605.14115#A1)给出了原始提示模板以及少量模型特定的聊天模板覆盖。

### 3.3 指标

我们分别报告每个证据条件下的准确率。对于提示xx，我们将下一词元logits z_yes(x) 和 z_no(x) 通过仅针对\{YES, NO\}的softmax转换为受约束的二元概率，得到 p_yes(x) 和 p_no(x) = 1 - p_yes(x)。从这些受约束概率中，我们为每个预测导出三个不确定性信号：置信度，定义为 max(p_yes, p_no)；二元熵，计算为

当证据冲突时：检索增强生物医学问答中的不确定性与顺序效应

相似文章

BELIEF：面向生物医学问答的结构化证据建模与不确定性感知融合

面向非常规求解器的检索增强问答中的QUBO优化证据选择

ClinicalBench：对 MIMIC-IV 跨入院临床问答中基于断言感知的检索进行压力测试

更健康的LLMs：面向公共卫生问答的检索增强生成

EHRNote-ChatQA：基于证据的长篇出院小结多轮临床问答基准

提交意见反馈