BELIEF：面向生物医学问答的结构化证据建模与不确定性感知融合

arXiv cs.CL 2026/05/19 04:00 论文

摘要

BELIEF是一个面向生物医学问答的结构化证据建模与不确定性感知融合框架，它将检索到的文档转化为证据对象，并结合符号化Dempster-Shafer推理与基于LLM的推理。在PubMedQA、MedQA和MedMCQA上的实验表明，BELIEF在大多数设置下取得了最先进的结果。

arXiv:2605.17435v1 公告类型：新论文摘要：生物医学问答通常需要从检索到的文献中做出决策，而这些文献的相关性、质量以及对候选答案的支持程度参差不齐。大多数检索增强的大语言模型（LLM）方法将这些文献作为纯文本输入模型，使得证据可靠性和剩余不确定性在很大程度上隐含其中。我们提出BELIEF，一种面向封闭集生物医学问答的结构化证据建模与不确定性感知融合框架。BELIEF并不将检索到的文档视为无差别的上下文，而是将其转化为证据对象，记录临床属性、来源质量、问题相关性、支持强度及相关候选假设。这些证据对象为两条互补的推理路径提供了共享基础。符号路径在有限答案空间上基于Dempster–Shafer（D–S）理论构建可靠性加权的基本概率分配，并执行不确定性感知的符号证据融合，以估计信念与剩余不确定性。神经路径利用相同的结构化证据进行基于LLM的语义推理，同时一个可靠性感知的仲裁模块根据信念强度、不确定性、证据可靠性和语义一致性来协调符号与神经输出。在PubMedQA、MedQA和MedMCQA上使用五个通用LLM骨干网络的实验表明，在30个骨干网络-数据集-度量设置中，BELIEF在25个中取得了最佳结果。与生物医学领域模型的比较表明，BELIEF在MedQA和MedMCQA上具有竞争力，而专门的生物医学预训练在PubMedQA上仍具优势。消融、互补性、不确定性分层及成本分析进一步表明，BELIEF通过使证据结构、路径分歧和决策不确定性显式化，提高了检索到的证据的利用效率。

查看原文

查看缓存全文

缓存时间: 2026/05/19 06:40

# BELIEF：面向生物医学问答的结构化证据建模与不确定性感知融合 来源：https://arxiv.org/html/2605.17435

Chang Zong[![[未标注图片]](https://arxiv.org/html/2605.17435v1/Fig_orcid_icon.png)](https://orcid.org/0000-0001-7757-0659)，Hao Ning[![[未标注图片]](https://arxiv.org/html/2605.17435v1/Fig_orcid_icon.png)](https://orcid.org/0009-0001-2041-1267)，Siliang Tang[![[未标注图片]](https://arxiv.org/html/2605.17435v1/Fig_orcid_icon.png)](https://orcid.org/0000-0002-7356-9711)，Jie Huang[![[未标注图片]](https://arxiv.org/html/2605.17435v1/Fig_orcid_icon.png)](https://orcid.org/0000-0001-9717-8355)，Jian Wan[![[未标注图片]](https://arxiv.org/html/2605.17435v1/Fig_orcid_icon.png)](https://orcid.org/0000-0001-9882-3029)

Chang Zong、Hao Ning和Jie Huang任职于浙江科技大学计算机科学与技术学院，杭州310023。Siliang Tang任职于浙江大学人工智能学院，杭州310027。Jian Wan任职于浙江科技大学浙江省生物医学智能计算技术重点实验室，杭州310023。通讯作者：Hao Ning（电子邮件：[email protected]）。

###### 摘要

生物医学问答通常需要根据检索到的文献做出决策，而这些文献在相关性、质量以及对候选答案的支持程度上参差不齐。大多数检索增强型大语言模型（LLM）方法将这些文献作为平铺文本输入模型，使得证据可靠性和剩余不确定性在很大程度上隐含不清。我们提出BELIEF，一个面向封闭式生物医学问答的结构化证据建模与不确定性感知融合框架。与将检索到的文档视为无差别上下文不同，BELIEF将其转换为证据对象，记录临床属性、来源质量、问题相关性、支持强度以及相关的候选假设。这些证据对象为两条互补的推理路径提供了共享基础。符号路径基于Dempster–Shafer（D-S）理论，在有限答案空间上构建可靠性加权的基本概率分配，并执行不确定性感知的符号证据融合，以估计信念和剩余不确定性。神经路径利用相同的结构化证据进行基于LLM的语义推理，同时，一个可靠性感知的仲裁模块根据信念强度、不确定性、证据可靠性和语义一致性来协调符号路径和神经路径的输出。在PubMedQA、MedQA和MedMCQA上，使用五个通用LLM骨干网络的实验表明，BELIEF在30个骨干网络-数据集-指标设置中的25个中取得了最佳结果。与生物医学领域模型的比较表明，BELIEF在MedQA和MedMCQA上具有竞争力，而在PubMedQA上，专门的生物医学预训练仍然具有优势。消融分析、互补性分析、不确定性分层分析和成本分析进一步表明，BELIEF通过显式化证据结构、路径分歧和决策不确定性，提高了检索证据的利用率。

## I. 引言

大型语言模型（LLM）的最新进展显著提升了问答（QA）的性能，尤其是在结合检索增强生成（RAG）技术后[3 (https://arxiv.org/html/2605.17435#bib.bib1),41 (https://arxiv.org/html/2605.17435#bib.bib2),21 (https://arxiv.org/html/2605.17435#bib.bib10)]。通过将响应基于外部生物医学证据，基于RAG的方法可以提高事实一致性[8 (https://arxiv.org/html/2605.17435#bib.bib14),2 (https://arxiv.org/html/2605.17435#bib.bib16)]。然而，现有的大多数基于LLM的检索和推理方法仍将检索到的证据视为平铺文本上下文，并依赖隐式的神经聚合，这使得很难显式地建模证据可靠性、剩余不确定性以及候选决策的多证据支持。这一限制在生物医学问答中尤其重要。从循证医学（EBM）[33 (https://arxiv.org/html/2605.17435#bib.bib3),11 (https://arxiv.org/html/2605.17435#bib.bib4)]的角度来看，生物医学决策需要评估证据质量、相关性、研究特征和不确定性，而不仅仅是检索主题相关的文档。当检索到的证据不完整、异质或基础薄弱时，平铺上下文的聚合可能导致不稳定或过度自信的预测[18 (https://arxiv.org/html/2605.17435#bib.bib7),12 (https://arxiv.org/html/2605.17435#bib.bib35),46 (https://arxiv.org/html/2605.17435#bib.bib50)]。因此，生物医学问答可以被重新表述为一个结构化的证据到决策问题，其中非结构化的文献被转换为可比较的证据对象，可靠性和支持被量化，并暴露出不确定性感知的决策信号。

参照图注
Figure 1: 传统的RAG将检索到的证据视为平铺上下文，而BELIEF则结构化证据并暴露可靠性和不确定性信号。

一个有希望的方向是将符号证据推理与神经语义推理整合在一个统一的框架中。[37 (https://arxiv.org/html/2605.17435#bib.bib45),45 (https://arxiv.org/html/2605.17435#bib.bib46)] 符号推理为证据聚合、可靠性估计和不确定性建模提供了显式机制，而基于神经LLM的推理则捕捉语义关系和上下文生物医学知识。Dempster–Shafer（D-S）理论[6 (https://arxiv.org/html/2605.17435#bib.bib17),36 (https://arxiv.org/html/2605.17435#bib.bib18)]与这一目标高度契合，因为它支持可靠性感知的证据组合，并表示对假设的信念和剩余不确定性。然而，直接将D-S融合与基于LLM的推理耦合起来仍然具有挑战性，因为检索到的生物医学证据首先必须转换为可计算的mass分配，并且符号路径和神经路径产生不同类型的推理信号。这促使了本文的核心研究问题：如何将原则性的符号证据推理与LLM的灵活语义推理能力相结合，以支持基于证据且不确定性感知的生物医学问答？为了回答这个问题，我们将生物医学问答重新表述为一个在不确定性下由证据驱动的决策问题，其中结构化证据聚合和神经语义推理被联合建模和协调。这一重新表述引入了两个关键的技术挑战。

**挑战一：面向神经符号推理的结构化证据表示。** 检索到的生物医学文献是非结构化的，不能直接用于定量证据融合。因此，必须将其转换为结构化、可比较且可计算的证据表示，保留临床上有意义的属性，如研究设计、相关性、支持强度和假设关联[40 (https://arxiv.org/html/2605.17435#bib.bib47)]。

**挑战二：互补推理信号的可靠整合。** 符号D-S聚合和神经LLM推理可能产生不同的预测，因为它们依赖于不同的证据表示和推理机制。因此，最终决策需要一个整合机制，能够判断何时信任符号信念信号，何时更多地依赖神经语义推理。

为了解决这些挑战，我们提出了BELIEF（面向不确定性感知证据融合的生物医学证据建模），一个用于基于证据的生物医学问答的结构化证据建模与不确定性感知融合框架，如图1 (https://arxiv.org/html/2605.17435#S1.F1)所示。BELIEF显式地整合了两条互补的推理路径。首先，它构建了以EBM原则为指导的结构化证据表示，包括基于PICO的查询抽象和证据级别属性（如研究设计和相关性），从而将异质的生物医学文献转换为可计算的证据对象。其次，基于结构化证据，符号D-S路径执行可靠性加权证据融合以估计信念和剩余不确定性，而神经LLM路径则对相同证据进行语义推理。最后，一个可靠性感知的仲裁模块通过考虑符号信念、剩余不确定性和语义一致性来整合符号推理和神经推理的输出。在PubMedQA、MedQA和MedMCQA上的实验和诊断分析表明，BELIEF在多个骨干网络下提高了检索证据的利用率，并在高不确定性组中相对于Naive RAG取得了更大的增益。

总之，本文的主要贡献有四个方面：

*   我们将封闭式生物医学问答表述为不确定性下的结构化证据到决策问题，其中异质的检索文献被表示为有限答案空间上的可靠性加权证据，使证据可靠性和剩余不确定性变得显式。
*   我们开发了一个结构化证据建模方案，将非结构化生物医学文献转换为具有临床属性、来源质量、相关性、支持强度和假设关联的证据对象，为符号D-S融合和神经语义推理提供了共享的可计算基础。
*   我们提出了一种不确定性感知融合机制，从结构化证据中导出D-S基本概率分配，估计信念和剩余不确定性，并通过可靠性感知仲裁将其与基于LLM的语义推理整合，从而更鲁棒地使用互补推理信号。
*   我们在PubMedQA、MedQA和MedMCQA上，使用多个LLM骨干网络进行了实验，结合消融和诊断分析表明，BELIEF持续提高了检索证据的利用率，并在异质和不确定的证据条件下实现了强劲的性能。

## II. 相关工作

### II-A 生物医学问答与检索增强型LLM

生物医学问答已成为评估语言模型在医学领域的知识和推理能力的重要基准[17 (https://arxiv.org/html/2605.17435#bib.bib20)]。诸如PubMedQA[16 (https://arxiv.org/html/2605.17435#bib.bib22)]、MedQA[15 (https://arxiv.org/html/2605.17435#bib.bib32)]和MedMCQA[30 (https://arxiv.org/html/2605.17435#bib.bib21)]等数据集涵盖了基于文献的是/否/可能决策、专业医学考试问题和大规模多项选择题临床推理。最近的生物医学LLM，包括BioMistral[19 (https://arxiv.org/html/2605.17435#bib.bib8)]、MEDITRON[5 (https://arxiv.org/html/2605.17435#bib.bib9)]和Med-PaLM[39 (https://arxiv.org/html/2605.17435#bib.bib34)]，通过预训练、指令微调或对齐增强了领域特定知识。检索增强生成（RAG）通过将外部证据纳入生成过程进一步增强了事实基础[21 (https://arxiv.org/html/2605.17435#bib.bib10),8 (https://arxiv.org/html/2605.17435#bib.bib14),7 (https://arxiv.org/html/2605.17435#bib.bib13)]。诸如Self-RAG[2 (https://arxiv.org/html/2605.17435#bib.bib16)]、RAT[43 (https://arxiv.org/html/2605.17435#bib.bib15)]和CRAG[47 (https://arxiv.org/html/2605.17435#bib.bib44)]等变体引入了反思、迭代推理或纠正机制。最近的扩展通过多路径优化或全局规划策略进一步优化LLM推理，这些策略将问题分解为原子检索任务[24 (https://arxiv.org/html/2605.17435#bib.bib48),23 (https://arxiv.org/html/2605.17435#bib.bib49)]。然而，这些方法通常将检索到的证据作为文本上下文，并未显式表示证据可靠性或关于候选假设的剩余不确定性。

### II-B 结构化证据建模与循证医学

循证医学强调，除了文本证据内容外，临床决策还应考虑研究设计、证据质量、人群相关性和结果一致性[33 (https://arxiv.org/html/2605.17435#bib.bib3),11 (https://arxiv.org/html/2605.17435#bib.bib4),29 (https://arxiv.org/html/2605.17435#bib.bib42)]。诸如PICO和PICOS等结构化表示根据人群、干预、比较、结局和研究设计来组织临床问题和证据[32 (https://arxiv.org/html/2605.17435#bib.bib11),27 (https://arxiv.org/html/2605.17435#bib.bib5),13 (https://arxiv.org/html/2605.17435#bib.bib30)]。先前的NLP和生物医学信息学研究表明，可以从医学文献中提取PICO风格的结构、试验特征、偏倚风险信号和关键发现，用于证据综合[27 (https://arxiv.org/html/2605.17435#bib.bib5),20 (https://arxiv.org/html/2605.17435#bib.bib6),25 (https://arxiv.org/html/2605.17435#bib.bib40),26 (https://arxiv.org/html/2605.17435#bib.bib39)]。基于案例的推理（CBR）框架也通过检索和适应相似的历史患者案例来支持临床透明度，以证明建议的合理性[31 (https://arxiv.org/html/2605.17435#bib.bib41)]。这些研究证明了将非结构化生物医学文献转换为结构化证据表示的可行性。然而，大多数基于LLM的问答系统仍然主要将检索到的证据用作平铺文本上下文，并未将证据质量、相关性、支持强度和假设关联转换为可用于下游推理的可计算信号。BELIEF通过将检索到的文档视为结构化证据对象来解决这一差距，这些对象的临床有意义的属性在进行不确定性感知融合和仲裁之前被显式建模。

### II-C 不确定性感知证据融合与神经符号推理

在可靠性不同且支持不完整的异质证据下进行决策时，不确定性建模至关重要。D-S理论已被广泛用于证据组合和多源不确定性建模[36 (https://arxiv.org/html/2605.17435#bib.bib18),35 (https://arxiv.org/html/2605.17435#bib.bib36),22 (https://arxiv.org/html/2605.17435#bib.bib19)]，但传统的D-S融合通常假设证据源已被转换为结构化的mass函数。这限制了其对检索增强问答的直接适用性，因为证据是以带有噪声的非结构化文本形式检索的。神经符号推理旨在结合神经模型的灵活性与符号推理的可解释性和可控性[10 (https://arxiv.org/html/2605.17435#bib.bib12),9 (https://arxiv.org/html/2605.17435#bib.bib31)]。对于问答，符号或知识增强组件可以提供结构化约束或中间推理状态，而LLM贡献语义理解和基于语言的推理。最近的基于LLM的推理方法还利用思维链提示、自一致性和工具增强推理[44 (https://arxiv.org/html/2605.17435#bib.bib37),42 (https://arxiv.org/html/2605.17435#bib.bib38),38 (https://arxiv.org/html/2605.17435#bib.bib33)]。尽管有这些进展，许多方法仍依赖隐式的证据聚合，很少暴露可在最终决策仲裁中检查或使用的显式可靠性和不确定性信号。BELIEF通过从结构化生物医学证据中导出可靠性加权的基本概率分配，并将符号证据融合与基于相同证据表示的LLM语义推理耦合起来，弥合了这些差距。

综合来看，这些工作留

BELIEF：面向生物医学问答的结构化证据建模与不确定性感知融合

相似文章

当证据冲突时：检索增强生物医学问答中的不确定性与顺序效应

ClinicalBench：对 MIMIC-IV 跨入院临床问答中基于断言感知的检索进行压力测试

基于可能性结构的证据信息融合

信念记忆：部分可观测性下的智能体记忆

CiteVQA: 面向可信文档智能的证据归因基准测试

提交意见反馈