相同问题,不同来源,不同答案:医疗多源RAG系统中的来源依赖性审计

arXiv cs.CL 论文

摘要

本文提出了一个用于审计医疗多源RAG系统中来源依赖性的框架,发布了TransplantQA基准、HERO-QA检索策略以及一个结构化输出裁判,用于衡量跨来源答案关系。研究表明,更好的检索揭示出比先前估计更多的分歧,并主张将NLP评估从答案正确性转向跨来源关系分析。

arXiv:2605.29084v1 声明类型:新 摘要:部署在多作者机构语料库上的检索增强生成(RAG)系统,根据检索到的不同来源可能对同一问题给出不同的答案——这种失败模式是占主导地位的单一黄金答案范式无法诊断的。我们认为来源依赖性是NLP评估中缺失的一个维度,对其进行审计意味着将评估单位从答案正确性转向跨来源关系。我们在移植患者教育中具体实现了这一方法,其中机构来源明显存在分歧,并发布了三个成果:TransplantQA,一个真实患者问题基准,每个问题通过将生成基于多个机构手册作为候选来源来回答;HERO-QA,一种层次化检索策略,用于对每个答案进行基础化和审计;以及一个结构化输出裁判,根据经过验证的五标签分类法对跨来源关系进行评分。在规模上,更好的检索揭示出的分歧远多于先前估计所暗示的——低估了其普遍性,而非强度。该框架是领域无关的,并可迁移到法律和教育RAG系统:衡量来源依赖性通常是已部署的多来源NLP系统的一项责任。
查看原文
查看缓存全文

缓存时间: 2026/05/29 09:15

# 同一问题,不同来源,不同答案:审计医学多源RAG中的源依赖性  
来源:https://arxiv.org/html/2605.29084  
Yubo Li, Rema Padman, Ramayya Krishnan  
卡内基梅隆大学  
\{yubol, rpadman, rk2x\}@andrew\.cmu\.edu  

###### 摘要  

部署在多作者机构语料库上的检索增强生成(RAG)系统,可能因检索到的来源不同而对同一问题给出不同答案——这是占主导地位的单一标准答案范式无法诊断的一种失效模式。我们认为*源依赖性*是NLP评估中缺失的一个维度,对其进行审计意味着将评估单位从答案正确性转向*源间关系*。我们以移植患者教育为案例具体展示了这一点——机构来源之间存在明显分歧——并发布了三项成果:**TransplantQA**,一个由真实患者问题构成的基准,每个问题通过将生成过程基于多个机构手册作为候选来源来回答;**HERO-QA**,一种分层检索策略,用于对每个答案进行基座化并对源间关系进行审计;以及一个结构化输出评判器,用经过验证的5标签分类法对源间关系进行评分。大规模实验表明,更好的检索揭示了比先前估计多得多的分歧——低估了其*普遍性*,而非*强度*。该框架与领域无关,可迁移至法律和教育领域的RAG:衡量源依赖性通常是部署多源NLP的一项责任。

**同一问题,不同来源,不同答案:审计医学多源RAG中的源依赖性**  
Yubo Li, Rema Padman, Ramayya Krishnan  
卡内基梅隆大学  
\{yubol, rpadman, rk2x\}@andrew\.cmu\.edu  

## 1 引言  

一位心脏移植术后三个月的患者向机构问答系统输入一个问题:*“我什么时候可以再次国际旅行?”*¹¹¹改编自我们基准中包含的一个真实移植论坛患者帖子。  
系统背后的RAG流水线从执行手术的机构的患者教育手册中检索段落。答案被基座化、引用,并自信地给出。如果同样的查询基于同行机构的手册,推荐的等待时间可能是三个月、六个月或十二个月——同样自信和流畅,且没有提示该指南是机构特定的而非通用的。这种*源间异质性*在医学RAG中普遍存在。面向患者的机构文件反映了局部规程、编辑选择和数十年积累的风险管理谨慎态度;它们不可互换。然而,占主导地位的医学问答基准——MedQA (Jin等,2021 (https://arxiv.org/html/2605.29084#bib.bib1))、MedMCQA (Pal等,2022 (https://arxiv.org/html/2605.29084#bib.bib2))、PubMedQA (Jin等,2019 (https://arxiv.org/html/2605.29084#bib.bib3))、BioASQ (Tsatsaronis等,2015 (https://arxiv.org/html/2605.29084#bib.bib4))——假设每个问题有一个正确答案,无法诊断患者看到的答案是否依赖于检索器碰巧返回的文档。  

我们认为这暴露了NLP评估中缺失的一个维度。随着RAG成为部署在多作者机构语料库上的基础设施——在医学领域,同样在法律和教育领域——该领域需要衡量*源依赖性*:用户收到的答案是否依赖于检索器碰巧返回的来源。我们将其定位为评估研究的一项新使命,并通过将分析单位从单答案正确性转向*源间关系*来操作化:对于同一问题,当生成器基于文档A和文档B时,其产生的答案之间的结构化关系是什么?本文以移植患者教育为案例研究(其中机构来源明显存在分歧)对这一转变做出四项贡献。  

1. 1. **评估范式论证**(§1 (https://arxiv.org/html/2605.29084#S1), §7 (https://arxiv.org/html/2605.29084#S7)):单标准答案范式无法诊断源依赖性——这是部署中多源RAG的主要失效模式;弥补这一差距需要评估源间关系,而非改进单标准基准。  
2. 2. **TransplantQA**(§3 (https://arxiv.org/html/2605.29084#S3)):一个操作化这一转变的基准——1,115个真实患者问题,每个问题通过将生成基于102本移植患者教育手册(候选来源)来回答,这些手册来自23个美国中心,涵盖五种器官类型,分为*通用*子集(每本手册都回答)和*器官特化*子集,从而支持全语料库和分层源间比较。  
3. 3. **HERO-QA**(§4.2 (https://arxiv.org/html/2605.29084#S4.SS2)):一种用于基于手册的临床问答的分层证据检索与编排策略,对短手册使用全文上下文(消除检索遗漏失败),对较长手册使用带重排的章节感知分层检索,并带有明确的检索元数据用于基座审计。  
4. 4. **大规模实证刻画**(§6 (https://arxiv.org/html/2605.29084#S6)):基准上的一次生产运行的完整输出(48,056个基座答案,5,730,465个配对比较)已发布供重用。源间关系由结构化输出评判器(评估工具;§4.3 (https://arxiv.org/html/2605.29084#S4.SS3))测量,该评判器针对人类标注者验证,κ=0.842 (https://arxiv.org/html/2605.29084#S5)。我们的刻画也得出一个方法论观察:将参考运行与一个使用更低容量检索器的早期14B运行进行比较,平均手册缺失率下降13.6个百分点,而每对分歧基本不变(§6.4 (https://arxiv.org/html/2605.29084#S6.SS4))——先前估计低估了分歧的*普遍性*,而非*强度*。  

关键的是,该框架并非医学特有:法律RAG(在联邦/州/巡回判例上进行检索)和教育RAG(在州分层课程标准上进行检索)部署在同样类型的多源语料库上,并继承了同样的盲点,而这三个组件——多源基准、源间分类法、结构化输出评判器——可直接迁移到两者(§7 (https://arxiv.org/html/2605.29084#S7))。因此,衡量源依赖性广义上是部署中多源NLP的一项使命,而非医学领域的便利之举。  

## 2 相关工作  

#### 医学问答基准。  
医学问答评估将QA视为单最佳答案预测:MedQA (Jin等,2021 (https://arxiv.org/html/2605.29084#bib.bib1))、MedMCQA (Pal等,2022 (https://arxiv.org/html/2605.29084#bib.bib2))、PubMedQA (Jin等,2019 (https://arxiv.org/html/2605.29084#bib.bib3))和BioASQ (Tsatsaronis等,2015 (https://arxiv.org/html/2605.29084#bib.bib4)) 针对人工整理的标准答案进行评分,面向患者的扩展(Ben Abacha等,2017 (https://arxiv.org/html/2605.29084#bib.bib5); Zeng等,2020 (https://arxiv.org/html/2605.29084#bib.bib6); Singhal等,2023 (https://arxiv.org/html/2605.29084#bib.bib7))保留了单标准假设。TransplantQA则将以不同文档为基础的答案之间的*关系*作为分析单位;据我们所知,没有先前的医学问答基准在此规模上测试源间异质性。  

#### LLM作为评判器与跨文档不一致性。  
LLM作为评判器的协议(Zheng等,2023 (https://arxiv.org/html/2605.29084#bib.bib8); Zhu等,2025 (https://arxiv.org/html/2605.29084#bib.bib11); Kim等,2024 (https://arxiv.org/html/2605.29084#bib.bib10); Liu等,2023 (https://arxiv.org/html/2605.29084#bib.bib9))通常返回单一标量或标签;我们的评判器则同时输出叙述性元数据(分歧主题、临床显著性),从而在每对成本基本不变的情况下实现§6 (https://arxiv.org/html/2605.29084#S6)中的分类法和严重性分析。此外,通过NLI进行矛盾检测(Schuster等,2022 (https://arxiv.org/html/2605.29084#bib.bib12))、真实性分解(Min等,2023 (https://arxiv.org/html/2605.29084#bib.bib13))和RAG幻觉评估(Niu等,2024 (https://arxiv.org/html/2605.29084#bib.bib14))针对参考信号输出二进制信号;我们则将每个答案视为对其来源忠实,并询问两个来源*本身*是否一致,采用一个5标签分类法,揭示二进制视角所遗漏的互补/发散变体。  

#### 医学中的机构变异。  
Wennberg和Gittelsohn (1973 (https://arxiv.org/html/2605.29084#bib.bib15)) 记录了临床实践中无法用患者特征解释的小区域变异,开启了一个关于临床实践变异的长期文献。面向患者的教育材料是这种机构变异可见的外边界;TransplantQA提供了一个NLP可处理的手段来测量它。  

## 3 TransplantQA基准  

TransplantQA将来自美国移植中心的患者教育手册语料库与源自真实患者信息寻求行为的问题集配对,从而使针对任何基准问题的RAG系统答案都可以基于(并针对)多个合理的机构来源进行评估。与单标准医学问答基准不同,TransplantQA中的分析单位是基于不同文档的答案之间的源间*关系*。  

### 3.1 手册语料库  

我们从23个美国主要实体器官移植中心收集了102本患者教育手册,代表了按手术量排名的前20大项目中的16个。该语料库涵盖五种器官类型——心脏(26)、肺(26)、肾脏(22)、肝脏(17)和胰腺(11)——贡献机构分布在全美各地,包括大型学术医学中心和社区移植项目。所有文档均以PDF格式从机构网站和患者教育门户获取。  

中心组织患者教育的方式不同:有些为移植前阶段(评估、登记、等待)和移植后阶段(康复、药物、长期随访)提供独立文件,其他则发布单一综合手册。我们将每个阶段特定文档视为独立单元,得到37本移植前手册、39本移植后手册和26本综合手册。每个手册分配一个标识符,编码器官、机构和护理阶段(例如,heart_baylor_combined)。表1 (https://arxiv.org/html/2605.29084#S3.T1)总结了语料库。  

**表 1:** TransplantQA按器官划分的手册语料库。*中心数*是不同贡献机构的数量。  

### 3.2 问题集  

我们整理了1,115个患者问题,作为跨中心比较的评估集(图1 (https://arxiv.org/html/2605.29084#S3.F1))。问题*从真实的在线移植社区和平台中收集*——患者论坛和社交媒体(例如,Reddit移植子版块、Mayo Clinic Connect、Inspire)、患者倡导组织(National Kidney Foundation, American Liver Foundation)以及机构问答页面——使用移植和症状关键词搜索来发掘真实的信息需求。收集到的3,000多个候选问题随后经过(i)去重(余弦>0.85 (https://arxiv.org/html/2605.29084#S3.F1)加上人工审查),(ii)质量和相关性双重检查,以及(iii)*匿名化和改写*以去除用户识别内容并使每个问题自包含,最终发布1,115个问题(平均长度23.6词)。来源细分和纳入标准见附录A (https://arxiv.org/html/2605.29084#A1)。  

图1: TransplantQA构建。患者问题通过移植和症状关键词搜索从真实的在线移植社区和平台(患者论坛和社交媒体、患者倡导组织、机构问答)中收集,然后进行去重、质量/相关性检查,并匿名化和改写以移除用户识别信息——得到1,115个问题(311个通用问题,由每本手册回答 + 804个器官特有问题),与来自23个美国中心、涵盖五种器官类型的102本患者教育手册配对。  

每个问题都带有标注:(i)*器官类型标签*——心脏、肾脏、肝脏、肺、胰腺或*通用*;(ii)一个或多个来自13主题分类法(附录B (https://arxiv.org/html/2605.29084#A2))的临床主题类别;以及(iii)细粒度子主题标签(43个唯一值)。问题采用多标签以反映交叉关注点。  

#### 通用与器官特有问题划分。  
一个核心设计选择是将问题集划分为*通用*子集(311个问题,27.9%)和*器官特化*子集(804个问题,涵盖五种器官类型)。通用问题涉及对所有移植受者相关的主题——免疫抑制剂副作用、生殖健康、心理健康——并由语料库中*每本*手册回答,每个问题产生(102选择2)=5,151 (https://arxiv.org/html/2605.29084#S3.F1)个配对比较。器官特有问题仅由匹配器官类型的手册回答,每个问题产生(No选择2)个比较,其中No ∈ {11,17,22,26,26}。这两个子集共同支持全语料库和分层源间分析。  

### 3.3 匿名化与发布  

由于问题来自公共论坛和社交媒体,每个发布的问题都经过匿名化和改写,以删除原始帖子中的任何用户识别内容(附录A (https://arxiv.org/html/2605.29084#A1));发布的基准也使用匿名化手册标识符。手册ID中的中心名称予以保留,因为移植中心是公共机构,我们启用的分析明确是跨机构的。发布位置元数据为审阅而匿名化;计划发布的包包括基准、原始手册提取输出、问题标注和完整配对比较输出。原始PDF不重新分发,但通过URL列出供独立检索。附录C (https://arxiv.org/html/2605.29084#A3)提供了类似Datasheet的数据卡 (Gebru等,2021 (https://arxiv.org/html/2605.29084#bib.bib22))。  

## 4 流水线架构  

我们的流水线是一个三阶段过程,以基准问题集和手册语料库为输入,并为每个基准问题生成一个结构化的成对手册间关系矩阵。它在开放权重LLM上运行(我们的参考运行使用Qwen3-32B进行生成和评判),并设计为可在异构SLURM集群上恢复执行。本节的方法论核心是*HERO-QA*,即阶段2中使用的分层证据检索策略(§4.2 (https://arxiv.org/html/2605.29084#S4.SS2),图2 (https://arxiv.org/html/2605.29084#S4.F2));阶段3中的结构化成对评判器(§4.3 (https://arxiv.org/html/2605.29084#S4.SS3))是操作化源间评估的测量工具。  

### 4.1 阶段1:结构化提取  

原始PDF手册使用LlamaParse (LlamaIndex, 2024 (https://arxiv.org/html/2605.29084#bib.bib21))转换为结构化JSON,保留章节标题、段落边界和页面元数据。每本手册的输出包含器官类型、机构、护理阶段、源路径、全文,以及带有标题、正文和页码的章节列表。该结构支持阶段2中的章节感知分块。提取是幂等的。  

### 4.2 阶段2:HERO-QA 检索增强

相似文章

当检索无济于事:一项大规模生物医学 RAG 研究

arXiv cs.CL

这项大规模研究涵盖 5 个模型(7B–72B)、10 个生物医学问答数据集、4 种检索方法和 4 个语料库,发现在生物医学问答任务中,RAG 相比无检索基线仅带来微小且不稳定的提升(1–2 个百分点)。研究得出结论:主要瓶颈并非检索质量,而是模型有效利用检索证据的能力有限。

答案存在性驱动RAG重写增益

Hugging Face Daily Papers

本文研究在RAG问答流程中,重写检索段落所带来的性能提升是否因果性地由重写上下文中出现黄金答案字符串所驱动,并通过跨多个模型和数据集的受控干预审计进行验证。

高風險醫療檢索增強生成的聲明選擇性認證

arXiv cs.CL

本文針對高風險醫療檢索增強生成(RAG)提出聲明選擇性認證,將響應分解為可驗證的聲明,並根據證據進行評分,通過意圖感知選擇器產生操作(完整、部分、衝突、棄權),實現了低無支持聲明風險和高操作準確性。

RAG 能知道检索错误吗?在知识冲突下诊断上下文遵从性

arXiv cs.CL

本文提出了一种名为“上下文驱动分解”(CDD)的探针,用于诊断检索增强生成(RAG)系统在面对检索上下文与参数化知识冲突时,是否遵从检索上下文。同时,发布了 Epi-Scale 基准测试,以便在多种模型家族中进行系统性研究。