AMNESIA:大规模医学去学习基准套件,结合疾病知情分析
摘要
AMNESIA 是首个大规模开源医学去学习基准,包含来自 11 种疾病的 8,820 份病历笔记中的 70,560 个问答对,旨在评估 LLM 对事实知识和推理知识的遗忘情况。
arXiv:2605.30599v1 Announce Type: new
医学知识在不断演进。这需要更新或选择性遗忘已在已训练的医学 LLM 中编码的信息。机器去学习旨在无需完全重新训练即可移除特定训练数据对模型的影响。然而,现有的去学习基准依赖于合成数据或小规模通用数据,导致临床去学习研究不足。我们提出了 AMNESIA,这是首个大规模开源医学去学习基准,包含来自 11 种疾病类别的 8,820 份病历笔记中的 70,560 个问答对。AMNESIA 包括测试直接回忆的事实性问题以及测试临床推理的推理问题。我们用它评估了四种广泛使用的去学习方法,涵盖随机患者和疾病级别,并引入了一个检测医学术语泄露的新指标。我们发现,对个别患者进行去学习会侵蚀对其他患有相同疾病患者的知识,这要求开发能够更好地区分患者与共享临床知识的方法。
查看缓存全文
缓存时间: 2026/06/01 09:28
# AMNESIA:大规模医学反学习基准套件与疾病感知分析
来源:https://arxiv.org/html/2605.30599
Saeedeh Davoudi¹, Reihaneh Iranmanesh*¹, Ophir Frieder¹, Nazli Goharian¹
¹信息检索实验室,计算机科学系,乔治城大学,华盛顿特区
{saeedeh, rei, ophir, nazli}@ir.cs.georgetown.edu
###### 摘要
医学知识不断演进,这需要更新或选择性遗忘已训练好的医学大语言模型中编码的信息。机器反学习旨在不进行完整重新训练的情况下,移除特定训练数据对模型的影响。然而,现有的反学习基准依赖于合成或小规模通用数据,临床反学习研究不足。我们提出 AMNESIA,这是首个大规模、开源的医学反学习基准,包含来自 11 种疾病类别、8,820 份患者病历的 70,560 个问答对。AMNESIA 包含测试直接回忆的**事实型**问题和测试临床推理的**推理型**问题。我们使用它来评估四种广泛使用的反学习方法,在随机患者级别和疾病级别上进行评估,并引入了一个检测医学术语泄露的新指标。我们发现,遗忘单个患者会侵蚀其他具有相同病情的患者的知识,这需要能够更好地区分患者与共享临床知识的方法。
## 1 引言
在敏感医学数据上训练的机器学习模型面临一个关键挑战:如何移除特定训练示例的影响,同时保持模型的整体效用。这种能力被称为**机器反学习**,对于医疗应用至关重要,因为患者可能根据隐私法规(如 GDPR 的“被遗忘权”\(Protection Regulation,2016 (https://arxiv.org/html/2605.30599#bib.bib1)\))要求删除数据,或者需要从训练模型中剔除错误或过时的医疗记录,而无需昂贵完整的重新训练。尽管机器反学习在各个领域引起了越来越多的兴趣,但医学领域缺乏用于评估临床问答任务反学习方法的标准化基准。
为解决这些空白,我们提出**AMNESIA**:**A** 大规模 **L** 医学反学习 **B** 基准 **S** 套件与疾病感知分析。AMNESIA 提供了首个用于评估医学问答反学习的大规模基准,包含来自 11 种疾病类别、8,820 份患者病历的 70,560 个问答对。与之前基于合成或通用领域问答的反学习基准不同(附录 A (https://arxiv.org/html/2605.30599#A1)),AMNESIA 基于真实患者病历,涵盖多种疾病条件下的数千名患者。这在医疗环境中至关重要,因为同意撤回、诊断修订和记录更正会不断产生新的反学习目标。AMNESIA 还区分**事实型**问题(直接回忆)和**推理型**问题(临床推理),并支持**随机患者级别**和**疾病级别**的遗忘场景,使研究人员能够测试模型是否能够遗忘患有特定疾病的患者。
我们的贡献如下:
- **首个大规模临床基础的反学习基准**:来自 11 种疾病类别、8,820 份患者病历的 70,560 个问答对。每位患者有 4 个事实型(回忆)和 4 个推理型(推理)问答。¹¹¹所有数据、代码和基线将无限制且无需数据使用协议公开提供。
- **跨不同遗忘/保留分割的多级评估**:在随机患者级别和疾病级别的遗忘/保留分割上进行评估。
- **全面的反学习分析**:评估并分析了四种代表性的反学习方法。
- **医学感知的反学习评估**:针对遗忘性能的新颖疾病聚焦关键词评估。
- **发布医学模型和数据集**:我们的模型公开可用。我们详细的数据构建流程使 AMNESIA 可复现且易于扩展。
参照标题图 1:AMNESIA 数据集构建 (a)、反学习基准 (b) 和评估流程 (c)
## 2 相关工作
#### 机器反学习基准
机器反学习旨在无需完整重新训练的情况下移除特定训练数据对模型的影响\(Cao and Yang,2015 (https://arxiv.org/html/2605.30599#bib.bib2)\)。TOFU\(Maini et al.,2024 (https://arxiv.org/html/2605.30599#bib.bib3)\) 使用合成作者档案建立了 LLM 反学习的标准基准,方法包括梯度差异\(Liu et al.,2022 (https://arxiv.org/html/2605.30599#bib.bib13)\)、KL 最小化\(Nguyen et al.,2020 (https://arxiv.org/html/2605.30599#bib.bib5)\) 和负偏好优化\(Zhang et al.,2024 (https://arxiv.org/html/2605.30599#bib.bib6)\)。R-TOFU\(Yoon et al.,2025 (https://arxiv.org/html/2605.30599#bib.bib7)\) 将 TOFU 扩展到大型推理模型,表明仅答案目标会在思维链推理中留下残余遗忘痕迹。MUSE\(Shi et al.,2025 (https://arxiv.org/html/2605.30599#bib.bib8)\) 评估 LLM 中的遗忘,但没有涉及临床或跨模态结构。最近的工作进一步表明现有方法在结构化、多跳知识上失败\(Choi et al.,2024 (https://arxiv.org/html/2605.30599#bib.bib9)\),这推动了更现实评估设置的需求。我们遵循 OpenUnlearning\(Dorna et al.,2026 (https://arxiv.org/html/2605.30599#bib.bib10)\),这是一个统一框架,集成了 13 种反学习算法和 16 种评估(涵盖 TOFU、MUSE 和 WMDP\(Li et al.,2024 (https://arxiv.org/html/2605.30599#bib.bib11)\)),以指导我们的方法选择并进行标准化比较。
#### 医学问答
临床 NLP 受益于大规模数据集,如 MIMIC-CXR\(Johnson et al.,2019 (https://arxiv.org/html/2605.30599#bib.bib12)\),LLaVA-Med\(Li et al.,2023 (https://arxiv.org/html/2605.30599#bib.bib14)\) 和 Asclepius\(Kweon et al.,2024 (https://arxiv.org/html/2605.30599#bib.bib15)\) 等模型表明,在患者病历上微调的 LLM 获得了患者特定知识。最近的基准在多个方向推动了医学问答:评估 LLM 在挑战性临床病例上的推理和解释\(Chen et al.,2025 (https://arxiv.org/html/2605.30599#bib.bib16)\)、检测医学输出中的幻觉\(Pandit et al.,2025 (https://arxiv.org/html/2605.30599#bib.bib17)\)、评估跨知识图谱的多跳生物医学推理\(Kim et al.,2025 (https://arxiv.org/html/2605.30599#bib.bib18)\),以及支持诊断的论证性解释\(Sviridova et al.,2024 (https://arxiv.org/html/2605.30599#bib.bib19)\)。然而,这些基准没有解决医学问答设置中的机器反学习问题。
#### 医学 AI 中的机器反学习
隐私法规,包括 HIPAA\(Act,1996 (https://arxiv.org/html/2605.30599#bib.bib20)\) 和 GDPR\(Protection Regulation,2016 (https://arxiv.org/html/2605.30599#bib.bib1)\),推动了从训练模型中选择性移除患者数据的需求,先前的防御措施如联邦学习\(McMahan et al.,2017 (https://arxiv.org/html/2605.30599#bib.bib21)\) 仅提供部分保护。其他工作探索了在临床影像设置中遗忘多模态患者信息\(Hardan et al.,2025 (https://arxiv.org/html/2605.30599#bib.bib22)\)。MedForget\(Wu et al.,2025 (https://arxiv.org/html/2605.30599#bib.bib23)\) 是最接近的先前工作,提供了一个分层多模态基准,包含来自 MIMIC-CXR 的 64 名患者的 3,840 个视觉问答对。相比之下,AMNESIA 扩展到了 70,560 个基于临床病历的问答,并引入了疾病级别反学习,这是一个先前工作未涉及的临床驱动设置。
## 3 AMNESIA 数据集
图1 (https://arxiv.org/html/2605.30599#S1.F1) 展示了 AMNESIA 框架。给定一份患者病历,AMNESIA 包含事实型和推理型问题,每个问题都有黄金标准答案。反学习后,模型应对关于被遗忘患者的问题产生显著不同(无信息)的回答,同时保持对被保留患者回答的准确性。
### 3.1 数据构建(图1 (https://arxiv.org/html/2605.30599#S1.F1).a)
#### 数据集选择与采样
我们使用 PMC-Patients-v2\(Zhao et al.,2023 (https://arxiv.org/html/2605.30599#bib.bib24)\),这是一个从 PubMed Central\(Roberts,2001 (https://arxiv.org/html/2605.30599#bib.bib25)\) 报告中提取的去标识化患者病历的大规模公开数据集。从这个语料库中,我们随机抽样了 8,820 份患者病历,以创建一个计算上可行且足够大的数据集用于我们的研究。
#### 疾病类别分配
我们使用GPT-5.4-nano根据美国疾病控制与预防中心 (CDC) 的常见疾病分类²²²https://www.cdc.gov/nchs/fastats/diseases-and-conditions.htm 为每位患者分配一种疾病(表1 (https://arxiv.org/html/2605.30599#S3.T1) 列出了 11 种疾病),基于其病历标题。病历标题是描述患者病历的单句。提示旨在强制GPT-5.4-nano将每个病历的标题映射到单一疾病类别(见附录B.1 (https://arxiv.org/html/2605.30599#A2.SS1))。这种分类使 AMNESIA 能够对机器反学习方法进行疾病感知分析。我们在**人在环评估**(第3.1节)中评估这些类别。
#### 问答生成
对于每位患者,我们使用GPT-5-nano生成 8 个问答:4 个事实型问答(测试直接从患者病历中回忆信息)和 4 个推理型问答(需要在病历中跨多个发现进行推理,比事实型问题更具挑战性)。生成提示(附录B.2 (https://arxiv.org/html/2605.30599#A2.SS2))强制执行严格的质量标准:问题只能从特定患者的具体细节中回答(而非一般医学知识),必须避免任何个人信息,并且必须保持临床特异性。这种生成策略产生了 70,560 个总问答(35,280 个事实型和 35,280 个推理型),确保覆盖知识检索和临床推理能力。表1 (https://arxiv.org/html/2605.30599#S3.T1) 展示了按疾病类别的最终数据集组成。
表 1:AMNESIA 数据集统计(按疾病类别)。Min、Avg 和 Max 表示每个疾病类别中病历的最小、平均和最大大小(以 token 计)。
#### 人在环评估
我们在多数投票制下使用三位 LLM 裁判小组验证疾病标签和问答:一个医学专业模型 (MedGemma-27B\(Sellergren et al.,2025 (https://arxiv.org/html/2605.30599#bib.bib26)\))、一个通用推理模型 (Qwen3-32B\(Yang et al.,2025 (https://arxiv.org/html/2605.30599#bib.bib27)\)) 和一个前沿模型 (GPT-5-mini\(Singh et al.,2025 (https://arxiv.org/html/2605.30599#bib.bib28)\))。对于疾病标签,我们从三个最常见疾病中抽样了 900 份患者病历(癌症、感染/免疫和心血管各 300 份)。对于问答,我们抽样了 500 名患者,从每位患者中取 1 个事实型和 1 个推理型问答,得到 1,000 个问答。裁判小组支持 **91.8%** 的疾病标签,并将 **97.6%** 的问答三元组评定为符合四个标准(清晰度、正确性、可推导性、临床意义)有效;一名生物学学生对相同患者病历的标注与裁判多数票在 **90.4%** 的疾病标签上一致。这些结果共同表明 AMNESIA 的问答和疾病标签对于反学习评估是可靠的。完整协议、提示和每个裁判的细分见附录 F (https://arxiv.org/html/2605.30599#A6) 和 G (https://arxiv.org/html/2605.30599#A7)。
### 3.2 数据分割(图1 (https://arxiv.org/html/2605.30599#S1.F1).b)
我们的分割策略创建了两个级别的分层遗忘/保留分割:随机患者级别和疾病级别。
#### 随机患者级别分割
与现有的反学习基准类似\(Maini et al.,2024 (https://arxiv.org/html/2605.30599#bib.bib3); Wu et al.,2025 (https://arxiv.org/html/2605.30599#bib.bib23)\),我们通过随机选择总患者数量的 5%、10%、15%、20% 和 25% 创建遗忘分割,每个较小的遗忘集是下一个较大遗忘集的真子集(即 forget_5 ⊂ forget_10 ⊂ forget_15 ⊂ forget_20 ⊂ forget_25)。对于每个遗忘分割,相应的保留分割包含所有剩余患者。
#### 疾病级别分割
我们为数据集中最常见的三种疾病构建疾病级别分割:癌症、感染/免疫和心血管。每个疾病级别分割的大小与相应随机患者级别分割的大小匹配,仅从目标疾病中采样。每种疾病可能的最大遗忘集大小取决于数据集中患有该疾病的总患者数(表1 (https://arxiv.org/html/2605.30599#S3.T1)):
- 癌症(占所有患者的 30.3%):5%、10%、15%、20%、25% 遗忘分割。
- 感染/免疫疾病(占所有患者的 22.3%):5%、10%、15%、20% 遗忘分割。
- 心血管(占所有患者的 16.2%):5%、10%、15% 遗忘分割。
每个疾病级别分割满足两个关键属性:(1) 子集关系在每个疾病内部成立(例如 cancer_forget_5 ⊂ ... ⊂ cancer_forget_25),(2) 在随机患者遗忘分割中出现的具有给定疾病标签的所有患者也以相同百分比包含在相应的疾病级别遗忘分割中(例如,forget_5 中的所有癌症患者保证出现在 cancer_forget_5 中。附录 C (https://arxiv.org/html/2605.30599#A3) 展示了每个数据分割的大小)。
#### 保留集
为评估泛化能力,我们创建了一个保留集,保留每位患者的一个事实型和一个推理型问答(共 17,640 个),这些问答在微调和反学习过程中从未见过。所有分割的完整统计信息见附录 C (https://arxiv.org/html/2605.30599#A3)。
## 4 反学习基准(图1 (https://arxiv.org/html/2605.30599#S1.F1).b)
我们通过一个四阶段工作流建立医学反学习基准:(1) 在患者病历上进行预训练,(2) 在问答上进行指令微调,(3) 在微调模型上应用反学习方法,(4) 通过多个指标进行评估。
### 4.1 基础语言模型
我们选择 **LLaMA 3-8B** 作为基础语言模型,遵循医学 AI 的既定实践\(Kweon et al.,2024 (https://arxiv.org/html/2605.30599#bib.bib15)\)。我们在 8,820 份患者病历上使用标准的下一 token 预测进行持续预训练,然后在 52,920 个问答上进行指令微调(超参数细节见附录 D (https://arxiv.org/html/2605.30599#A4))。得到的微调模型作为所有反学习实验的基线。
### 4.2 反学习方法
我们评估了四种广泛使用的相似文章
从回想到遗忘:为个性化智能体评估长期记忆
研究者推出 Memora 基准,衡量大模型在持续数周至数月的对话中保留、更新与遗忘用户长期记忆的能力,发现模型常复用已失效记忆。
MedAction:迈向主动式多轮临床诊断大语言模型
本文介绍了 MedAction 框架,该框架通过模拟迭代式的检查开具与假设更新,训练大语言模型(LLM)进行主动的多轮临床诊断。文章提出了一个新的数据集 MedAction-32K,并展示了开源模型在医学基准测试上的最先进水平(SOTA)性能。
长期历史感知的医疗对话合成与评估
本文介绍了一种利用大语言模型(LLMs)合成长期医疗对话数据集的框架,并创建了 MediLongChat,包含三个基准任务,用于评估医疗智能体的记忆与推理能力。实验表明,即使是最先进的 LLMs 也难以完成这些任务。
MHGraphBench:基于知识图谱的大语言模型心理健康知识基准测试
本文介绍了MHGraphBench,这是一个基于知识图谱的基准测试,用于评估大语言模型在心理健康知识方面的能力,包括实体识别、关系判断和多跳推理。对15个LLM的实验揭示了识别能力与判断能力之间存在差距。
MAAT: 多阶段适配器感知定向遗忘
本文指出了机器遗忘基准中的一个盲点:因果类(Why型)知识的代表性不足,并提出了5WBench(一个均衡的基准)和Maat(一个基于LoRA适配器的三阶段遗忘框架),该框架在因果事实的遗忘与保留方面均表现优异。