完全开放的 Meditron:用于临床 LLM 的可审计管道
摘要
介绍了完全开放的 Meditron,这是首个用于构建临床 LLM 的完全开放管道,具有临床医生审核的训练语料库和可重现框架,在全开放医学专科模型中达到领先水平。
arXiv:2605.16215v1 公告类型:新
摘要:临床决策支持系统(CDSS)需要可审查、可审计的管道,以实现严格且可重复的验证。然而,当前基于 LLM 的 CDSS 在很大程度上仍然不透明。大多数“开放”模型仅开放权重,发布参数的同时隐瞒了决定模型行为的数据来源、整理流程和生成管道。完全开放(FO)模型会端到端地暴露完整的训练堆栈,目前在医学领域尚不存在。我们介绍了完全开放的 Meditron,这是首个用于构建 LLM-CDSS 的完全开放管道,包含一个经临床医生审核的训练语料库、一个可重现的数据构建和训练框架,以及一个与应用场景对齐的评估协议。该语料库将八个公开的医学 QA 数据集统一为标准化的对话格式,并通过三个经临床医生验证的合成扩展来扩大覆盖范围:考试式 QA、源自 46,469 条临床实践指南的指南基础 QA 以及临床病例。该管道强制进行系统级数据去污染、教师生成的金标重采样,并由四人医师小组进行端到端验证。我们采用 LLM 作为裁判的协议,对专家编写的临床病例进行评估,并根据 204 名人类评分者进行校准。我们将该方案应用于五个 FO 基础模型(Apertus-70B/8B-Instruct、OLMo-2-32B-SFT、EuroLLM-22B/9B-Instruct)。所有 MeditronFO 变体均优于其基础模型。Apertus-70B-MeditronFO 在综合医学基准上比基础模型提升了 6.6 个百分点(从 47.2% 到 53.8%),创下了新的 FO 最高水平(SoTA)。在 LLM 作为裁判的对比中,Gemma-3-27B-MeditronFO 在 58.6% 的情况下优于 MedGemma,并在 HealthBench 上表现更优(58% 对 55.9%)。这些结果表明,完全开放的管道可以在不牺牲可审计性或可重现性的情况下实现特定领域的最优性能。
查看缓存全文
缓存时间: 2026/05/18 06:36
# 完全开放的Meditron:面向临床大语言模型的可审计管道 来源:https://arxiv.org/html/2605.16215 ###### 摘要 临床决策支持系统(CDSS)需要可审查、可审计的管道,以实现严格、可重复的验证。然而,当前基于大语言模型的CDSS(LLM-CSS)在很大程度上仍然不透明。大多数“开放”模型仅开放权重,发布参数,同时隐瞒了决定模型行为的数据来源、整理流程和生成管道。在医学领域,目前尚不存在完全开放(FO)的模型——即端到端暴露完整训练栈的模型。我们提出了Fully Open Meditron,这是首个用于构建LLM-CDSS的完全开放管道,包含经临床医生审计的训练语料库、可重复的数据构建和训练框架,以及与使用场景对齐的评估协议。该语料库将八个公开的医学QA数据集统一为标准化对话格式,并通过三个经临床医生审核的合成扩展集扩大覆盖范围:考试式QA、基于46,469份临床实践指南的指南依据QA,以及临床案例。该管道实施全系统去污染,消除与评估基准的重叠,包含对教师生成样本进行金标准标签重采样,以及由四位医生组成的小组进行的端到端验证。我们采用LLM作为裁判的评估协议,基于专家编写的临床案例进行评估,并与204名人类评分者进行校准,以捕捉超出典型多项选择基准的开放式临床推理能力。我们将此方案应用于五个FO基础模型(Apertus-70B/8B-Instruct、OLMo-2-32B-SFT、EuroLLM-22B/9B-Instruct)。所有MeditronFO变体在成对临床评估中均优于其基础模型。Apertus-70B-MeditronFO在综合医学基准上比其基础模型提升+6.6个百分点(47.2% → 53.8%),为LLM-CDSS建立了新的FO最先进水平(SoTA)。此外,Gemma-3-27B-MeditronFO在58.6%的LLM作为裁判比较中优于MedGemma,并在HealthBench上也表现更优(58% vs 55.9%)。这些结果表明,完全开放管道可以在不牺牲可审计性或可重复性的前提下,实现最先进的领域特定性能。 关于图1的说明:医学大语言模型在HealthBench上的性能随时间演变,涵盖闭源数据、开放权重和完全开放模型。虽然开放权重的医学专家模型已接近专有系统的性能,但此前并不存在完全开放的医学专家模型。本研究引入了Apertus-MeditronFO,这是首个完全开放的医学专家模型,在完全开放系统中建立了新的最先进水平。 ## 1 引言 医学大语言模型正越来越多地部署在高风险临床场景中,从专家决策支持到自主面向患者的应用,这些应用可能几乎没有外部监督。随着这些系统面临越来越多样化的真实世界交互,信任、可审计性和溯源问题变得日益重要。然而,大多数“开放”的医学大语言模型仅发布模型权重,同时隐瞒了训练数据来源、数据准备管道和影响模型行为的适应流程。将通用大语言模型适应为医学专家现在已很普遍,产生了如MedGemma(Sellergren等人,2025)、Meditron(Chen等人,2023b)和BioMistral(Labrak等人,2024)等系统。典型的管道包括在医学语料库上继续预训练,然后在整理好的QA数据集上进行监督微调。然而,由此产生的系统在很大程度上仍不透明。仅发布权重并不能揭示模型是从循证依据、基准测试伪影、合成幻觉还是临床狭窄人群中学习到的。与关于不透明适应管道提出的担忧一致(Alber等人,2025;Betley等人,2026),当前开放权重的专家模型(包括MedGemma)未公开训练语料库或生成管道,限制了独立可审计性。这一担忧因标准医学基准测试的饱和而加剧,其中性能提升可能反映的是污染、记忆或基准特定适应,而非临床能力。在临床实践中,临床医生、监管机构和患者可能合理要求审计模型学习了什么以及如何训练的,这种不透明性构成了根本性限制。完全开放模型提供了实现端到端可审计性的路径,但也处于劣势:因为训练数据、准备管道和模型权重必须可公开发布,它们无法依赖支撑许多前沿系统的专有临床语料库、受限数据集或未公开的合成管道。因此,完全开放模型在既定基准上通常落后于闭源数据模型,且目前不存在完全开放的医学专家。 表1:医学大语言模型的开放维度比较。 大多数先前的医学大语言模型发布权重,但隐瞒了决定模型行为的数据和管道。MeditronFO是首个满足所有开放维度的模型家族。开放性分别针对基础模型和医学适应进行评估。对于基础模型,“数据”指预训练、后训练、指令微调或对齐数据;“代码”指可重复的训练代码和方案;“权重”指发布的模型权重。对于医学适应,“数据”指微调或指令数据;“合成数据”指合成数据生成管道,包括提示词、教师模型和过滤流程;“代码”指微调/训练代码和方案;“权重”指适应后的医学模型权重。许可证类别为:O=宽松开放许可证,C=社区或商业可用但有限制,IC=继承的基础模型许可证,IC反映基础模型许可证;医学适应本身以宽松方式发布,R=限制性、仅研究或专有许可证。 我们认为这一差距反映了语料库构建问题,而非开放模型的固有限制。公开的医学基准测试是异质的、范围狭窄的,且与临床交互对齐不良;例如,在我们检查的汇总公共QA数据中,紧急医疗场景仅占15%,危及生命的案例不到9%,尽管这些正是临床决策支持最关键的场景。先前研究表明,生物医学专家模型在未见过的医学数据上常常未能超越其通用基础模型,表明报告的性能提升可能反映的是污染或基准适应,而非临床能力(Dorfner等人,2025)。现有基准测试还低估了低资源环境、弱势人群以及不确定性下的诊断推理。这一问题因过度依赖多项选择评估而进一步加剧。多项选择题奖励死记硬背的结构性回忆,但未能捕捉临床重要维度,如情境意识、沟通、无害性以及与指南的对齐。因此,构建临床有用的模型需要开放式评估和相应设计的训练语料库。 贡献。为填补这一空白,我们引入了Fully Open Meditron,这是首个用于将完全开放基础模型适应为医学专家的FO管道。我们证明,在FO约束下,通过严格的临床医生审计语料库构建和开放式临床评估,可以实现有竞争力的医学专业化。主要贡献如下: • 一个完全开放的医学适应框架。我们发布了一个可重复的端到端框架,涵盖语料库构建、合成数据生成、去污染、训练和评估,用于将完全开放基础模型适应到医学领域。 • 一个结构化的、完全开放的、经临床医生审计的知识语料库。我们将八个公开的医学QA数据集进行标准化,并通过临床医生审核的合成生成系统性地扩展覆盖范围,将紧急医疗覆盖从15.0%提升至38.7%,危及生命严重程度从8.6%提升至31.8%(考试式QA、基于46,469份临床实践指南的指南依据QA,以及从独特全球规模临床评估语料库中生成的开放式临床案例)。该管道实施严格去污染,并利用对合成目标进行金标准标签重采样。 • 一个自动化的、开放式临床评估协议。我们引入Auto-MOOVE,一个基于LLM作为裁判的框架,经204名人类评分者验证,用于评估超越标准多项选择指标的多维临床推理能力。 • 一个完全开放的医学专家模型家族。我们将此方案应用于五个完全开放基础模型,涵盖三个模型家族。Apertus-70B-MeditronFO在综合医学基准上从47.2%提升至53.8%,建立了新的完全开放式最先进水平。在开放式评估中,Gemma-3-27B-MeditronFO在Auto-MOOVE上优于MedGemma,并在HealthBench上得分更高,表明该管道改进了仅靠多项选择问答无法捕捉的维度。 ## 2 相关工作 开放和完全开放的医学大语言模型。闭源数据专家模型,包括MedPaLM家族(Singhal等人,2023, 2025)和Med-Gemini(Saab等人,2024),报告了强大的医学基准性能,但既未公开训练语料库也未公开适应管道。与此同时,越来越多的工作将开放权重通用大语言模型适应为医学专家。HuatuoGPT-II(Chen等人,2023a)将预训练和微调统一为一个阶段,而MC-LLaMA(Wu等人,2024)和BioMistral(Labrak等人,2024)在生物医学语料库上继续预训练,然后在汇总的QA基准上进行指令微调。Meditron-70B(Chen等人,2023b;Sallinen等人,2025)通过整理临床指南扩展了这一方案。尽管对开放性的兴趣日益增长,但大多数医学大语言模型仍仅部分透明:通常发布权重、训练数据子集或基准方案,同时隐瞒关键组成部分,如数据来源、过滤流程、合成生成管道或适应工作流。即使是像MedGemma(Sellergren等人,2025)这样的开放权重系统,也未公开其训练数据或合成生成管道。附录L对所有模型的开放性维度进行了详细比较。 不透明适应管道的风险。最近研究表明,医学大语言模型既容易受到适应数据的有针对性的污染,也容易受到窄领域微调引起的更广泛行为漂移的影响。(Alber等人,2025)展示了能通过标准安全评估的微调攻击,而Betley等人(Betley等人,2026)表明,在一个领域内对狭窄腐败数据进行微调可能引发广泛的不对齐部署行为。 基准污染与去污染。(Deng等人,2024)证明了广泛使用的评估基准(MMLU(Hendrycks等人,2020)、TruthfulQA(Lin等人,2022)、HellaSwag(Zellers等人,2019)、WinoGrande(Sakaguchi等人,2021)、GSM8K(Cobbe等人,2021)、OpenBookQA(Mihaylov等人,2018))与主要预训练语料库之间存在大量重叠,使用了基于检索的搜索以及适用于开放和封闭权重模型的测试集槽猜测协议。(Golchin和Surdeanu,2023)通过展示可以通过提示策略检测污染,该策略引起对评估实例的逐字回忆,对此进行了补充。 Fully Open Meditron通过Apertus(Apertus等人,2025)中引入的两阶段n-gram和token对齐去污染管道缓解了这一风险,该管道在系统范围内对所有评估参考进行应用,无论训练组件来源如何。 临床医生在开放医学AI开发中的参与。Med-PaLM(Singhal等人,2023)引入了多轴医生评估,涵盖事实性、推理、可能的伤害和偏见,HealthBench(Arora等人,2025)将其扩展到5000个医生撰写的对话式评分标准。Thirunavukarasu等人(Thirunavukarasu等人,2023)同样认为,临床部署需要基于工作流而非考试式回忆的评估范式。Fully Open Meditron在数据整理和评估阶段均纳入了临床医生的参与,由四位医生小组审核合成生成提示词,Auto-MOOVE则基于专家编写的案例构建。 大规模开放式评估。最近工作通过基于评分标准的协议解决了多项选择评估的局限性:HealthBench(Arora等人,2025)根据医生编写的评分标准对模型响应进行评分,涵盖数千个对话场景;LiveClin(Wang等人,2026)引入了更新的基准以减轻污染。成对偏好评估已成为一种补充范式,既在特定领域设置中(如MOOVE(Sallinen等人,2025),收集专家对临床案例的比较),也在诸如Chatbot Arena(Zheng等人,2023)等平台中,该平台汇总大规模人类成对判断到模型排名中。这些方法表明,相对比较通常比绝对评分更可靠,但严重依赖人工注释,在专业领域中限制了可扩展性。LLM作为裁判提供了一条可扩展的成对评估路径:(Zheng等人,2023)确立了该范式,并显示GPT-4在开放式对话中与专家群体偏好匹配,而(Thakur等人,2025)表明Cohen's κ是比原始百分比一致性更可靠的验证指标;Han等人(Han等人,2025)引入了人类相似性测试,将裁判的κ置于人类评分者群体中每位评分者κ的分布中。MOOVE平台(Sallinen等人,2025)收集了专家对临床案例的成对偏好;Auto-MOOVE在此基础上通过自动化比较协议实现LLM作为裁判,并针对人类评分者间一致性进行了验证。 ## 3 完全开放的Meditron语料库
相似文章
MedAction:迈向主动式多轮临床诊断大语言模型
本文介绍了 MedAction 框架,该框架通过模拟迭代式的检查开具与假设更新,训练大语言模型(LLM)进行主动的多轮临床诊断。文章提出了一个新的数据集 MedAction-32K,并展示了开源模型在医学基准测试上的最先进水平(SOTA)性能。
MedExAgent:在嘈杂的临床环境中训练大语言模型代理进行询问、检查与诊断
本文介绍了 MedExAgent,这是一个将临床诊断形式化为部分可观测马尔可夫决策过程(POMDP)以处理嘈杂和不完整信息的框架。该框架提出了一种结合监督微调与强化学习的两阶段训练流程,以提高医疗大语言模型的诊断准确性和成本效益。
一个用于医学大语言模型安全性、鲁棒性和公平性评估的多领域红队框架
本文提出了一个多领域红队框架,用于在690个临床相关场景中评估医学大语言模型的安全性、鲁棒性和公平性。结果表明,高聚合准确率可能掩盖关键失败,而结合临床专家审核的混合评估对于可信的安全性评估是必要的。
sebis 在 CRF 填充 2026:一种用于医疗 CRF 填充的两阶段本地 LLM 流水线
本文介绍了一种完全本地化的两阶段 LLM 流水线,使用 MedGemma-27B 从临床笔记中填充病例报告表,在英文测试轨道上实现了 0.55 的宏观 F1 分数,并在本地开源提交中获得了第二名。
OpenMedQ:面向医学视觉语言模型的广泛开放预训练
OpenMedQ 是一个完全开放的医学视觉语言模型,在 14 个数据集(约 335 万样本)上进行预训练,在医学 VQA 和分类基准上取得了最先进的结果。