代理建模：解读黑盒大模型在医学预测中的隐含知识

arXiv cs.CL 2026/04/23 04:00 论文

摘要

研究者提出一种代理建模框架，可量化并解释黑盒大模型内部编码的医学知识，同时揭示有效关联与持续的种族偏见。

arXiv:2604.20331v1 公告类型: new 摘要：大语言模型（LLM）在海量数据上训练，将丰富的现实世界知识编码进参数，但其黑盒特性掩盖了编码机制与程度。代理建模通过简化模型逼近复杂系统，可为黑盒模型提供可解释路径。我们提出一种代理建模框架，以定量方式解释 LLM 编码的知识。针对源自领域知识的特定假设，该框架通过大规模提示，在全面模拟场景下利用可观测元素（输入-输出对）逼近 LLM 的潜在知识空间。在医学预测的验证实验中，我们证明该框架能有效揭示 LLM 对每一输入变量与输出关系的“感知”程度。鉴于 LLM 可能延续训练数据中的错误与社会偏见，我们的实验进一步定量发现：既有与既定医学知识冲突的关联，也有科学已证伪的种族假设仍顽固存在于 LLM 编码知识中。通过披露这些问题，该框架可作为红旗指标，支持这些模型的安全、可靠应用。

查看原文

查看缓存全文

缓存时间: 2026/04/23 10:03

# 用代理模型解读医学预测中的黑盒大语言模型
来源：https://arxiv.org/abs/2604.20331  
作者：韩昌浩 (https://arxiv.org/search/cs?searchtype=author&query=Han,+C)\(1\)、金松秀 (https://arxiv.org/search/cs?searchtype=author&query=Kim,+S)\(2\)、金东元 (https://arxiv.org/search/cs?searchtype=author&query=Kim,+D+W)\(2\)、Leo Anthony Celi (https://arxiv.org/search/cs?searchtype=author&query=Celi,+L+A)\(3,4,5\)、金在雄 (https://arxiv.org/search/cs?searchtype=author&query=Kim,+J)\(2\)、裴成雅 (https://arxiv.org/search/cs?searchtype=author&query=Bae,+S)\(6,7\)、尹德镛 (https://arxiv.org/search/cs?searchtype=author&query=Yoon,+D)\(2,7,8\)  
\(1\) 首尔国立大学医学院医学大数据研究中心，韩国首尔  
\(2\) 延世大学医学院生物医学系统信息学系，韩国首尔  
\(3\) 麻省理工学院计算生理学实验室，美国马萨诸塞州剑桥  
\(4\) 贝斯以色列女执事医疗中心肺、重症与睡眠医学科，美国波士顿  
\(5\) 哈佛 T.H. Chan 公共卫生学院生物统计系，美国波士顿  
\(6\) 延世大学龙仁Severance医院心内科，韩国龙仁  
\(7\) 延世大学医疗系统龙仁Severance医院数字健康中心，韩国龙仁  
\(8\) Severance医院数字医疗创新研究所，韩国首尔  

查看 PDF (https://arxiv.org/pdf/2604.20331)

> 摘要：大语言模型（LLM）在海量数据上训练，将丰富的现实世界知识编码进参数，但其黑盒特性掩盖了编码机制与程度。代理模型通过简化模型逼近复杂系统，可为黑盒模型提供可解释路径。我们提出一种代理建模框架，定量解释 LLM 内嵌知识。针对源自领域知识的特定假设，该框架通过全面模拟场景下的广泛提示，用可观测元素（输入-输出对）逼近 LLM 的潜在知识空间。在医学预测的验证实验中，我们展示了该框架能有效揭示 LLM 对每一输入变量相对于输出的“感知”程度。尤其鉴于 LLM 可能延续训练数据中的错误与社会偏见，我们的实验定量发现了与既有医学知识相悖的关联，以及已被科学证伪的种族假设仍在 LLM 知识中残留。通过披露这些问题，该框架可作为红旗指标，支持模型的安全、可靠应用。

## 提交历史

来自：金松秀 医学博士/博士 [查看邮箱](https://arxiv.org/show-email/fa8d5092/2604.20331)  
**\[v1\]** 2026 年 4 月 22 日（周三）08:26:23 UTC，2,194 KB

代理建模：解读黑盒大模型在医学预测中的隐含知识

相似文章

从结构化临床数据预测心血管风险的大语言模型

对齐临床需求与AI能力：关于LLMs在医学推理中的综述

压力测试医学大语言模型揭示基准准确率之外的潜在安全病理

TRIAGE：利用LLM对不规则采样的医学时间序列进行可解释风险预测的辩证推理

一个用于医学大语言模型安全性、鲁棒性和公平性评估的多领域红队框架

提交意见反馈