代理建模:解读黑盒大模型在医学预测中的隐含知识

arXiv cs.CL 论文

摘要

研究者提出一种代理建模框架,可量化并解释黑盒大模型内部编码的医学知识,同时揭示有效关联与持续的种族偏见。

arXiv:2604.20331v1 公告类型: new 摘要:大语言模型(LLM)在海量数据上训练,将丰富的现实世界知识编码进参数,但其黑盒特性掩盖了编码机制与程度。代理建模通过简化模型逼近复杂系统,可为黑盒模型提供可解释路径。我们提出一种代理建模框架,以定量方式解释 LLM 编码的知识。针对源自领域知识的特定假设,该框架通过大规模提示,在全面模拟场景下利用可观测元素(输入-输出对)逼近 LLM 的潜在知识空间。在医学预测的验证实验中,我们证明该框架能有效揭示 LLM 对每一输入变量与输出关系的“感知”程度。鉴于 LLM 可能延续训练数据中的错误与社会偏见,我们的实验进一步定量发现:既有与既定医学知识冲突的关联,也有科学已证伪的种族假设仍顽固存在于 LLM 编码知识中。通过披露这些问题,该框架可作为红旗指标,支持这些模型的安全、可靠应用。
查看原文
查看缓存全文

缓存时间: 2026/04/23 10:03

# 用代理模型解读医学预测中的黑盒大语言模型
来源:https://arxiv.org/abs/2604.20331  
作者:韩昌浩 (https://arxiv.org/search/cs?searchtype=author&query=Han,+C)\(1\)、金松秀 (https://arxiv.org/search/cs?searchtype=author&query=Kim,+S)\(2\)、金东元 (https://arxiv.org/search/cs?searchtype=author&query=Kim,+D+W)\(2\)、Leo Anthony Celi (https://arxiv.org/search/cs?searchtype=author&query=Celi,+L+A)\(3,4,5\)、金在雄 (https://arxiv.org/search/cs?searchtype=author&query=Kim,+J)\(2\)、裴成雅 (https://arxiv.org/search/cs?searchtype=author&query=Bae,+S)\(6,7\)、尹德镛 (https://arxiv.org/search/cs?searchtype=author&query=Yoon,+D)\(2,7,8\)  
\(1\) 首尔国立大学医学院医学大数据研究中心,韩国首尔  
\(2\) 延世大学医学院生物医学系统信息学系,韩国首尔  
\(3\) 麻省理工学院计算生理学实验室,美国马萨诸塞州剑桥  
\(4\) 贝斯以色列女执事医疗中心肺、重症与睡眠医学科,美国波士顿  
\(5\) 哈佛 T.H. Chan 公共卫生学院生物统计系,美国波士顿  
\(6\) 延世大学龙仁Severance医院心内科,韩国龙仁  
\(7\) 延世大学医疗系统龙仁Severance医院数字健康中心,韩国龙仁  
\(8\) Severance医院数字医疗创新研究所,韩国首尔  

查看 PDF (https://arxiv.org/pdf/2604.20331)

> 摘要:大语言模型(LLM)在海量数据上训练,将丰富的现实世界知识编码进参数,但其黑盒特性掩盖了编码机制与程度。代理模型通过简化模型逼近复杂系统,可为黑盒模型提供可解释路径。我们提出一种代理建模框架,定量解释 LLM 内嵌知识。针对源自领域知识的特定假设,该框架通过全面模拟场景下的广泛提示,用可观测元素(输入-输出对)逼近 LLM 的潜在知识空间。在医学预测的验证实验中,我们展示了该框架能有效揭示 LLM 对每一输入变量相对于输出的“感知”程度。尤其鉴于 LLM 可能延续训练数据中的错误与社会偏见,我们的实验定量发现了与既有医学知识相悖的关联,以及已被科学证伪的种族假设仍在 LLM 知识中残留。通过披露这些问题,该框架可作为红旗指标,支持模型的安全、可靠应用。

## 提交历史

来自:金松秀 医学博士/博士 [查看邮箱](https://arxiv.org/show-email/fa8d5092/2604.20331)  
**\[v1\]** 2026 年 4 月 22 日(周三)08:26:23 UTC,2,194 KB

相似文章

从结构化临床数据预测心血管风险的大语言模型

arXiv cs.CL

本文提出了一种混合框架,将结构化临床数据与LLM生成的叙述相结合,用于冠状动脉疾病预测,在变量提取方面实现了高保真度,并比较了机器学习模型与基于LLM的零样本和少样本分类。

评估 LLM 在受控实验中作为人类代理的可靠性

arXiv cs.CL

本论文通过比较 LLM 生成的数据与人类在准确性感知调查中的反应,评估现成 LLM 是否能可靠地模拟受控行为实验中的人类反应。研究发现,虽然 LLM 能捕捉方向性效应和聚合信念更新模式,但它们的效应大小与人类尺度不一致,这有助于澄清合成 LLM 数据何时可以作为行为代理。

超越表面统计:通过内部表示实现LLM鲁棒共形预测

arXiv cs.CL

本论文提出了一个利用内部表示而非输出层统计的LLM共形预测框架,引入层级信息(LI)评分作为非一致性度量,在分布偏移下改进有效性-效率权衡。该方法在QA基准上相比文本级基线展现出更强的对校准-部署不匹配的鲁棒性。