代理建模:解读黑盒大模型在医学预测中的隐含知识
摘要
研究者提出一种代理建模框架,可量化并解释黑盒大模型内部编码的医学知识,同时揭示有效关联与持续的种族偏见。
arXiv:2604.20331v1 公告类型: new
摘要:大语言模型(LLM)在海量数据上训练,将丰富的现实世界知识编码进参数,但其黑盒特性掩盖了编码机制与程度。代理建模通过简化模型逼近复杂系统,可为黑盒模型提供可解释路径。我们提出一种代理建模框架,以定量方式解释 LLM 编码的知识。针对源自领域知识的特定假设,该框架通过大规模提示,在全面模拟场景下利用可观测元素(输入-输出对)逼近 LLM 的潜在知识空间。在医学预测的验证实验中,我们证明该框架能有效揭示 LLM 对每一输入变量与输出关系的“感知”程度。鉴于 LLM 可能延续训练数据中的错误与社会偏见,我们的实验进一步定量发现:既有与既定医学知识冲突的关联,也有科学已证伪的种族假设仍顽固存在于 LLM 编码知识中。通过披露这些问题,该框架可作为红旗指标,支持这些模型的安全、可靠应用。
查看缓存全文
缓存时间: 2026/04/23 10:03
# 用代理模型解读医学预测中的黑盒大语言模型 来源:https://arxiv.org/abs/2604.20331 作者:韩昌浩 (https://arxiv.org/search/cs?searchtype=author&query=Han,+C)\(1\)、金松秀 (https://arxiv.org/search/cs?searchtype=author&query=Kim,+S)\(2\)、金东元 (https://arxiv.org/search/cs?searchtype=author&query=Kim,+D+W)\(2\)、Leo Anthony Celi (https://arxiv.org/search/cs?searchtype=author&query=Celi,+L+A)\(3,4,5\)、金在雄 (https://arxiv.org/search/cs?searchtype=author&query=Kim,+J)\(2\)、裴成雅 (https://arxiv.org/search/cs?searchtype=author&query=Bae,+S)\(6,7\)、尹德镛 (https://arxiv.org/search/cs?searchtype=author&query=Yoon,+D)\(2,7,8\) \(1\) 首尔国立大学医学院医学大数据研究中心,韩国首尔 \(2\) 延世大学医学院生物医学系统信息学系,韩国首尔 \(3\) 麻省理工学院计算生理学实验室,美国马萨诸塞州剑桥 \(4\) 贝斯以色列女执事医疗中心肺、重症与睡眠医学科,美国波士顿 \(5\) 哈佛 T.H. Chan 公共卫生学院生物统计系,美国波士顿 \(6\) 延世大学龙仁Severance医院心内科,韩国龙仁 \(7\) 延世大学医疗系统龙仁Severance医院数字健康中心,韩国龙仁 \(8\) Severance医院数字医疗创新研究所,韩国首尔 查看 PDF (https://arxiv.org/pdf/2604.20331) > 摘要:大语言模型(LLM)在海量数据上训练,将丰富的现实世界知识编码进参数,但其黑盒特性掩盖了编码机制与程度。代理模型通过简化模型逼近复杂系统,可为黑盒模型提供可解释路径。我们提出一种代理建模框架,定量解释 LLM 内嵌知识。针对源自领域知识的特定假设,该框架通过全面模拟场景下的广泛提示,用可观测元素(输入-输出对)逼近 LLM 的潜在知识空间。在医学预测的验证实验中,我们展示了该框架能有效揭示 LLM 对每一输入变量相对于输出的“感知”程度。尤其鉴于 LLM 可能延续训练数据中的错误与社会偏见,我们的实验定量发现了与既有医学知识相悖的关联,以及已被科学证伪的种族假设仍在 LLM 知识中残留。通过披露这些问题,该框架可作为红旗指标,支持模型的安全、可靠应用。 ## 提交历史 来自:金松秀 医学博士/博士 [查看邮箱](https://arxiv.org/show-email/fa8d5092/2604.20331) **\[v1\]** 2026 年 4 月 22 日(周三)08:26:23 UTC,2,194 KB
相似文章
从结构化临床数据预测心血管风险的大语言模型
本文提出了一种混合框架,将结构化临床数据与LLM生成的叙述相结合,用于冠状动脉疾病预测,在变量提取方面实现了高保真度,并比较了机器学习模型与基于LLM的零样本和少样本分类。
一个用于医学大语言模型安全性、鲁棒性和公平性评估的多领域红队框架
本文提出了一个多领域红队框架,用于在690个临床相关场景中评估医学大语言模型的安全性、鲁棒性和公平性。结果表明,高聚合准确率可能掩盖关键失败,而结合临床专家审核的混合评估对于可信的安全性评估是必要的。
评估 LLM 在受控实验中作为人类代理的可靠性
本论文通过比较 LLM 生成的数据与人类在准确性感知调查中的反应,评估现成 LLM 是否能可靠地模拟受控行为实验中的人类反应。研究发现,虽然 LLM 能捕捉方向性效应和聚合信念更新模式,但它们的效应大小与人类尺度不一致,这有助于澄清合成 LLM 数据何时可以作为行为代理。
公平输出,偏见内部:大语言模型在高风险决策中潜在偏见的因果效力与非对称性
本文研究了指令微调的大语言模型如何在高风险决策(如抵押贷款承销)中表现出公平输出,同时保留有偏见的内部表征,表明这些隐藏偏见具有因果效力、非对称性,且可通过激活引导加以利用。
超越表面统计:通过内部表示实现LLM鲁棒共形预测
本论文提出了一个利用内部表示而非输出层统计的LLM共形预测框架,引入层级信息(LI)评分作为非一致性度量,在分布偏移下改进有效性-效率权衡。该方法在QA基准上相比文本级基线展现出更强的对校准-部署不匹配的鲁棒性。