论大语言模型的固有可解释性:设计原则和架构调查
摘要
一份综合调查,回顾了大语言模型(LLM)固有可解释性的最新进展,将方法分为五个设计范式:功能透明性、概念对齐、表示可分解性、显式模块化和潜在稀疏性诱导。论文解决了在模型架构中直接构建透明性,而不是依赖事后解释方法的挑战。
arXiv:2604.16042v1 公告类型:新
摘要:虽然大语言模型(LLM)在许多自然语言处理任务中取得了很好的性能,但它们不透明的内部机制阻碍了可信度和安全部署。现有的可解释人工智能调查主要关注事后解释方法,通过外部近似来解释训练过的模型。相比之下,固有可解释性直接在模型架构和计算中构建透明性,最近已成为一个有前景的替代方案。本文系统综述了LLM固有可解释性的最新进展,将现有方法分为五个设计范式:功能透明性、概念对齐、表示可分解性、显式模块化和潜在稀疏性诱导。我们进一步讨论了开放性挑战并概述了这一新兴领域的未来研究方向。论文列表可在以下网址获取:https://github.com/PKU-PILLAR-Group/Survey-Intrinsic-Interpretability-of-LLMs
查看缓存全文
缓存时间: 2026/04/20 08:30
# 大语言模型本质可解释性进展:设计原则和架构调查
来源:https://arxiv.org/html/2604.16042
Yutong Gao1,4,\*, Qinglin Meng5,\*, Yuan Zhou5, Liangming Pan1,2,3,†\\dagger 1北京大学计算语言学教育部重点实验室 2北京大学计算机科学学院 3北京智能研究院,北京,中国 4南京理工大学,5普渡大学 yutongkkk@njust\.edu\.cn,\{meng160, zhou1475\}@purdue\.edu liangmingpan@pku\.edu\.cn
###### 摘要
虽然大语言模型(LLMs)在许多自然语言处理任务中表现出色,但其不透明的内部机制阻碍了可信度和安全部署。现有的可解释AI调查主要关注事后解释方法,通过外部近似来解释已训练的模型。相比之下,本质可解释性直接将透明性构建到模型架构和计算中,最近成为了一个有前景的替代方案。本文系统回顾了大语言模型本质可解释性的最新进展,将现有方法分为五个设计范式:功能透明性、概念对齐、表征可分解性、显式模块化和潜在稀疏性诱导。我们进一步讨论了开放的挑战,并概述了这个新兴领域的未来研究方向。论文清单见:Survey\-Intrinsic\-Interpretability\-of\-LLMs (https://github.com/PKU-PILLAR-Group/Survey-Intrinsic-Interpretability-of-LLMs)
## 1 引言
大语言模型在多种任务中取得了显著成功\(Brownet al\.,2020 (https://arxiv.org/html/2604.16042#bib.bib4); Raffelet al\.,2020 (https://arxiv.org/html/2604.16042#bib.bib5); Chowdheryet al\.,2022 (https://arxiv.org/html/2604.16042#bib.bib6); Teamet al\.,2025 (https://arxiv.org/html/2604.16042#bib.bib7)\)。然而,它们的复杂性通常使其成为"黑箱"\(Bommasaniet al\.,2022 (https://arxiv.org/html/2604.16042#bib.bib68)\),隐藏了其内部决策制定过程。这种缺乏透明度的情况在医疗保健和法律等高风险领域中带来了信任和安全风险\(Rudin,2019 (https://arxiv.org/html/2604.16042#bib.bib67); Pawaret al\.,2020 (https://arxiv.org/html/2604.16042#bib.bib8)\)。
为了解决这些问题,可解释性研究通常分为两个范式:事后解释和本质设计。事后方法使用LIME、SHAP、稀疏自编码器或因果干预等外部工具分析已训练的固定模型\(Ribeiroet al\.,2016 (https://arxiv.org/html/2604.16042#bib.bib9); Lundberg and Lee,2017 (https://arxiv.org/html/2604.16042#bib.bib10); Hubenet al\.,2024 (https://arxiv.org/html/2604.16042#bib.bib11); Menget al\.,2022 (https://arxiv.org/html/2604.16042#bib.bib2)\)。许多方法依赖代理模型或统计归因,导致解释与模型真实计算之间存在众所周知的保真度差距\(Jacovi and Goldberg,2020 (https://arxiv.org/html/2604.16042#bib.bib1)\)。基于因果的事后方法通过直接干预内部组件来部分解决这个问题,从而获得更强的局部保真度\(Menget al\.,2022 (https://arxiv.org/html/2604.16042#bib.bib2); Wanget al\.,2023 (https://arxiv.org/html/2604.16042#bib.bib3)\)。然而,它们的解释仍然高度细粒度,难以聚合成对整体模型行为的连贯、高层次描述。
相比之下,本质可解释性将透明性直接构建到模型架构和训练过程中\(Feduset al\.,2022 (https://arxiv.org/html/2604.16042#bib.bib39); Gaoet al\.,2025 (https://arxiv.org/html/2604.16042#bib.bib57)\)。通过确保模型的内部计算本身是可解释的,这些方法旨在实现结构保真度,即模型行为及其解释之间的直接对应关系,而不依赖外部代理或事后聚合。然而,从历史上看,本质方法受到一个严重的权衡制约:通过构造透明的模型通常缺乏复杂语言任务所需的表达能力\(Linardatoset al\.,2021 (https://arxiv.org/html/2604.16042#bib.bib12)\)。
最近的进展表明可解释性和性能不一定是互相排斥的,证明大规模模型可以设计具有可解释的内部结构,同时保持竞争力的任务性能\(Rudin,2019 (https://arxiv.org/html/2604.16042#bib.bib67); Sharkeyet al\.,2025 (https://arxiv.org/html/2604.16042#bib.bib14)\)。通过将模块性、稀疏性、解缠和结构化表征等归纳偏置直接融入现代架构和训练目标\(Shazeeret al\.,2017 (https://arxiv.org/html/2604.16042#bib.bib15); Louizoset al\.,2018 (https://arxiv.org/html/2604.16042#bib.bib40); Feduset al\.,2022 (https://arxiv.org/html/2604.16042#bib.bib39); Gaoet al\.,2025 (https://arxiv.org/html/2604.16042#bib.bib57)\),这些方法使可解释性成为模型本身的一个属性,而不是事后分析。
尽管进展迅速,但关于本质可解释性的文献仍然零散,跨越不同的模型类、架构选择和训练原则。与事后解释方法的分类和局限性已被广泛调查不同\(Molnar,2025 (https://arxiv.org/html/2604.16042#bib.bib42); Madsenet al\.,2022 (https://arxiv.org/html/2604.16042#bib.bib72); Zhaoet al\.,2024a (https://arxiv.org/html/2604.16042#bib.bib74); Palikheet al\.,2025 (https://arxiv.org/html/2604.16042#bib.bib75)\),仍需要一个统一的框架来围绕共享的设计原则组织本质方法,或澄清不同机制如何促进大语言模型的透明性。本调查旨在填补这一空白,通过系统地回顾大语言模型的本质可解释性方法,提炼共同的设计原则,并突出开放的挑战和有前景的未来方向。
我们的贡献有三方面。首先,我们区分了事后解释和本质可解释性,澄清了它们在保真度、范围和设计哲学上的差异。其次,我们介绍了一个结构化的本质可解释性方法分类法,围绕五个核心设计原则进行组织:功能透明性、概念对齐、表征可分解性、显式模块化和潜在稀疏性诱导。最后,我们在这个框架内综合现有工作,分析方法强点和局限,并确定关键开放挑战和未来研究方向。
## 参考文献
- 具有自解释神经网络的稳健可解释性。神经信息处理系统进展31。引用:表1 (https://arxiv.org/html/2604.16042#A1.T1.2.2.2.3)。
- M. Böhle、M. Fritz和B. Schiele(2022)B-cos网络:对齐是我们所需的全部可解释性。在IEEE/CVF计算机视觉与模式识别会议论文集中,第10329–10338页。引用:表1 (https://arxiv.org/html/2604.16042#A1.T1.3.3.3.3)。
- R. Bommasani等(2022)基础模型的机遇与风险。外部链接:2108.07258,链接 (https://arxiv.org/abs/2108.07258)。引用:§1 (https://arxiv.org/html/2604.16042#S1.p1.1)。
- T. B. Brown等(2020)语言模型是少样本学习器。外部链接:2005.14165,链接 (https://arxiv.org/abs/2005.14165)。引用:§1 (https://arxiv.org/html/2604.16042#S1.p1.1)。
- C. Chang、R. Caruana和A. Goldenberg(2022)NODE-gam:用于可解释深度学习的神经广义加法模型。外部链接:2106.01613,链接 (https://arxiv.org/abs/2106.01613)。引用:表1 (https://arxiv.org/html/2604.16042#A1.T1.31.31.37.6.2)。
- A. Chowdhery等(2022)PaLM:用路径扩展语言建模。外部链接:2204.02311,链接 (https://arxiv.org/abs/2204.02311)。引用:§1 (https://arxiv.org/html/2604.16042#S1.p1.1)。
- Y. N. Dauphin、A. Fan、M. Auli和D. Grangier(2017)使用门控卷积网络的语言建模。在第34届国际机器学习会议ICML 2017论文集中,悉尼,新南威尔士州,澳大利亚,2017年8月6-11日,第933–941页。外部链接:链接 (http://proceedings.mlr.press/v70/dauphin17a.html)。引用:表1 (https://arxiv.org/html/2604.16042#A1.T1.31.31.31.3)。
- G. Do、H. Le和T. Tran(2025)统一稀疏混合专家。外部链接:2503.22996,链接 (https://arxiv.org/abs/2503.22996)。引用:表1 (https://arxiv.org/html/2604.16042#A1.T1.27.27.27.3)。
- W. Fedus、B. Zoph和N. Shazeer(2022)Switch Transformers:用简单高效的稀疏性扩展到万亿参数模型。机器学习研究杂志23,页面120:1–120:39。外部链接:链接 (https://jmlr.org/papers/v23/21-0998.html)。引用:§1 (https://arxiv.org/html/2604.16042#S1.p3.1),§1 (https://arxiv.org/html/2604.16042#S1.p4.1)。
- L. Gao、A. Rajaram、J. Coxon、S. V. Govande、B. Baker和D. Mossing(2025)权重稀疏Transformers具有可解释的电路。外部链接:2511.13653,链接 (https://arxiv.org/abs/2511.13653)。引用:表1 (https://arxiv.org/html/2604.16042#A1.T1.30.30.30.4),§1 (https://arxiv.org/html/2604.16042#S1.p3.1),§1 (https://arxiv.org/html/2604.16042#S1.p4.1)。
- Z. Gao、P. Liu、W. X. Zhao、Z. Lu和J. Wen(2022)预训练语言模型的参数高效混合专家架构。在第29届国际计算语言学会议论文集中,第3263–3273页。外部链接:链接 (https://aclanthology.org/2022.coling-1.288/)。引用:表1 (https://arxiv.org/html/2604.16042#A1.T1.21.21.21.3)。
- H. Guo等(2025)推进专家特化以获得更好的MoE。外部链接:2505.22323,链接 (https://arxiv.org/abs/2505.22323)。引用:表1 (https://arxiv.org/html/2604.16042#A1.T1.28.28.28.3)。
- T. Hastie和R. Tibshirani(1986)广义加法模型。统计科学1(3),页面297–310。外部链接:文献 (https://dx.doi.org/10.1214/ss/1177013604),链接 (https://doi.org/10.1214/ss/1177013604)。引用:表1 (https://arxiv.org/html/2604.16042#A1.T1.31.31.34.3.2)。
- M. Havasi、S. Parbhoo和F. Doshi-Velez(2022)在概念瓶颈模型中处理泄漏。在神经信息处理系统进展35中:2022年神经信息处理系统年会,NeurIPS 2022,美国路易斯安那州新奥尔良,2022年11月28日-12月9日。外部链接:链接 (http://papers.nips.cc/paper%5C_files/paper/2022/hash/944ecf65a46feb578a43abfd5cddd960-Abstract-Conference.html)。引用:表1 (https://arxiv.org/html/2604.16042#A1.T1.8.8.8.3)。
- J. Hewitt、J. Thickstun、C. D. Manning和P. Liang(2023)Backpack语言模型。在第61届计算语言学协会年会论文集(第1卷:长论文)中,ACL 2023,加拿大多伦多,2023年7月9-14日,第9103–9125页。外部链接:链接 (https://doi.org/10.18653/v1/2023.acl-long.506),文献 (https://dx.doi.org/10.18653/V1/2023.ACL-LONG.506)。引用:表1 (https://arxiv.org/html/2604.16042#A1.T1.13.13.13.3)。
- R. Huben、H. Cunningham、L. R. Smith、A. Ewart和L. Sharkey(2024)稀疏自编码器在语言模型中发现高度可解释的特征。在第十二届国际学习表征会议ICLR 2024中,奥地利维也纳,2024年5月7-11日。外部链接:链接 (https://openreview.net/forum?id=F76bwRSLeK)。引用:§1 (https://arxiv.org/html/2604.16042#S1.p2.1)。
- A. Jacovi和Y. Goldberg(2020)走向忠实可解释的NLP系统:我们应该如何定义和评估忠实性?在第58届计算语言学协会年会论文集ACL 2020中,在线,2020年7月5-10日,第4198–4205页。外部链接:链接 (https://doi.org/10.18653/v1/2020.acl-main.386),文献 (https://dx.doi.org/10.18653/V1/2020.ACL-MAIN.386)。引用:§1 (https://arxiv.org/相似文章
应用于大语言模型的可解释性研究:对比分析
一项对比研究,评估了三种可解释性技术(Integrated Gradients、Attention Rollout、SHAP)在微调 DistilBERT 模型上的表现,用于情感分类任务,重点突出了基于梯度、基于注意力和模型无关方法在大语言模型可解释性中的权衡。
多模态大语言模型内部视觉表征的因果探针
本文提出了一种用于探测多模态大语言模型内部视觉表征的因果框架,揭示了实体与抽象概念在编码方式上的差异。研究强调增加模型深度对于编码抽象概念至关重要,并揭示了当前多模态大语言模型在感知与推理之间的脱节。
大语言模型可信性无训练方法的系统研究
一项系统性研究,评估了改进大语言模型可信性的无训练方法,将方法分为输入、内部和输出级干预,同时分析可信性、实用性和鲁棒性之间的权衡。
可解释性
Anthropic 的可解释性团队致力于从内部理解大型语言模型,以增强 AI 安全性并促进积极成果,采用多学科交叉的研究方法。
揭示大语言模型中的数学推理:内部机制的方法学研究
本文通过早期解码分析大语言模型的内部机制,研究其如何执行算术运算。研究发现,能力强的模型在推理任务中,注意力模块和 MLP 模块之间呈现明确的分工。