超越事后解释:通过概率中介迈向 Glassbox AI
摘要
本文提出了一种 Glassbox 框架,该框架利用贝叶斯网络作为生成模型的透明事前中介层,实现了可审计的推理轨迹和可质疑的输出,以解决高风险 AI 应用中的不透明性问题。
arXiv:2606.07113v1 公告类型:新
摘要:大型语言模型正迅速成为高风险机构场景中的基础设施组件,这些场景包括公共管理、法律推理和医疗健康。在这些场景中,不透明性不仅带来不便,更在制度和法律上难以持续。现有的可解释性方法主要是事后的,提供不稳定的、不可质疑的说明,这些说明与产生输出的推理过程没有正式关联。我们认为,问题不在于缺乏解释,而在于一开始就缺乏结构化的推理。本文提出了一种根本不同的架构,我们称之为 Glassbox 框架,其中贝叶斯网络作为生成模型的透明事前中介层。贝叶斯网络在推理发生之前编码领域知识、因果假设和概率依赖关系,从而实现可审计的推理轨迹、不确定性量化和可质疑的输出。我们描述了该框架的架构,并将其应用于一个福利资格场景,识别出需要在大规模实现时必须解决的基础性挑战,包括语义对齐、动态模型构建、概率基础和人类治理。通过从事后解释转向事前概率中介,这项工作为构建不仅强大而且从根本上负责的 AI 系统勾勒了一条原则性路径。
查看缓存全文
缓存时间: 2026/06/08 09:14
# 超越事后解释:迈向基于概率中介的可解释AI(Glassbox Framework) 来源:https://arxiv.org/html/2606.07113 ###### 摘要 大型语言模型正迅速成为高风险机构环境中的基础设施组件,涉及公共行政、法律推理和医疗保健等领域——在这些领域,不透明性不仅带来不便,更在制度和法律上无法立足。现有的可解释性方法主要是事后性的,提供不稳定、不可辩驳的解释,与产出推理过程之间缺乏正式关联。我们认为,问题不在于缺乏解释,而在于从一开始就缺乏结构化的推理过程。本文主张一种根本不同的架构,我们称之为**Glassbox框架**,其中贝叶斯网络作为生成模型的透明、事前中介层。贝叶斯网络在推理发生之前编码领域知识、因果假设和概率依赖关系,从而实现可审计的推理轨迹、不确定性量化和可争议的输出。我们刻画了该框架的架构,并基于一个福利资格判定场景进行具象化,指出了在大规模实现该框架时必须解决的基础性挑战,包括语义对齐、动态模型构建、概率基础以及人类治理。通过从事后解释转向事前概率中介,本文描绘了一条通往既强大又根本可问责的AI系统的原则性路径。 ## 引言 大型语言模型(LLMs)已迅速从研究产物转变为具有深远影响的基础设施,嵌入到公共行政、医疗和法律推理等领域的决策系统之中(Bommasani等,2021(https://arxiv.org/html/2606.07113#bib.bib17))。这种转变带来了首要的治理挑战。当一个生成模型影响保释决定、福利评估或医疗分诊时,其推理过程的不透明性不仅仅是技术上的不便,更是一个制度和法律问题。《欧盟人工智能法案》(European Union,2024(https://arxiv.org/html/2606.07113#bib.bib14))明确了越来越多的高风险应用,这些应用必须具备可审计性和透明性,而目前针对这一挑战的主流应对措施仍然不足。 这些治理风险并非仅仅是抽象的制度概念。公众对AI驱动自动化的担忧广泛存在、日益加剧,且分布不均。来自德国的调查证据显示,公众对AI监管的支持远未达成共识,对于当前欧盟层面的监管是否充分存在系统性差异(Cremaschi等,2025a(https://arxiv.org/html/2606.07113#bib.bib23))。同样,在拉丁美洲,对AI导致失业的恐惧普遍存在,其结构受制于教育水平、政治意识形态和制度信任(Cremaschi等,2025b(https://arxiv.org/html/2606.07113#bib.bib24))。在二十多个国家和多个应用领域中也记录到了类似的焦虑(Dong等,2026(https://arxiv.org/html/2606.07113#bib.bib43)),这呼应了长期以来关于自动化对低技能劳动者威胁更大的证据(Frey and Osborne,2017(https://arxiv.org/html/2606.07113#bib.bib42))。这些发现强调,不透明性问题不仅仅是技术问题。当对人们生活产生重大影响的决策由那些推理过程无法被审查或质疑的系统做出时,那些最受其影响的人群恰恰也是最无力对此提出异议的人。 应对这一挑战的主流方案是事后可解释性:在事后构建一个次级模型或程序,来近似描述一个不透明主模型的行为(Ribeiro等,2016(https://arxiv.org/html/2606.07113#bib.bib3);Lundberg and Lee,2017(https://arxiv.org/html/2606.07113#bib.bib4))。Rudin(2019(https://arxiv.org/html/2606.07113#bib.bib1))曾有力地论证了这种方法存在根本缺陷:这些解释不稳定、常常不忠实于底层模型,并且无法提供正式的问责保证。然而,她提出这一建议时,世界仍处于可解释模型与黑箱模型之间选择尚存的时代。LLMs作为基础设施组件的出现,在许多领域关闭了这一选择。我们无法用决策树替代LLM。黑箱如今是我们所处的环境,而非一个建模选择(Burrell,2016(https://arxiv.org/html/2606.07113#bib.bib36)),因此需要新的框架。 我们认为,问题不在于缺乏解释,而在于从一开始就缺乏结构化的推理过程。本文主张一种根本不同的架构,我们称之为**Glassbox框架**,其中贝叶斯网络(BNs)(Pearl,2009(https://arxiv.org/html/2606.07113#bib.bib8))作为生成模型的透明、事前中介层。Glassbox框架并非在事后为不透明输出附加解释,而是在推理发生之前引入一个形式化指定、可检查的推理结构,使得输出是可审计、可争议、且基于明确领域知识的。 本文做出四项贡献。首先,我们引入并正式刻画了Glassbox框架,将其作为一种可问责生成式AI的概念架构。其次,我们将BN-LLM接口本身定义为一个科学对象,既区别于事后可解释性,也区别于神经符号集成。第三,我们刻画了语言与概率之间的表征鸿沟,通过一个基于规范性领域推理的结构化思想实验说明了语义对齐问题的严重性,并通过一个福利资格判定场景展示了该框架的操作特性。第四,我们指出了在大规模实现该框架时必须解决的基础性研究挑战,从而构成了高风险AI系统中概率中介的研究议程。 ## 事后可解释性的局限 解决机器学习系统不透明性的主流范式是事后可解释性:给定一个训练好的模型和一个输入,应用一个次级程序来近似或总结模型行为,用人类可理解的术语表达(Ribeiro等,2016(https://arxiv.org/html/2606.07113#bib.bib3);Doshi-Velez and Kim,2017(https://arxiv.org/html/2606.07113#bib.bib12);Lundberg and Lee,2017(https://arxiv.org/html/2606.07113#bib.bib4))。这一范式催生了大量研究活动,但它建立在一个有缺陷的前提之上。这些方法所依据的“可解释性”概念本身已被证明严重定义不足:不同的利益相关者对解释有不同的需求,没有一种事后方法能满足所有需求(Lipton,2018(https://arxiv.org/html/2606.07113#bib.bib29))。这些解释并非关于系统如何推理的说明,而是关于系统输出什么的事后近似,由另一个机制构建,与原始模型没有正式联系。我们确定了三种在高风险机构环境中尤为严重的失效模式。 ### 不稳定性 事后解释对输入中的微小扰动非常敏感。即使底层预测结果不变,略微不同的输入也可能产生截然不同的解释(Alvarez Melis and Jaakkola,2018(https://arxiv.org/html/2606.07113#bib.bib5))。这种不稳定性并非特定方法的可修正局限;它是用简单的代理函数逼近复杂函数的结构性后果。在那些要求一致、可复现的推理过程是法律和伦理要求的机构环境中,一个在相似案例间随意变化的解释比没有解释更糟糕,因为它造成了一种透明度的假象,却无法提供任何实质内容。 ### 不可争议性 当受影响的一方能够审查产生决策的推理过程,识别出具体的分歧点,并据此提出质疑时,该决策才是可争议的(Wachter等,2017(https://arxiv.org/html/2606.07113#bib.bib13);Novelli等,2024(https://arxiv.org/html/2606.07113#bib.bib25))。事后解释无法支持真正的可争议性,因为它们与产生输出的推理过程没有正式关系。质疑一个LIME或SHAP的解释,并不是在质疑模型本身;而是在质疑一个由不同系统、使用不同逻辑构建的模型近似。社会科学的研究表明,解释在人类互动中本质上发挥社会性和对话性功能,是管理问责的工具,而计算模型行为的近似并不能满足使解释在机构环境中真正有用的标准(Miller,2019(https://arxiv.org/html/2606.07113#bib.bib30))。数据保护法规中通常框架化的“解释权”所提供的保证之所以薄弱,正是因为它们不要求解释忠实于底层模型(Edwards and Veale,2017(https://arxiv.org/html/2606.07113#bib.bib40))。欧盟AI法案对高风险系统提出的透明性和人类监督要求(European Union,2024(https://arxiv.org/html/2606.07113#bib.bib14))隐含地要求这种类型的可争议性,然而事后方法在结构上无法提供这一点。 ### 问责差距 事后方法告诉你哪些输入特征影响了预测。它们无法告诉你该预测是否与领域知识一致,是否尊重规范性约束,或者产生该预测的推理过程相对于任何明确标准是否站得住脚(Rudin,2019(https://arxiv.org/html/2606.07113#bib.bib1);Buttaboni and Floridi,2026(https://arxiv.org/html/2606.07113#bib.bib21))。不存在明确的责任落脚点,也没有可以审查、质疑或被问责的结构。Floridi和Cowls(2022(https://arxiv.org/html/2606.07113#bib.bib20))将可解释性(explicability)确定为可信AI的基本原则,但可解释性需要的不仅仅是事后总结。它要求推理过程本身是结构化的且可检查的。 这三种失效模式有一个共同的根源:事后解释是对一个从未为问责而设计的系统所施加的修正。这种修正无法替代它所意图取代的东西。我们需要的不是更好的解释,而是一种根本不同的架构:一种在推理发生之前就将结构化、可检查的推理内建在系统中的架构,而不是事后才将其附加上去。 ## Glassbox框架 前文指出的局限性促使我们转变对AI系统问责性的构想。我们不再追问如何解释一个已做出的决策,而是问如何确保推理过程本身是结构化的、可检查的,并且在推理发生之前就已形式化奠基。我们将这种转变称为**事前问责性**,而实现这一点的架构则称为**Glassbox框架**。 事后问责与事前问责之间的区别并非仅仅是术语上的不同。事后方法将推理过程视为固定不变且不透明的,并试图在事后使用一个次级系统来重建它。事前方法则将推理结构视为一等公民,在推理开始之前就明确指定它。系统的问责属性(透明性、可争议性、不确定性量化)因此成为架构的直接结果,而非从中推导出的近似值。这就是Glassbox框架与可解释AI的根本区别所在:它不是解释不透明性,而是取代了不透明性。 检索增强生成(Lewis等,2020(https://arxiv.org/html/2606.07113#bib.bib41))代表了将LLM输出锚定于外部知识的一种尝试,但检索到的内容仍然受制于LLM的非结构化推理:没有形式化推理,没有一致性强制,也没有可检查的推理轨迹。Glassbox框架的根本区别在于,贝叶斯网络(而非LLM)才是推理权威。 ### 概念基础 Glassbox框架建立在三个概念承诺之上。第一个承诺是:结构化概率知识(而非自然语言流利度)应成为高风险推理的基石。LLM是生成合理文本的强大工具,但合理性并不等同于正确性、一致性或问责性(Bender等,2021(https://arxiv.org/html/2606.07113#bib.bib19);Weidinger等,2021(https://arxiv.org/html/2606.07113#bib.bib18))。当一个系统影响高风险决策时,产生该决策的推理必须能够追溯到明确的假设,而非从网络规模数据中隐式学习到的统计模式。 第二个承诺是:贝叶斯网络(BN)是满足这一角色的天然形式化候选(Pearl,2009(https://arxiv.org/html/2606.07113#bib.bib8);Fenton and Neil,2018(https://arxiv.org/html/2606.07113#bib.bib9))。BN将一组变量上的联合概率分布编码为有向无环图,使得条件依赖关系明确且可检查。这种结构支持对于事前问责至关重要的三个属性。**不确定性量化**是原生的:每次推理都产生一个概率分布,而非点预测,并且每个变量对最终输出的贡献都可以被追踪和检查(Koller and Friedman,2009(https://arxiv.org/html/2606.07113#bib.bib27);Ballester-Ripoll and Leonelli,2022(https://arxiv.org/html/2606.07113#bib.bib28))。**反事实推理**是直接的:干预任何变量或删除任何证据的效果可以直接从图结构计算,无需次级近似(Peters等,2017(https://arxiv.org/html/2606.07113#bib.bib44))。**模块化**得以保留:特定领域的规范性知识可以被编码到BN中,而不影响通用架构,从而使该框架可以在不同机构环境中移植(Neil等,2000(https://arxiv.org/html/2606.07113#bib.bib26);Leonelli等,2020(https://arxiv.org/html/2606.07113#bib.bib45))。 第三个承诺是:语言与概率之间的接口本身是一个科学对象,而非工程细节。BN-LLM接口是两种根本不同知识表示必须交互的地方:一方面是生成模型的分布性、隐式、高维表示,另一方面是概率图模型的离散、结构化、语义锚定的表示。我们认为,这个接口如何构建、验证和治理,是可问责生成式AI的核心开放问题,也是我们将在本文后面深入探讨的问题。 ### 架构 治理层推理层问责层专家引出领域知识DAG规范规范性结构机构审计审查与验证更新协议修订与授权审计轨迹完整推理记录可争议输出节点级挑战机构审查外部审查上诉路径正式补救输入非结构化LLM解析提取语义接口贝叶斯网络推理· 不确定性量化一致性检查模块化子图LLM输出渲染输出可审计不一致标志· 针对性重新查询虚拟证据(软)DAG规范审计日志输出
相似文章
超越黑盒:智能体人工智能工具使用的可解释性
本文介绍了一种基于稀疏自编码器(SAE)和线性探针的机制可解释性工具包,用于在智能体调用工具之前监控模型内部状态,旨在提高企业工作流中的诊断能力和安全性。
AI 安全的 geopolitics:区域大语言模型偏差的因果分析
本文引入了一个概率图模型框架,以因果方式审核大语言模型(LLM)的安全机制,揭示出由于忽视了语境的毒性,标准的观测指标高估了人口统计学偏差。
我们为何构建
一篇观点文章,提倡构建能够从领域专家处提供透明、可验证知识的AI系统,从而实现基于发现的学习,并抵制集中式宣传。
别赌博,用GAMBLe:AI驱动研究系统的分析框架
该论文介绍了GAMBLe,一个将AI驱动研究系统分解为生成器、评估器、发现机制和预算的框架,揭示了组件交互如何塑造优化景观。在NP困难问题上的实验表明,没有普遍最佳的配置,强调了谨慎选择组件的必要性。
打破概率的枷锁:Neutrosophic Logic作为大语言模型中认知不确定性的新框架
本文研究了Neutrosophic Logic作为大语言模型中认知状态建模的框架,证明了它能够捕捉超越传统概率约束的'hyper-truth'状态,从而带来更透明、更具伦理意识的AI系统。