可解释性应具备可操作性
摘要
本文主张,可解释性研究应基于“可操作性”进行评估,即研究成果在多大程度上能够促成具体的决策与干预措施。作者提出了一套与实际应用结果相一致的评估标准框架,以解决当前可解释性工作缺乏现实影响力的问题。
arXiv:2605.11161v1 公告类型:新增
摘要:可解释性旨在解释深度神经网络的行为。尽管该领域发展迅速,但人们日益担忧,大量相关工作尚未转化为实际影响力,这引发了对其相关性与实用性的质疑。本立场文件指出,目前缺失的关键因素并非新方法,而是评估标准:可解释性应通过其“可操作性”来评估,即研究成果在多大程度上能够在可解释性研究之外促成具体的决策与干预措施。我们沿着“具体性”和“验证”两个维度定义了“可操作的可解释性”,并分析了目前阻碍其产生现实影响的障碍。为克服这些障碍,我们确定了五个可解释性能够发挥独特作用的领域,并提出了一套包含与实际结果相一致评估标准的可操作可解释性框架。我们的目的并非贬低探索性研究,而是确立“可操作性”作为可解释性研究的核心目标。
查看缓存全文
缓存时间: 2026/05/13 06:32
# 可解释性可以是可操作的 来源:https://arxiv.org/html/2605.11161 Fazl Barez, Tal Haklay, Isabelle Lee, Marius Mosbach, Anja Reusch, Naomi Saphra, Byron C Wallace, Sarah Wiegreffe, Eric Wong, Ian Tenney, Mor Geva ###### 摘要 可解释性旨在解释深度神经网络的行为。尽管该领域发展迅速,但人们日益担忧许多研究工作并未转化为实际影响力,这引发了对其相关性和实用性的质疑。本立场论文认为,当前缺失的关键要素并非新方法,而是评估标准:可解释性应当通过**可操作性(actionability)**进行评估——即洞察在多大程度上能够促成具体的决策和干预,从而超越可解释性研究本身。我们从**具体性(concreteness)**和**验证(validation)**两个维度定义了可操作的可解释性,并分析了目前阻碍其产生实际影响的障碍。为了应对这些障碍,我们确定了可解释性能够提供独特杠杆作用的五个领域,并提出了一个可操作可解释性框架,其评估标准与实际成果保持一致。我们的目标并非贬低探索性研究,而是要确立可操作性作为可解释性研究的核心目标。 机器学习, ICML 见图 1:可解释性研究的可操作性检查清单。 ## 1 引言 可解释性研究旨在解释现代机器学习系统。近年来,在“理解模型应有助于使其更可靠、更高效、更安全并与人类价值观保持一致”这一直觉的驱动下,可解释性已发展成为一个庞大且活跃的研究领域(Mosbach et al., 2024; Maslej et al., 2025; Bereska and Gavves, 2024)。尽管其规模不断扩大,但可解释性工作常被认为缺乏实际影响力,例如未能指导模型变更、训练实践、部署决策或政策制定(Krishnan, 2020; Greenblatt et al., 2023; Potts, 2025),这促使人们呼吁关注超越“理解”本身的、可明确展示的成果(Haklay et al., 2025b; Upadhyay and Barez, 2025; Nanda et al., 2025; Barez, 2026)。 我们的框架部分借鉴了 ICML 2025 关于可操作可解释性的研讨会上的讨论,该研讨会旨在促进关于利用可解释性洞察推动人工智能实质性进步的对话。在本文中,我们主张,可解释性研究不仅应根据其解释模型的效果来评估,更应根据这些解释使我们能够**做什么**来评估。也就是说,可解释性应遵循**可操作性**的标准。我们认为,如果该领域不仅明确追踪我们理解了什么,还追踪这种理解使我们能够做什么,其影响力将会得到加强。然而,我们并不认为所有的可解释性工作都必须立即产生可操作的成果,也不认为纯粹的探索性贡献没有价值。事实上,方法学的新颖性与已证明的应用并不矛盾——将发现建立在现实世界行动的基础上,是对方法提出了更高的标准,提供了证据表明洞察反映了真实的模型行为,而非特定分析的伪影。 可解释性研究中缺失的并非**方法**,而是**评估标准**:即从实际、以决策为导向的角度确定可解释性研究何时成功的共享框架。因此,我们推进了一个可操作可解释性的框架:分析当前的局限性,确定产生影响力的机会,并提出增加可操作性的实用工具。图 1 将我们的核心论点转化为研究人员的具体步骤。 **范围**。我们关注现代机器学习中的可解释性,重点是深度学习和基础模型。虽然我们从大语言模型(LLMs)中引用了许多例子,但我们的论点广泛适用于任何可能需要解释的深度神经网络领域。这是一篇立场论文:与其进行详尽的综述,我们提出将可操作性作为评估可解释性工作的统一视角。本文结构如下:第 2 节定义可操作的可解释性。第 3 节诊断目前阻碍可解释性产生实际影响的障碍。论文的其余部分为更具可操作性的可解释性铺平道路。第 4 节确定了可操作性的机会。第 5 节提出了对行动进行分类的框架,第 6 节讨论了与可操作性一致的评估标准。第 7 节回应反驳论点。第 8 节回顾相关工作。第 9 节总结,并为研究人员提供了一份可操作检查清单,见图 1。 ## 2 定义可操作的可解释性 我们将一项**工作**<sup>1</sup>(由“工作”,我们广泛指代研究或工程贡献,包括方法、模型、分析、基准和实证研究)视为**以可解释性为导向**,如果它旨在解释或分析一个人工智能模型——例如,分析模型表示、解释特定行为或能力,或发现内部机制的工作。有了这一区分,我们提供以下定义: ### 可操作的可解释性 如果一项以可解释性为导向的工作产生了关于人工智能模型的**洞察**,这些洞察能够告知或指导朝向**非可解释性目标**的**行动**,则该工作是可操作的。 * **洞察(Insights)**是可解释性工作的输出:关于模型如何表示或处理输入的发现、内部机制的解释,或阐明行为的方法。 * **行动(Actions)**(朝向非可解释性目标)是人类对可解释性洞察做出的响应决策,否则这些决策不会发生。这些行动超出了可解释性本身的范围,理想情况下应导致具体的改进,例如性能增强、信任校准更好或安全性提高。 ### 2.1 可操作性的维度 在实践中,可操作性更加细致,而非二元的。以可解释性为导向的工作可以支持不同水平的可操作性,我们通过两个关键维度来表征:**具体性(concreteness)**和**验证(validation)**。 * **具体性(Concreteness)**捕捉行动被阐述的精确程度。低端是模糊的建议(“可以为安全研究提供信息”)或根本没有建议;高端是具有实施细节的精确规范。 * **验证(Validation)**捕捉对行动实用性的实证支持。低端,行动是未经检验的假设;高端,行动经过系统评估,具有定量或定性的证据,证明在可解释性研究本身之外产生了有意义的成果。 共同地,这些维度涵盖了一个定位可解释性工作的空间(在附录的图 3 中说明): * **低具体性,低验证**:该区域的工作不推荐任何具体的待验证行动。然而,这项工作的洞察可以通过提供他人可以构建和测试的起点,为未来的工作提供信息。例如,Geva et al. (2021) 关于 MLP 的关键值内存视图在方向上激励了后续关于知识局部化和模型编辑的工作。Wang et al. (2023), Conmy et al. (2023) 和其他人为基于电路的分析奠定了基础。虽然这不是本文的重点,但此类探索性工作对于推动该领域向前发展至关重要。 * **高具体性,低验证**:提出了具体的行动但未经实证验证——例如,验证科学模型以建立对其预测信任的方法(King et al., 2025; Li et al.; Ferreira et al., 2025),或优化模型部署和训练的方法(Zhao et al., 2025; Chen et al., 2025)。 * **高具体性,高验证**。具有已证明实用性的精确规范,这些规范由来自工作本身或先前工作的可解释性洞察所 informing。例子包括利用 MLP 键值存储视图的模型编辑方法(Men et al., 2022; Wang et al., 2023; Arad et al., 2024; Fang et al., 2025),基于稀疏自动编码器(Gur-Arieh et al., 2025; Ashuach et al., 2025a)或对交叉注意力层作用的洞察(Orgad et al., 2023; Gandikota et al., 2024)。表示微调(Wu et al., 2024),作为基于 LoRA 方法的替代方案,灵感来源于可解释性发现。Schu et al. (2025) 使用概念向量发现可转移给人类玩家的新型国际象棋概念。Anthropic (2025) 在对 Claude 进行安全审计时分析了内部激活。 ## 3 为什么可解释性尚未(Yet)可操作 尽管兴趣日益浓厚,但几个障碍限制了可解释性的实际影响:激励不一致、方法学局限性和部署挑战。这些因素强化了一个循环,其中可操作性未被优先考虑,方法缺乏验证,部署几乎没有反馈。论文的其余部分讨论了如何在这些局限性下推进可操作的可解释性。 ### 3.1 激励不一致 可解释性社区没有充分奖励展示实际价值的工作。如果没有强烈的激励去证明可解释性方法带来实际价值,研究人员进行或关注可操作可解释性工作的可能性就会降低。 * **发表标准不要求可操作性**。论文可以纯粹基于方法学的新颖性而被接受,无需证明应用。与此同时,**注重应用的工作奖励不足**。实用演示可能被 dismiss 为“仅仅是工程”,尽管它们具有更大的潜在影响力。我们认为,方法学的新颖性与应用演示并不矛盾——演示应用对可解释性方法提出了更高的标准,提供了发现扎根于现实的证据。这种不对称性——对可操作性的低要求与对其演示的低奖励相结合——极大地降低了研究人员追求实际应用的激励。 * 这些问题并非可解释性领域独有,主流机器学习(ML)研究中也存在。然而,与应用的 ML 不同,基准性能提供即时反馈,**可解释性缺乏明确的 success 信号**。主流 ML 研究有一个可解释性所缺乏的强制函数:新方法必须在既定的基准上展示增益。该领域已经从玩具问题发展到现实世界任务——从 MNIST 到 ImageNet,从 Penn Treebank 到多样的下游任务。然而,可解释性领域尚未完全成熟,缺乏公认的标准。 ### 3.2 方法学局限性 这些激励差距通常表现为具体的技术问题,阻止可解释性洞察转化为行动。在本节中,我们概述此类技术问题及相关方法。 * **缺乏可操作的洞察**。可解释性工作往往未能阐述如何利用发现激发具体行动。这一局限性反映在 ICML 2025 关于可操作可解释性的研讨会上,在 21.8% 的提交论文中,至少有一位审稿人明确标记该工作可操作性不足。Mosbach et al. (2024) 显示,虽然可解释性论文被引用,但其影响主要是概念性的——大多数引用并未归功于对训练、架构或评估的更改。虽然基础性工作最终可能会推动可操作性(Bau, 2025),但该领域应明确反思洞察在其边界之外的重要性。 * **过于简化的设置**。许多研究使用简化的任务和小模型。例如,许多关于 LLM 的机制研究集中在单个下一个 token 预测(Mueller et al., 2025),而实际使用涉及多 token 生成。这些设置作为受控测试床很有价值,但其洞察可能无法转移到现实场景中。Haklay et al. (2025a) 最近的开始着手解决这些局限性,通过处理可变长度输入的电路发现。 * **缺乏充分的比较分析**。许多工作缺乏与替代方法的严格比较,并且未能评估跨架构、数据集和任务的鲁棒性。正如 Casper (2023) 所论证的,薄弱的评估阻碍了向实用工具的进步。最近的基准已经开始解决这一局限性,突出了实证比较的重要性。AxBench(Wu et al., 2025)显示,对于 LLM 引导,提示和微调通常优于可解释性方法。MIB(Mueller et al., 2025)评估了电路局部化和因果变量局部化——两个广泛研究但先前缺乏比较手段的方向。 见图 2:可解释性提供独特杠杆作用以推动具体改进的五个领域。 ### 3.3 部署挑战 即使可解释性方法提供了实际价值,仍有几个障碍阻碍其采用。 * **技术复杂性**。要使用可解释性技术,用户必须深入了解模型内部,并熟悉专门的库(Nanda and Bloom, 2022; Fiotto-Kaufman et al., 2025)。社区以外的人通常缺乏所需的专业知识(Ashtari et al., 2023),因此很少采用这些方法,特别是当存在更简单的替代方案时。 * **开放权重的假设**。大多数方法需要直接访问权重和激活,将适用性限制在开放权重模型上。这造成了一种紧张关系:可解释性通常由围绕强大前沿模型的安全问题所驱动,但这些模型往往是专有的,因此抵制此类分析。 ## 4 使可解释性可操作 在第 3 节中,我们确定了阻止可解释性研究产生持续实际影响的局限性。在此,我们转向...
相似文章
可解释性
Anthropic 的可解释性团队致力于从内部理解大型语言模型,以增强 AI 安全性并促进积极成果,采用多学科交叉的研究方法。
@DivyanshT91162: 微软研究刚刚发布了一篇论文,彻底颠覆了对可解释性的理解。(收藏此篇)多年来,……
微软研究院推出了Agentic-iModels,这是一个框架,其中编码代理进化出针对LLM可解释性而非人类可读性优化的scikit-learn回归器,在65个数据集上超越了传统的可解释机器学习方法。
超越黑盒:智能体人工智能工具使用的可解释性
本文介绍了一种基于稀疏自编码器(SAE)和线性探针的机制可解释性工具包,用于在智能体调用工具之前监控模型内部状态,旨在提高企业工作流中的诊断能力和安全性。
通过可解释性理解标注员安全策略
本文介绍了苹果公司提出的标注员策略模型(APMs),该模型利用可解释性技术,无需额外标注努力即可从标注行为中推断标注员内部的安全策略。作者证明,APMs 能够准确地建模这些策略,并区分标注分歧的来源,例如操作失误、策略模糊性和价值观多元性。
评估安全关键型ATR系统中的可解释性:事后方法的局限性与迈向稳健型XAI的路径
本文评估了安全关键型自动目标识别(ATR)系统中的可解释性方法,突出了显著性图和注意力图等事后技术的局限性。提出了一种分类法和评估框架,以解决虚假解释和不稳定性等问题,倡导采用更稳健、基于因果关系的XAI方法。