激进AI可解释性

arXiv cs.AI 论文

摘要

本文借鉴激进解释哲学和机械可解释性工具,构建了一个将AI系统解释为智能体的框架,探讨如何通过理解系统的信念、欲望和意义来信任AI系统。

arXiv:2606.26523v1 公告类型:新 摘要:我们借鉴激进解释的哲学传统和机械可解释性工具,构建了一个将AI系统解释为智能体的框架。核心问题是:给定一个系统的计算事实,如何求解其信念、欲望和意义?这对安全性越来越重要。我们希望信任所部署的系统,无论是通过理解其目标,还是更谦逊地通过可靠地检测欺骗。可解释性研究人员正在构建从模型内部读取信念和欲望的工具,但对于这些工具何时成功,尚无定论。本书提供了一种方案。我们针对表征主义和解释主义方法提出了标准,并将每种方法与当前可解释性方法能够执行的测试联系起来。一个核心教训是,这些归因不能零散地进行。信念、欲望及其预设的命题结构是共同约束的,如果一种方法固定其中一个而测量其他,则会继承由此引入的任何扭曲。这种整体性对AI系统而言变得紧迫,因为它们可能不共享解释者的概念。然而,这也提供了杠杆作用:系统的态度约束其命题结构,该结构约束哪些态度可以被归因,而机械可解释性可以帮助我们测量两者。
查看原文
查看缓存全文

缓存时间: 2026/06/26 05:13

# 激进式AI可解释性  
来源:https://arxiv.org/abs/2606.26523  
查看PDF (https://arxiv.org/pdf/2606.26523)  

> **摘要:** 我们基于激进解释的哲学传统与机制可解释性的工具,构建了一个将AI系统解释为智能体的框架。核心问题是:给定一个系统的计算事实,我们如何求解其信念、欲望和意义?这在安全方面日益重要。我们希望能够信任所部署的系统,无论是通过理解其目标,还是更谦逊地通过可靠地检测欺骗行为。可解释性研究者正在构建从模型内部读取信念和欲望的工具,但关于这些工具何时算作成功,尚未有确定的说法。本书提供了这样一种说法。我们在表征主义方法和解释主义方法上分别提出了评判标准,并将每一项与当前可解释性方法能够执行的测试联系起来。一个核心教训是:这些归因无法零散地进行。信念、欲望及其所预设的命题结构是共同受约束的,而先固定其中一个再测量其他项的方法,必然会继承由此引入的任何扭曲。这种整体论在处理AI系统时变得尤为紧迫,因为AI系统可能不共享解释者的概念。然而,这也提供了杠杆作用:系统的态度约束了其命题结构,而该结构又约束了哪些态度可以被归因;机制可解释性有助于我们同时测量这两者。

## 提交历史

来自:Benjamin Levinstein [发送邮件](https://arxiv.org/show-email/52989f28/2606.26523)  
**[v1]** 2026年6月25日星期四 01:58:38 UTC(104 KB)

相似文章

可解释性

Anthropic Research

Anthropic 的可解释性团队致力于从内部理解大型语言模型,以增强 AI 安全性并促进积极成果,采用多学科交叉的研究方法。