激进AI可解释性

arXiv cs.AI 2026/06/26 04:00 论文

摘要

本文借鉴激进解释哲学和机械可解释性工具，构建了一个将AI系统解释为智能体的框架，探讨如何通过理解系统的信念、欲望和意义来信任AI系统。

arXiv:2606.26523v1 公告类型：新摘要：我们借鉴激进解释的哲学传统和机械可解释性工具，构建了一个将AI系统解释为智能体的框架。核心问题是：给定一个系统的计算事实，如何求解其信念、欲望和意义？这对安全性越来越重要。我们希望信任所部署的系统，无论是通过理解其目标，还是更谦逊地通过可靠地检测欺骗。可解释性研究人员正在构建从模型内部读取信念和欲望的工具，但对于这些工具何时成功，尚无定论。本书提供了一种方案。我们针对表征主义和解释主义方法提出了标准，并将每种方法与当前可解释性方法能够执行的测试联系起来。一个核心教训是，这些归因不能零散地进行。信念、欲望及其预设的命题结构是共同约束的，如果一种方法固定其中一个而测量其他，则会继承由此引入的任何扭曲。这种整体性对AI系统而言变得紧迫，因为它们可能不共享解释者的概念。然而，这也提供了杠杆作用：系统的态度约束其命题结构，该结构约束哪些态度可以被归因，而机械可解释性可以帮助我们测量两者。

查看原文

查看缓存全文

缓存时间: 2026/06/26 05:13

# 激进式AI可解释性  
来源：https://arxiv.org/abs/2606.26523  
查看PDF (https://arxiv.org/pdf/2606.26523)  

> **摘要：** 我们基于激进解释的哲学传统与机制可解释性的工具，构建了一个将AI系统解释为智能体的框架。核心问题是：给定一个系统的计算事实，我们如何求解其信念、欲望和意义？这在安全方面日益重要。我们希望能够信任所部署的系统，无论是通过理解其目标，还是更谦逊地通过可靠地检测欺骗行为。可解释性研究者正在构建从模型内部读取信念和欲望的工具，但关于这些工具何时算作成功，尚未有确定的说法。本书提供了这样一种说法。我们在表征主义方法和解释主义方法上分别提出了评判标准，并将每一项与当前可解释性方法能够执行的测试联系起来。一个核心教训是：这些归因无法零散地进行。信念、欲望及其所预设的命题结构是共同受约束的，而先固定其中一个再测量其他项的方法，必然会继承由此引入的任何扭曲。这种整体论在处理AI系统时变得尤为紧迫，因为AI系统可能不共享解释者的概念。然而，这也提供了杠杆作用：系统的态度约束了其命题结构，而该结构又约束了哪些态度可以被归因；机制可解释性有助于我们同时测量这两者。

## 提交历史

来自：Benjamin Levinstein [发送邮件](https://arxiv.org/show-email/52989f28/2606.26523)  
**[v1]** 2026年6月25日星期四 01:58:38 UTC（104 KB）

激进AI可解释性

相似文章

可解释性

超越黑盒：智能体人工智能工具使用的可解释性

@DivyanshT91162: 微软研究刚刚发布了一篇论文，彻底颠覆了对可解释性的理解。（收藏此篇）多年来，……

智能体作为信念网络（11分钟阅读）

帮我进一步理解AI，我并不认为AI像大家说的那么糟糕。

提交意见反馈