激进AI可解释性
摘要
本文借鉴激进解释哲学和机械可解释性工具,构建了一个将AI系统解释为智能体的框架,探讨如何通过理解系统的信念、欲望和意义来信任AI系统。
arXiv:2606.26523v1 公告类型:新
摘要:我们借鉴激进解释的哲学传统和机械可解释性工具,构建了一个将AI系统解释为智能体的框架。核心问题是:给定一个系统的计算事实,如何求解其信念、欲望和意义?这对安全性越来越重要。我们希望信任所部署的系统,无论是通过理解其目标,还是更谦逊地通过可靠地检测欺骗。可解释性研究人员正在构建从模型内部读取信念和欲望的工具,但对于这些工具何时成功,尚无定论。本书提供了一种方案。我们针对表征主义和解释主义方法提出了标准,并将每种方法与当前可解释性方法能够执行的测试联系起来。一个核心教训是,这些归因不能零散地进行。信念、欲望及其预设的命题结构是共同约束的,如果一种方法固定其中一个而测量其他,则会继承由此引入的任何扭曲。这种整体性对AI系统而言变得紧迫,因为它们可能不共享解释者的概念。然而,这也提供了杠杆作用:系统的态度约束其命题结构,该结构约束哪些态度可以被归因,而机械可解释性可以帮助我们测量两者。
查看缓存全文
缓存时间: 2026/06/26 05:13
# 激进式AI可解释性 来源:https://arxiv.org/abs/2606.26523 查看PDF (https://arxiv.org/pdf/2606.26523) > **摘要:** 我们基于激进解释的哲学传统与机制可解释性的工具,构建了一个将AI系统解释为智能体的框架。核心问题是:给定一个系统的计算事实,我们如何求解其信念、欲望和意义?这在安全方面日益重要。我们希望能够信任所部署的系统,无论是通过理解其目标,还是更谦逊地通过可靠地检测欺骗行为。可解释性研究者正在构建从模型内部读取信念和欲望的工具,但关于这些工具何时算作成功,尚未有确定的说法。本书提供了这样一种说法。我们在表征主义方法和解释主义方法上分别提出了评判标准,并将每一项与当前可解释性方法能够执行的测试联系起来。一个核心教训是:这些归因无法零散地进行。信念、欲望及其所预设的命题结构是共同受约束的,而先固定其中一个再测量其他项的方法,必然会继承由此引入的任何扭曲。这种整体论在处理AI系统时变得尤为紧迫,因为AI系统可能不共享解释者的概念。然而,这也提供了杠杆作用:系统的态度约束了其命题结构,而该结构又约束了哪些态度可以被归因;机制可解释性有助于我们同时测量这两者。 ## 提交历史 来自:Benjamin Levinstein [发送邮件](https://arxiv.org/show-email/52989f28/2606.26523) **[v1]** 2026年6月25日星期四 01:58:38 UTC(104 KB)
相似文章
可解释性
Anthropic 的可解释性团队致力于从内部理解大型语言模型,以增强 AI 安全性并促进积极成果,采用多学科交叉的研究方法。
超越黑盒:智能体人工智能工具使用的可解释性
本文介绍了一种基于稀疏自编码器(SAE)和线性探针的机制可解释性工具包,用于在智能体调用工具之前监控模型内部状态,旨在提高企业工作流中的诊断能力和安全性。
@DivyanshT91162: 微软研究刚刚发布了一篇论文,彻底颠覆了对可解释性的理解。(收藏此篇)多年来,……
微软研究院推出了Agentic-iModels,这是一个框架,其中编码代理进化出针对LLM可解释性而非人类可读性优化的scikit-learn回归器,在65个数据集上超越了传统的可解释机器学习方法。
智能体作为信念网络(11分钟阅读)
探讨将AI智能体概念化为信念网络,讨论其对AI对齐和代理理解的影响。
帮我进一步理解AI,我并不认为AI像大家说的那么糟糕。
一位用户分享了对AI的看法,承认艺术家们的批评,但强调其在医疗领域的积极潜力,主张不应全盘否定。