超越黑盒:智能体人工智能工具使用的可解释性

arXiv cs.AI 论文

摘要

本文介绍了一种基于稀疏自编码器(SAE)和线性探针的机制可解释性工具包,用于在智能体调用工具之前监控模型内部状态,旨在提高企业工作流中的诊断能力和安全性。

arXiv:2605.06890v1 公告类型:新论文 摘要:人工智能智能体在高 stakes 的企业工作流中展现出巨大潜力,但由于工具使用故障难以诊断和控制,可靠部署仍然受限。智能体可能会跳过必要的工具调用、不必要地调用工具,或者采取一些只有在执行后才会显现后果的操作。现有的可观测性方法大多局限于外部手段:提示词揭示相关性,评估仅针对输出结果,而日志仅在模型采取行动后生成。在长期任务场景中,这些故障尤其昂贵,因为早期的工具错误可能会改变后续轨迹,增加 token 消耗,并带来下游的安全与风险问题。 我们引入了一种基于稀疏自编码器(SAE)和线性探针的机制可解释性工具包。该框架在每次行动前读取模型状态,推断是否需要使用工具以及下一次工具行动可能产生的后果严重程度。通过将激活分解为稀疏特征,它识别出与工具决策最相关的内部层和特征,并通过特征消融测试其功能重要性。我们在 NVIDIA Nemotron 函数调用数据集的多步轨迹上训练探针,并将相同的工作流程应用于 GPT-OSS 20B 和 Gemma 3 27B 模型。 我们的目标并非取代外部评估,而是补充一个缺失的层面:在行动之前,洞察模型内部发出的信号。这有助于揭示智能体故障的深层原因,尤其是在长期运行中,早期错误可能重塑后续智能体交互的情况。更广泛地说,本文展示了机制可解释性如何支持对智能体系统中的工具调用和风险进行实用的内部可观测性监控。
查看原文 导出为 Word 导出为 PDF
查看缓存全文

缓存时间: 2026/05/11 07:08

# 超越黑盒:智能体 AI 工具使用的可解释性

来源:https://arxiv.org/html/2605.06890
Hariom Tatsat,巴克莱银行定量分析部,[email protected];Ariye Shater,巴克莱银行定量分析部,[email protected]

###### 摘要

AI 智能体在高利害的企业工作流中前景广阔,但由于工具使用失败难以诊断和控制,其可靠部署仍然有限。智能体可能跳过必要的工具调用、不必要地调用工具,或者采取那些后果仅在执行后才变得可见的操作。现有的可观测性方法大多是外部的:提示词揭示的是相关性,而评估仅在模型行动之后才对输出进行打分。在长视野(long-horizon)场景下,这些失败尤为代价高昂,因为早期的工具错误可能会改变后续轨迹,增加 Token 消耗,并产生下游的安全与风险。

我们介绍了一套基于**稀疏自编码器(Sparse Autoencoders, SAEs)**和**线性探针**的机制可解释性工具包。该框架读取每次行动前的模型状态,推断是否需要工具以及下一个工具行动可能带来的后果严重程度。通过将激活分解为稀疏特征,它识别出与工具决策最相关的内部层和特征,并通过特征消融(feature ablation)测试其功能性重要性。我们在来自**NVIDIA Nemotron**函数调用数据集的多步轨迹上训练探针,并将相同的工作流应用于**GPT-OSS 20B**和**Gemma 3 27B**模型。

我们的目标不是替代外部评估,而是补充缺失的一层:在行动之前对模型内部信号的可见性。这有助于揭示智能体失败的深层原因,特别是在长视野运行中,早期错误可能会重塑后续的整个智能体交互过程。更广泛地说,本文展示了机制可解释性如何支持智能体系统中用于监控工具调用和风险的实用内部可观测性。

## 1 引言

**AI 智能体**通过重复的决策步骤来解决任务,而不是仅给出单次响应。在每一步中,它可以直接回答,也可以委托给外部工具,观察结果,然后继续。我们研究这个**工具决策边界**:模型现在是否应该调用工具,以及该行动可能产生的后果有多严重。

这个边界在操作上非常重要,因为工具使用失败往往在错误变得可见之前难以诊断。智能体可能跳过必要的工具调用、不必要地调用工具,或者采取后果仅在执行后才可见的操作。标准的可观测性方法在此处仍然不完整。提示词揭示的是相关性而非机制,行为评估仅在模型行动之后才测量输出。伯克利函数调用排行榜(Berkeley Function Calling Leaderboard, BFCL)在其多轮设计中结合了**基于状态**和**基于响应**的检查,反映了这一局限性,因为只读工具链可能对仅基于状态的评估不可见(Patil et al., 2025)。关于工具选择幻觉的相关研究也指向同一方向:隐藏状态可能包含有用的同轮信号,用于发现仅从输出中不可见的工具调用错误(Healy et al., 2026)。

我们通过一个内部监控框架来解决这一差距,该框架在每次行动之前立即读取模型激活,估计模型是否在内部准备将任务委托给工具,其次,该行动是否可能具有低、中或高风险。

机制可解释性提供了检查模型内部结构的机制。线性探针是在中间表示上训练的分类器,用于测试目标概念是否可以从中线性恢复(Alain & Bengio, 2017)。稀疏自编码器(SAEs)走得更远,将激活分解为更具可解释性的稀疏特征基(Bricken et al., 2023)。我们将两者结合:行动前的激活首先通过 SAE 映射到稀疏特征基,然后由两个任务特定的探针读出:**工具需求探针**(二元:调用工具 vs. 不调用工具)和**工具风险探针**(三元:低/中/高风险)。该流水线轻量且可解释,能够从内部状态恢复工具决策信号, pinpoint 这些信号最强的层级,并揭示最能预测工具使用和风险的个人特征。对这些特征进行消融则提供了因果确认。本文有四项贡献:

- • 用于智能体轨迹中重复工具决策的行动前内部监控框架。
- • 两种互补的读出方式:工具需求探针(Probe 1)和工具风险探针(Probe 2)。
- • 将工具决策信号定位到稀疏特征和晚期层,并进行特征消融。
- • 使用保留的 Nemotron 测试数据和零样本 BFCL 迁移,在**GPT-OSS 20B**和**Gemma 3 27B**指令微调(IT)模型上进行评估。

更广泛地说,本文展示了机制可解释性如何支持智能体系统的一种实用形式的内部可观测性:不仅是在事后解释失败,而且是在执行前帮助监控工具调用和风险。

第2节([https://arxiv.org/html/2605.06890#S2](https://arxiv.org/html/2605.06890#S2))将本文置于先前工作的背景下并提出研究问题。第3节([https://arxiv.org/html/2605.06890#S3](https://arxiv.org/html/2605.06890#S3))定义决策点公式、数据集、内部状态提取、探针设置和特征消融方法。第4节([https://arxiv.org/html/2605.06890#S4](https://arxiv.org/html/2605.06890#S4))展示了主要实证结果,包括保留的 Nemotron 性能、说明性金融轨迹、层集中度和消融。第5节([https://arxiv.org/html/2605.06890#S5](https://arxiv.org/html/2605.06890#S5))评估保留重放和零样本 BFCL 迁移,第6节([https://arxiv.org/html/2605.06890#S6](https://arxiv.org/html/2605.06890#S6))讨论影响、部署考虑因素和局限性。

## 2 相关工作与研究问题

先前关于工具使用的研究主要从外部评估智能体,通过任务成功、函数调用正确性或特定基准的响应评分。这种外部评估传统包括学习型工具使用设置,如 Toolformer,以及更广泛的函数调用/API 基准,如 ToolLLM / ToolBench、ToolACE、HammerBench 和 BFCL(Schick et al., 2023; Qin et al., 2023; Liu et al., 2024; Wang et al., 2025; Patil et al., 2025)。BFCL 是我们设置中最相关的基准,因为它评估弃权和多轮行为,并在仅从最终状态无法看到只读工具链时结合**基于状态**和**基于响应**的检查。这些基准对于衡量可观察行为至关重要,但它们并未揭示模型在行动之前是否在内部识别出需要委托。

第二类工作直接研究隐藏状态。激活探针结果表明,内部表示可以在外部可见之前预测下游行为(Li et al., 2025; McKenzie et al., 2025)。在工具选择设置中,内部表示也被证明可以区分正确和幻觉的工具调用,当此类探针旨在部署而不仅仅是离线分析时,校准起着重要作用(Healy et al., 2026)。与此同时,稀疏自编码器工作表明,密集激活可以分解为更具可解释性的稀疏特征,使得能够定位语义上有意义的内部组件,而不是仅在不透明的残差向量上操作(Bricken et al., 2023; Cho et al., 2025)。

我们的工作在多步智能体设置中连接了这些方向。我们不仅从输出评估工具使用,而且在每次行动之前监控模型状态。我们不仅探测密集的隐藏状态,还探测支持层定位、稀疏特征检查和消融的 SAE 特征。这对于长视野智能体尤其相关,因为早期的工具或协调失败可能会传播到轨迹的其余部分(Cemri et al., 2025)。这也与这样的观点一致:外部工具应在认识论上必要时调用,而不是反射性地调用(Wang et al., 2025)。它还补充了我们早期专注于金融领域的机制可解释性研究,该研究考察了特定领域的 LLM 行为,而不是智能体轨迹中的行动前工具决策(Tatsat & Shater, 2025)。

本文围绕四个研究问题组织。**RQ1**询问模型激活是否编码了在给定决策步骤是否应使用工具。**RQ2**询问哪些稀疏特征和层最强烈地编码工具需求和工具风险信号。**RQ3**询问内部信号是否能比仅输出监控更清晰地揭示遗漏和不必要的工具调用。**RQ4**询问这些信号在重复决策点和零样本迁移到 BFCL 时是否仍然有用。RQ1 和 RQ2 主要在 Sections 3([https://arxiv.org/html/2605.06890#S3](https://arxiv.org/html/2605.06890#S3))和 4([https://arxiv.org/html/2605.06890#S4](https://arxiv.org/html/2605.06890#S4))中解决;RQ3 和 RQ4 主要在 Sections 4([https://arxiv.org/html/2605.06890#S4](https://arxiv.org/html/2605.06890#S4))、5([https://arxiv.org/html/2605.06890#S5](https://arxiv.org/html/2605.06890#S5))和 6([https://arxiv.org/html/2605.06890#S6](https://arxiv.org/html/2605.06890#S6))中解决。

## 3 问题设置与方法

我们研究智能体在重复**工具决策点**的行为。在每一步,我们比较三个量:任务要求什么、模型内部信号什么、以及运行时实际执行什么。这种三方视角让我们能够区分对监控至关重要的主要情况:正确的工具使用、遗漏的工具调用、不必要的工具调用、高风险行动和不确定的决策。图1([https://arxiv.org/html/2605.06890#S3.F1](https://arxiv.org/html/2605.06890#S3.F1))总结了完整的决策边界流水线。

> **图 1:** 多步智能体工具决策机制监控框架概述。智能体轨迹被转换为决策边界上下文,映射到行动前激活,用稀疏自编码器分解,并在执行前由工具需求探针(Probe 1)和工具风险探针(Probe 2)使用。

表1([https://arxiv.org/html/2605.06890#S3.T1](https://arxiv.org/html/2605.06890#S3.T1))总结了全文使用的操作结果。工具需求探针提供内部工具信号,而工具风险探针估计下一个工具行动的可能风险等级。这种紧凑的框架取代了更长的失败分类,同时保留了运行时监控中最重要的一些情况。

**表 1:** 全文使用的操作结果。

### 3.1 数据准备

我们将原始的多步智能体轨迹转换为每步决策行。每一行包含在决策边界处截断的累积上下文、指示是否需要工具的标签,以及下一个工具行动的三级风险标签。这保留了忠实的行动前视图:在计算预测时,探针永远不会看到当前步骤的输出或未来轨迹。

训练数据来自 NVIDIA Nemotron 函数调用数据集(Chandiramani et al., 2026),其中每一行对应多步轨迹中的一个决策点。我们按轨迹分组行,按深度排序,重建每一步可用的累积上下文,并从金标准下一个动作分配二进制 `tool_needed` 标签。工具调用步骤此外还分配三个风险等级之一:低、中或高。低风险行动主要是只读检索或查找步骤;中等风险行动涉及有限的创建或写入操作;高风险行动包括身份验证、出站通信或危险执行操作。附录 B([https://arxiv.org/html/2605.06890#A2](https://arxiv.org/html/2605.06890#A2))中的表13([https://arxiv.org/html/2605.06890#A2.T13](https://arxiv.org/html/2605.06890#A2.T13))总结了用于实例化此 Nemotron 风险等级方案的关键词组。

探针仅在源自 Nemotron 的步骤行上训练。BFCL 保留用于零样本迁移评估,使用相同的每步重建和行动前探针推理,但采用不同的基准分布。

### 3.2 内部状态提取

我们将相同的决策点流水线应用于两个骨干模型:相同的每步上下文,从激活提示中省略当前步骤生成的输出,以及行动前隐藏状态的逐层 SAE 编码。对于两个模型,隐藏状态在 SAE 编码之前在最后 32 个行动前 Token 上进行平均池化,而不是仅从单个 Token 读取。这一选择在捕获足够的即时上下文以稳定决策信号与在运行时保持计算上的可管理性之间提供了实际平衡。

对于 **GPT-OSS 20B**,我们读取六个后残差层并使用公共 GPT-OSS SAEs 进行编码。对于 **Gemma 3 27B**,我们读取四个后块残差层并使用 Gemma Scope SAEs 进行编码。本文的重点不在于每个拼接向量的确切维度,而在于两个模型都使用相同的决策边界逻辑和相同的基于探针的监控配方进行处理。

### 3.3 探针训练

**工具需求探针**是主要探针:它预测在当前决策步骤是否需要工具调用。**工具风险探针**是次要探针:在工具调用步骤,它预测下一个行动是低、中还是高风险。两个探针都在 SAE 特征上操作,而不是原始激活,这使得检查层集中度、识别顶部稀疏特征并通过消融测试特征必要性成为可能。

形式上,令 $\tilde{h}^{(\ell)} \in \mathbb{R}^d$ 表示层 $\ell$ 处的池化行动前隐藏状态。对于每个选定的层,预训练的 SAE 将此隐藏状态映射到稀疏特征向量

$$
z^{(\ell)} = \phi\left(W_{\mathrm{enc}}^{(\ell)} \tilde{h}^{(\ell)} + b_{\mathrm{enc}}^{(\ell)}\right),
$$

其中 $W_{\mathrm{enc}}^{(\ell)}$ 和 $b_{\mathrm{enc}}^{(\ell)}$ 是层 $\ell$ 的 SAE 编码器权重和偏置,$\phi(\cdot)$ 表示 SAE 非线性。我们在选定的层上拼接 SAE 特征,

$$
z = [\, z^{(\ell_1)}; \cdots; z^{(\ell_m)} \,],
$$

其中 $m$ 是选定层的数量。然后我们在 $z$ 上拟合线性探针,而不是在原始激活上拟合。对于工具需求,二元标签 $y \in \{0,1\}$,

$$
p(y=1 \mid z) = \sigma(w^\top z + b),
$$

其中 $w$ 和 $b$ 是探针参数,$\sigma(\cdot)$ 是逻辑 Sigmoid。工具风险使用在 $\{\mathrm{low}, \mathrm{med}, \mathrm{high}\}$ 上的三路 Softmax。两个探针独立训练,具有不同的目标和特征排名标准,但在相同的每步运行时框架下进行评估。所有其余符号遵循标准线性代数约定。

每个探针实现为 SAE 特征上的稀疏逻辑分类器,特征选择基于每个特征分离目标类的好坏程度,正则化从岭回归、Lasso 或弹性网中选择。应用正则化是因为 SAE 特征空间是高维的,并且经常包含相关的潜在变量,因此一些收缩有助于控制过拟合,同时保持读出的可解释性。

为了使代表性的 SAE 特征更容易解释,我们对少量选定特征应用自动化特征标记步骤。在此工作流程中,使用 LLM 将最高激活的示例总结为简短的自然语言描述。更多细节推迟到附录 A([https://arxiv.org/html/2605.06890#A1](https://arxiv.org/html/2605.06890#A1))。

### 3.4 特征排名与消融

为了测试顶部稀疏特征是仅仅与探针预测相关,还是具有功能性

相似文章

可解释性

Anthropic Research

Anthropic 的可解释性团队致力于从内部理解大型语言模型,以增强 AI 安全性并促进积极成果,采用多学科交叉的研究方法。

对机械可解释性研究的幻灭 [D]

Reddit r/MachineLearning

一位本科生研究员对Anthropic最近的机械可解释性研究表达了幻灭感,具体批评其新的自然语言自编码器方法是一种黑箱技术,且缺乏与稀疏自编码器基线之间的严格指标比较。