@omarsar0: 关于工具使用智能体的有趣可解释性论文。作者探测隐藏状态，发现模型经常识别到应调用工具，但…

X AI KOLs Following 2026/05/16 20:40 论文

interpretability tool-use llm-agents knowing-doing-gap hidden-state-probing arxiv

摘要

本文提出了一个模型自适应的工具必要性定义，并发现 LLM 内部识别需要工具与实际调用工具之间存在 26% 到 54% 的不匹配，集中体现在认知到行动的转换阶段。它揭示了一个“知行差距”（knowing-doing gap），即模型通常知道应该调用工具，但由于后期层几何结构将信号旋转至几乎与行动正交，导致调用失败。

关于工具使用智能体的有趣可解释性论文。作者探测隐藏状态，发现模型经常识别到应该调用工具，但实际并未调用。不匹配程度从 26% 到 54%，且完全集中在认知到行动的转换阶段，而非认知本身。换句话说，模型通常知道自己应该调用工具。内部探针方向可解码。但后期层最后一个 token 的机制将信号旋转至几乎与它产生的行动正交。这项工作试图预测哪些干预措施会起作用，哪些不会。大多数人会归咎于糟糕的提示或工具调用训练不足，而可能忽略后期层的几何结构。如果你一直在对工具使用提示进行 A/B 测试，却遇到奇怪的瓶颈，这项工作或许能为这种行为提供一个很好的解释。论文：https://arxiv.org/abs/2605.14038 在我们的学院中学习构建有效的 AI 智能体：https://academy.dair.ai

查看原文

查看缓存全文

缓存时间: 2026/05/18 14:33

一篇关于工具使用智能体的有趣可解释性论文。作者探测隐藏状态，发现模型通常能识别出应该调用工具，但实际却未能调用。这种不匹配率在 26% 到 54% 之间，且完全集中在认知到行动的转换阶段，而非认知本身。换句话说，模型通常知道自己应该调用工具。内部探测方向是可解码的。但在驱动下一词元动作的深层、最后词元区域，该信号几乎旋转到与其产生的动作正交的方向。这项工作尝试预测哪些干预措施实际有效，哪些无效。大多数归因于糟糕的提示或薄弱的工具调用训练，而可能忽视了深层区域的几何特性。如果你一直在对工具使用提示进行 A/B 测试并遇到奇怪的性能天花板，这项工作或许能为这种行为提供一个合理的解释。论文：https://arxiv.org/abs/2605.14038 在我们的学院学习构建有效的 AI 智能体：https://academy.dair.ai

模型自适应工具必要性揭示 LLM 工具使用中的知行差距

来源：https://arxiv.org/html/2605.14038
Yize Cheng Chenrui Fan(^1) Mahdi JafariRaviz(^1) Keivan Rezaei Soheil Feizi
马里兰大学帕克分校
{yzcheng, cfan42, krezaei, mahdij, sfeizi}@umd.edu
项目：https://github.com/chengez/Tool-Cognition-Action

摘要

大型语言模型日益作为自主智能体运行，必须决定何时直接作答，何时调用外部工具。先前研究自适应工具使用的工作大多将工具必要性视为模型无关的属性，由人类或 LLM 评判者标注，并且主要涵盖答案显而易见的情形（例如，获取天气与转述文本）。然而，由于不同模型能力边界的差异，实际中的工具必要性更为微妙：一个强大的模型独自能解决的问题，对较弱的模型可能仍需要工具。在这项工作中，我们引入了一种模型自适应的工具必要性定义，基于每个模型的经验性能。依据这一定义，我们在算术和事实问答数据集上比较了四种模型的必要性与观察到的工具调用行为，分别发现了 26.5–54.0% 和 30.8–41.8% 的显著不匹配。为了诊断失败原因，我们将工具使用分解为两个阶段：一个内部认知阶段，反映模型是否认为工具是必要的；以及一个执行阶段，决定模型是否实际做出工具调用动作。通过探测 LLM 的隐藏状态，我们发现这两个信号通常都是线性可解码的，然而它们的探测方向在深层、最后词元区域（驱动下一个词元动作）几乎变成正交。通过追踪样本在这两个阶段中的轨迹，我们进一步发现大多数不匹配集中在认知到行动的转换阶段，而不是认知本身。这些结果揭示了 LLM 工具使用中的知行差距：提高工具使用的可靠性不仅需要更好地识别何时需要工具，还需要更好地将这种识别转化为行动。

1 引言

大型语言模型（LLM）越来越多地被部署为与搜索引擎、计算器和 API 等外部工具交互的自主智能体[20, 24, 26, 19]。构建可靠的自主 LLM 智能体的一个核心挑战是实现自适应工具使用：LLM 需要确定何时应依赖这些工具，何时直接回答[8, 22, 27]。先前研究自适应工具使用的工作[8, 22, 13]大多将工具必要性视为静态的、模型无关的属性，通常依赖人工标注者或强大的 LLM 评判者来判断查询是否需要工具，主要集中在答案显而易见的极化情形中，例如获取实时天气数据与转述静态段落。然而，由于不同模型之间能力边界的自然差异，实际中的工具必要性要微妙得多。一个最先进模型仅凭内部权重就能轻松解决的问题，可能完全超出较小或能力较差模型的能力范围，从而使工具使用对后者严格必要，但对前者冗余。在这项工作中，我们认为工具必要性必须与所讨论模型的具体能力内在相关。我们引入了一种模型自适应的工具必要性定义，该定义不基于静态标注，而是基于每个个体模型的经验性能。通过评估相对于模型内在能力的必要性，我们为特定 LLM 何时应寻求外部帮助建立了更准确的描述。依据这一定义，我们在算术和事实问答（QA）数据集上比较了四种模型的实际必要性与观察到的工具调用行为。我们的发现揭示了显著的不匹配：模型在算术任务中表现出 26.5–54.0% 的必要性-动作不匹配，在事实 QA 中表现出 30.8–41.8% 的必要性-动作不匹配，常常在能够直接回答时调用工具，或者在缺乏所需内部知识时尝试直接回答。

图1：LLM 工具使用的两阶段认知-执行建模概览。
（左）必要性：我们基于模型独立一致回答查询的经验能力，引入模型自适应的工具必要性定义，与先前的模型无关方法形成对比。（中）认知：通过探测模型的内部隐藏状态 (h)，我们识别出一个线性认知方向 (w_c)，能够成功区分何时工具是必要的。（右）行动：我们还训练了一个探测器 (w_a) 来预测实际的工具调用执行。我们发现 (w_c) 和 (w_a) 在深层几乎正交，并且大多数必要性-动作不匹配源于执行阶段（将意识转化为行动），而非内部认知阶段。

为了诊断这种失败的根本机制，我们提出了工具使用过程的两阶段分解：一个内部认知阶段，反映模型的内部表征是否编码了工具是必要的信念；以及一个执行阶段，决定模型是否实际输出触发工具的令牌。基于先前在机制可解释性和表征工程方面的进展[35]，并遵循近期关于自适应工具使用的文献[13, 28]，我们探测 LLM 的隐藏状态，发现必要性认知和执行意图通常都是线性可解码的。然而，有趣的是，它们各自的探测方向在深层、最后令牌区域几乎变成正交。通过追踪样本在这两阶段过程中的轨迹，我们揭示了 LLM 工具使用中的知行差距：大多数观察到的必要性-动作不匹配案例源于认知到行动的转换，而非认知阶段。模型经常生成指示其意识到自身局限性的内部表征，但未能将其转化为工具调用的语法执行。我们的主要贡献可总结如下：

我们引入了一种基于经验性能的模型自适应工具必要性定义，挑战了传统依赖静态、模型无关标注的方法。
我们在算术和事实 QA 数据集上评估了四种不同的 LLM，揭示了实际工具必要性与观察到的工具调用动作之间存在显著的行为不匹配（高达 54.0%）。
通过将工具使用划分为内部认知阶段和执行阶段，我们利用表征探测证明，虽然意图和必要性都是线性可解码的，但它们的探测方向在深层、最后令牌区域变得接近正交。
通过轨迹追踪，我们发现工具使用失败主要发生在认知到行动的转换过程中，突显了 LLM 工具使用中的知行差距。

2 相关工作

LLM 智能体中的工具调用。

为了将 LLM 的能力扩展到参数知识之外，研究人员引入了函数/工具调用[20, 24, 26, 19]，使其能够与外部资源交互并扩展任务覆盖范围。像 MCP[1] 和 A2A[6] 这样的标准化协议进一步简化了工具生态系统内的通信和访问。与此同时，各种工作研究了工具使用的准确性[12, 21]、幻觉调用[33, 23]以及对工具描述的鲁棒性[25, 5]。然而，尽管这些努力旨在教授和评估如何使用工具，但在构建可靠 LLM 智能体中一个重要且经常被忽视的挑战是确定何时使用工具。现有研究这一挑战的工作[8, 22, 13]将工具必要性视为查询的静态属性，使用人工标注者或某些专有 LLM 将实例标记为工具-必要或工具-非必要。这忽略了不同模型之间能力边界的固有差异。虽然 Wang 等人[27]也倡导模型依赖的工具必要性，但据我们所知，我们是第一个拥有将工具必要性经验性地基于给定模型实际能力的管道的。

LLM 的元认知与“知行差距”。

LLM 准确评估自身能力边界的能力——通常称为元认知或自我评估——一直是一个长期关注的话题[10, 30]。为了衡量这种自我意识，早期工作主要依赖于通过教导模型表达其知识边界[2, 31]或直接口头表达置信度[15]来测量显式自我评估。然而，近期工作表明，模型用语言表达其内部激活的能力有限[17, 9]。此外，自我评估任务和实际求解问题是根本不同的任务。当明确提示其能力边界时，模型会专注于自我评估。但当面对实际问题求解时，提示通常以任务为导向，因此自我评估过程变得隐式和下意识。这类似于系统 I 和系统 II 思维的区别[14]。因此，在这项工作中，我们遵循一些近期工作，使用内部状态探测来测量模型对工具必要性的认知[13, 28]，并在附录 B 中经验性地展示了当明确提示自我评估时，模型工具调用动作如何变化。与此同时，利用隐藏状态研究模型内部认知的 LLM 其他领域论文发现，模型的动作可能与其内部信念相背离。例如，Zhao 等人[34]发现 LLM 可能在内部识别出有害查询的有害性，但仍未能拒绝它们；Zhang 等人[32]表明模型可以在内部识别出无法解决某些数学问题，但仍在无结果的推理上消耗令牌。在这项工作中，我们展示了这种“知行差距”同样存在于工具调用中，并且它可能构成端到端错误的更大比例。

3 定义模型自适应工具必要性与工具调用的两阶段建模

为了研究 LLM 中的工具使用行为，我们引入了一个简单的分解，将识别工具需求与基于该识别采取行动区分开来。这种区别将作为本文其余部分评估、诊断和分析的基础。

定义模型自适应工具必要性。

现有工作通常假设一个固定的工具必要性概念，为每个查询分配一个独立于被评估模型的静态标签。然而，我们认为由于不同模型具有不同的能力边界，工具必要性标签应根据模型自适应。为了描述模型的能力边界，给定模型 (f) 和查询 (x)，我们在温度 (T) 下进行 (N) 次独立推理运行，且不接入外部工具。如果模型 (f) 能够在 (N) 次运行中正确且一致地解决问题 (x)，我们假设该 (x) 位于 (f) 的能力边界内，因此工具必要性 (n_f(x)) 为 0。否则，模型无法可靠地解决该查询，因此 (n_f(x)) 为 1。参数 (N) 和 (T) 控制该标准的严格程度。具体来说，较大的 (N) 和 (T) 值能对查询是否真正落在模型能力边界内产生更保守和稳健的估计，因为它们要求模型更一致地输出正确答案。这种表述抓住了现实世界部署的一个关键方面：不确定性下的可靠性。在实际环境中，一个没有工具时仅偶尔产生正确答案的模型，可能仍然受益于外部辅助以确保一致的性能。通过将工具必要性基于经验行为而非静态标注，我们的方法为给定模型何时真正需要工具使用提供了更可信的描述。

工具调用的认知-执行建模。

我们将工具使用概念化为一个两阶段过程： [ x \rightarrow z_f(x) \rightarrow a_f(z_f(x)), ] 其中 (z_f(x)) 表示模型关于是否需要工具的内部认知，而 (a_f(z_f(x))) 表示模型是否基于其认知实际调用工具。这种两阶段分解反映了人类的认知过程以及我们对模型的期望。它区分了元认知（模型对其能力边界的内部信念）与执行能力（模型如何基于其认知行动）。

端到端错误诊断。

在我们模型依赖的工具必要性定义下，

相似文章

模型自适应工具必要性揭示LLM工具使用中的知行差距

arXiv cs.AI

本文提出了一种模型自适应的工具必要性定义，揭示了模型应该使用工具与实际使用工具之间的显著不匹配。作者将工具使用分解为认知和行动两个阶段，发现大多数错误发生在将识别转化为行动的过程中，识别出LLM工具使用中的'知行差距'。

LLM代理已经知道何时调用工具——甚至无需推理

Hugging Face Daily Papers

本文介绍了When2Tool，一个研究LLM代理实际何时需要调用工具的基准，并揭示模型已从隐藏状态知道工具的必要性但未能采取行动。提出的Probe&Prefill方法将不必要的工具调用减少了48%，且精度损失极小。

超越黑盒：智能体人工智能工具使用的可解释性

arXiv cs.AI

本文介绍了一种基于稀疏自编码器（SAE）和线性探针的机制可解释性工具包，用于在智能体调用工具之前监控模型内部状态，旨在提高企业工作流中的诊断能力和安全性。

2600万参数工具路由器表明：工具调用应与推理分离

Reddit r/AI_Agents

文章介绍了由 Cactus-Compute 开发的 2600 万参数模型 Needle，该模型专为单次工具调用设计。文章主张将工具路由从推理中分离出来，作为一种结构化预测任务，以提高代理（agent）的效率并降低延迟。

@omarsar0: 苹果的一篇很棒的论文。大多数对工具调用智能体的评估都发生在轨迹结束之后。但那时错误的调用早已发出。这篇新论文将评估移入执行循环中。一个专门的审稿智能体在执行前检查每个临时工具调用。如果有问题，它注入反馈，主智能体进行修正。为了量化修正与新错误之间的权衡，他们提出了“有益性-有害性”指标。有益性衡量基础错误被修复的百分比；有害性衡量因审稿而降低正确调用质量的比例。在 BFCL 上的结果：无关检测准确率提升 5.5%（从 84.9% 到 90.4%），相关检测提升 1.6%，且无需重新训练基础智能体。在 τ²-Bench 多轮任务上提升 7.1%（从 48.7% 到 55.8%）。推理模型审稿者比 GPT-4o 获得 3:1 的收益风险比，而 GPT-4o 为 2.1:1。加入 GEPA 提示优化可再提升 1.5–2.8%。为什么这很重要？你可以保持基础工具调用智能体不变，仅通过改进审稿者即可实现显著的准确性提升。对审稿者的模型选择和提示优化成为独立的生产杠杆。论文链接：https://arxiv.org/abs/2604.27233 在我们的学院学习如何构建高效的 AI 智能体：https://academy.dair.ai

X AI KOLs Timeline

这篇来自苹果的研究论文介绍了“强化智能体”（Reinforced Agent）方法，通过使用专门的审稿智能体在实时执行过程中修正工具调用错误，将评估纳入执行循环。它在 BFCL 和 τ²-Bench 等基准测试上展示了显著的准确性提升，而无需重新训练基础智能体。