模型自适应工具必要性揭示LLM工具使用中的知行差距

arXiv cs.AI 论文

摘要

本文提出了一种模型自适应的工具必要性定义,揭示了模型应该使用工具与实际使用工具之间的显著不匹配。作者将工具使用分解为认知和行动两个阶段,发现大多数错误发生在将识别转化为行动的过程中,识别出LLM工具使用中的'知行差距'。

arXiv:2605.14038v1 Announce Type: new 摘要:大型语言模型(LLM)日益作为自主代理运行,必须决定何时直接回答,何时调用外部工具。先前关于自适应工具使用的研究大多将工具必要性视为与模型无关的属性,由人工或LLM评判者标注,并且主要涵盖答案显而易见的场景(例如,获取天气 vs. 改写文本)。然而,实际中的工具必要性更为微妙,因为不同模型的能力边界存在差异:一个强模型自身能解决的问题,弱模型可能仍需要工具来解决。在这项工作中,我们提出了一种基于模型自身经验性能的模型自适应工具必要性定义。根据这一定义,我们在算术和事实问答数据集上,将必要性与实际观察到的工具调用行为进行跨四个模型的对比,发现分别存在26.5%-54.0%和30.8%-41.8%的显著不匹配。为了诊断失败原因,我们将工具使用分解为两个阶段:内部认知阶段(反映模型是否认为需要工具)和执行阶段(决定模型是否实际进行工具调用动作)。通过探测LLM的隐藏状态,我们发现这两个信号通常可线性解码,但在驱动下一个词动作的后期层、最后一个词区域中,它们的探测方向几乎正交。通过追踪样本在两阶段过程中的轨迹,我们进一步发现大多数不匹配集中在从认知到行动的转换上,而非认知本身。这些结果揭示了LLM工具使用中的知行差距:提高工具使用可靠性不仅需要更好地识别何时需要工具,还需要更好地将该识别转化为行动。
查看原文
查看缓存全文

缓存时间: 2026/05/15 06:19

# 模型自适应工具必要性揭示LLM工具使用中的知行差距 来源: https://arxiv.org/html/2605.14038 Yize Cheng Chenrui Fan\^{1} Mahdi JafariRaviz\^{1} Keivan Rezaei Soheil Feizi 马里兰大学帕克分校 \{yzcheng, cfan42, krezaei, mahdij, sfeizi\}@umd\.edu 项目:https://github.com/chengez/Tool-Cognition-Action ###### 摘要 大型语言模型(LLMs)日益成为自主智能体,必须决定何时直接回答,何时调用外部工具。以往研究自适应工具使用的工作,大多将工具必要性视为与模型无关的属性,由人工或LLM评判者标注,且主要涵盖答案显而易见的情况(如获取天气 vs. 改写文本)。然而,现实中的工具必要性因模型间能力边界的差异而更为微妙:强模型自身可解决的问题,弱模型可能仍需工具。本文提出一种基于每个模型经验表现的模型自适应工具必要性定义。根据这一定义,我们在四个模型上比较了算术和事实性问答数据集中的必要性与观察到的工具调用行为,发现存在显著失配,分别达到26.5–54.0%和30.8–41.8%。为诊断这种失败,我们将工具使用分解为两个阶段:反映模型是否认为工具必要的内在认知阶段,以及决定模型是否实际执行工具调用动作的执行阶段。通过探测LLM隐藏状态,我们发现这两种信号通常可线性解码,但在驱动下一词元动作的后期层、最后一个词元区域,它们的探针方向几乎正交。通过追踪样本在两阶段过程中的轨迹,我们进一步发现大多数失配集中在从认知到动作的过渡阶段,而非认知本身。这些结果揭示了LLM工具使用中存在的**知行差距**:提升工具使用的可靠性不仅需要更好地识别何时需要工具,还需要更好地将该识别转化为行动。 ## 1 引言 大型语言模型(LLMs)日益被部署为与搜索引擎、计算器和API等外部工具交互的自主智能体\[20 (https://arxiv.org/html/2605.14038#bib.bib1),24 (https://arxiv.org/html/2605.14038#bib.bib2),26 (https://arxiv.org/html/2605.14038#bib.bib25),19 (https://arxiv.org/html/2605.14038#bib.bib26)\]。构建可靠自主LLM智能体的核心挑战之一是实现自适应工具使用:LLM需要确定**何时**应依赖此类工具,何时直接回答\[8 (https://arxiv.org/html/2605.14038#bib.bib27),22 (https://arxiv.org/html/2605.14038#bib.bib29),27 (https://arxiv.org/html/2605.14038#bib.bib28)\]。以往研究自适应工具使用的工作\[8 (https://arxiv.org/html/2605.14038#bib.bib27),22 (https://arxiv.org/html/2605.14038#bib.bib29),13 (https://arxiv.org/html/2605.14038#bib.bib31)\]大多将工具必要性视为静态的、与模型无关的属性,通常依赖人工标注者或强大的LLM评判者来判断查询是否需要工具,主要关注答案显而易见的极端情况,例如获取实时天气数据与改写静态段落。然而,由于不同模型之间能力边界的自然差异,现实中的工具必要性本质上更为微妙。一个最先进模型仅凭其内部权重即可轻松解决的问题,可能完全超出较小或较弱模型的能力范围,从而使工具使用对后者而言严格必要,对前者却属多余。在本工作中,我们认为工具必要性必须与特定模型的能力内在联系。我们引入一种模型自适应的工具必要性定义,该定义不基于静态标注,而是基于每个模型自身的经验表现。通过根据模型的内在能力评估必要性,我们为特定LLM何时应寻求外部帮助建立了更准确的特征描述。根据这一定义,我们比较了四个不同模型在算术和事实性问答(QA)数据集上实际必要性与观察到的工具调用行为。我们的发现揭示了显著的失配:模型在算术任务中出现26.5–54.0%的必要性-动作失配,在事实性QA中出现30.8–41.8%的必要性-动作失配,经常在能够直接回答时调用工具,或在缺乏所需内部知识时试图直接回答。 参照图注 图1:LLM工具使用的两阶段认知-执行建模概览。(左)必要性:我们提出一种模型自适应的工具必要性定义,基于模型自身持续正确回答查询的能力,与以往模型无关的方法形成对比。(中)认知:通过探测模型的内部隐藏状态\\(h\\),我们识别出一个线性认知方向\\(w\_c\\),该方向能成功区分何时需要工具。(右)动作:我们还训练了一个探针\\(w\_a\\)来预测实际的工具调用执行。我们发现\\(w\_c\\)和\\(w\_a\\)在后期层中几乎正交,并且大多数必要性-动作失配源自执行阶段(将认知转化为行动),而非内部认知阶段。为诊断这一失败的潜在机制,我们提出工具使用过程的两阶段分解:内在认知阶段,反映模型内部表示是否编码了工具必要的信念;执行阶段,决定模型是否实际输出触发工具的词元。基于先前在机械可解释性和表示工程\[35 (https://arxiv.org/html/2605.14038#bib.bib15)\]方面的进展,并遵循近期关于自适应工具使用的文献\[13 (https://arxiv.org/html/2605.14038#bib.bib31),28 (https://arxiv.org/html/2605.14038#bib.bib32)\],我们探测LLM隐藏状态,发现对必要性的认知和执行意图通常可线性解码。然而,有趣的是,它们各自的探针方向在后期层、最后一个词元区域变得几乎正交。通过追踪样本经过这一两阶段过程的轨迹,我们揭示了LLM工具使用中的**知行差距**:大多数观察到的必要性-动作失配案例源于从认知到动作的过渡,而非认知阶段。模型经常生成表示其意识到自身局限性的内部表示,但未能将其转化为工具调用的语法执行。我们的主要贡献可总结如下: - •我们提出一种基于经验表现的模型自适应工具必要性定义,挑战了传统的静态、模型无关的标注方式。 - •我们在算术和事实性问答数据集上评估了四个不同的LLM,揭示了实际工具必要性与观察到的工具调用动作之间存在显著的行为失配(高达54.0%)。 - •通过将工具使用划分为内部认知阶段和执行阶段,我们利用表示探针证明,尽管意图和必要性均可线性解码,但它们的探针方向在后期层、最后一个词元区域变得接近正交。 - •通过轨迹追踪,我们发现工具使用失败主要发生在从认知到动作的过渡期间,凸显了LLM工具使用中的知行差距。 ## 2 相关工作 #### LLM智能体中的工具调用。为扩展LLM能力超越参数化知识,研究者引入了函数/工具调用\[20 (https://arxiv.org/html/2605.14038#bib.bib1),24 (https://arxiv.org/html/2605.14038#bib.bib2),26 (https://arxiv.org/html/2605.14038#bib.bib25),19 (https://arxiv.org/html/2605.14038#bib.bib26)\],使其能够与外部资源交互并扩展任务覆盖范围。标准协议如MCP\[1 (https://arxiv.org/html/2605.14038#bib.bib21)\]和A2A\[6 (https://arxiv.org/html/2605.14038#bib.bib8)\]进一步简化了工具生态系统内的通信和访问。与此同时,各种工作研究了工具使用准确性\[12 (https://arxiv.org/html/2605.14038#bib.bib7),21 (https://arxiv.org/html/2605.14038#bib.bib23)\]、虚构调用\[33 (https://arxiv.org/html/2605.14038#bib.bib6),23 (https://arxiv.org/html/2605.14038#bib.bib4)\]以及对工具描述的鲁棒性\[25 (https://arxiv.org/html/2605.14038#bib.bib5),5 (https://arxiv.org/html/2605.14038#bib.bib10)\]。然而,尽管这些努力旨在教授和评估**如何**使用工具,但构建可靠LLM智能体中一个重要且常被忽视的挑战是确定**何时**使用工具。现有研究这一挑战的工作\[8 (https://arxiv.org/html/2605.14038#bib.bib27),22 (https://arxiv.org/html/2605.14038#bib.bib29),13 (https://arxiv.org/html/2605.14038#bib.bib31)\]将工具必要性视为查询的静态属性,使用人工标注者或某种专有LLM将实例标记为工具必要或工具不必要。这忽略了不同模型之间能力边界的固有差异。虽然Wang等人\[27 (https://arxiv.org/html/2605.14038#bib.bib28)\]也倡导模型相关的工具必要性,但据我们所知,我们是首个拥有将工具必要性经验性地基于给定模型实际能力的流水线的工作。 #### LLM的元认知与“知行差距”。LLM准确评估自身能力边界的能力——通常称为元认知或自我评估——一直是长期感兴趣的话题\[10 (https://arxiv.org/html/2605.14038#bib.bib11),30 (https://arxiv.org/html/2605.14038#bib.bib22)\]。为衡量这种自我意识,早期工作主要依赖于通过教授模型表达其知识边界\[2 (https://arxiv.org/html/2605.14038#bib.bib19),31 (https://arxiv.org/html/2605.14038#bib.bib18)\]或直接口头表达置信度\[15 (https://arxiv.org/html/2605.14038#bib.bib20)\]来衡量显式自我评估。然而,近期工作表明,模型口头表达其内部激活的能力有限\[17 (https://arxiv.org/html/2605.14038#bib.bib34),9 (https://arxiv.org/html/2605.14038#bib.bib33)\]。此外,自我评估任务和实际问题求解本质上是不同的任务。当被明确提示其能力边界时,模型会专注于自我评估。但当面对实际问题求解时,提示通常面向任务,因此自我评估过程变得隐式和潜意识的。这类似于系统I和系统II思维的区别\[14 (https://arxiv.org/html/2605.14038#bib.bib35)\]。因此,在本工作中,我们遵循一些近期使用内部状态探测来衡量模型对工具必要性认知的研究\[13 (https://arxiv.org/html/2605.14038#bib.bib31),28 (https://arxiv.org/html/2605.14038#bib.bib32)\],并在附录B (https://arxiv.org/html/2605.14038#A2)中经验性地展示了当被明确提示进行自我评估时,模型工具调用行为如何变化。同时,在LLM其他领域中利用隐藏状态研究模型内部认知的论文发现,模型的动作可能与其内部信念产生分歧。例如,Zhao等人\[34 (https://arxiv.org/html/2605.14038#bib.bib3)\]发现LLM可能无法拒绝有害查询,尽管内部识别出其有害性;Zhang等人\[32 (https://arxiv.org/html/2605.14038#bib.bib36)\]表明模型可以在内部识别出自己无法解决某些数学问题,但仍然消耗词元进行无效推理。在本工作中,我们表明这种“知行差距”同样存在于工具调用中,并且可能构成端到端错误的更大比例。 ## 3 定义模型自适应工具必要性与工具调用的两阶段建模 为研究LLM中的工具使用行为,我们引入一个简单的分解,将识别工具需求与基于该识别采取行动区分开来。这一区分将成为本文剩余部分评估、诊断和分析的基础。 #### 定义模型自适应工具必要性。现有工作通常假设一个固定的工具必要性概念,为每个查询分配一个独立于被评估模型的静态标签。然而,我们认为由于不同模型具有不同的能力边界,工具必要性标签应根据模型自适应。为表征模型的能力边界,给定模型\\(f\\)和查询\\(x\\),我们在无外部工具、温度为\\(T\\)的条件下进行\\(N\\)次独立推理运行。如果模型\\(f\\)在\\(N\\)次运行中都能一致正确解决问题\\(x\\),我们假设该\\(x\\)落在\\(f\\)的能力边界内,因此工具必要性\\(n\_f(x)\\)为0。否则,模型无法可靠解决该查询,因此\\(n\_f(x)\\)为1。参数\\(N\\)和\\(T\\)控制该标准的严格程度。具体而言,\\(N\\)和\\(T\\)的值越大,对查询是否真正落在模型能力边界内的估计越保守和稳健,因为它们要求模型更一致地输出正确答案。这种公式化捕捉了现实部署的一个关键方面:不确定性下的可靠性。在实际环境中,一个仅偶尔能在无工具时产生正确答案的模型,可能仍需外部帮助以确保一致性能。通过将工具必要性基于经验行为而非静态标注,我们的方法为给定模型何时真正需要工具使用提供了更忠实的表征。 #### 工具调用的认知-执行建模。我们将工具使用概念化为一个两阶段过程: \\[x \\rightarrow z\_f(x) \\rightarrow a\_f(z\_f(x)),\\] (1) 其中\\(z\_f(x)\\)表示模型关于是否需要工具的内在认知,\\(a\_f(z\_f(x))\\)表示模型是否基于其认知实际调用工具。这种两阶段分解反映了人类的认知过程以及我们对模型的期望。它区分了**元认知**——模型关于自身能力边界的内部信念,和**执行能力**——模型如何基于其认知行动。 #### 端到端错误诊断。在我们依赖于模型的工具必要性定义\\(n\_f(x)\\)和如公式1 (https://arxiv.org/html/2605.14038#S3.E1)所示的两阶段建模下,我们可以将端到端的必要性-动作失配\\(D(n\_f(x), a\_f(z\_f(x)))\\)分解为实际必要性与认知之间的失配\\(D(n\_f(x), z\_f(x))\\),以及模型认知与实际决策之间的失配\\(D(z\_f(x), a\_f(z\_f(x)))\\),其中\\(D(m,n)\\)表示\\(m\\)和\\(n\\)之间的差异。 ## 4 数据集整理 我们涵盖两个代表性领域:数学算术和事实性问答,使用两个广泛使用的模型系列:Qwen3-8B和Qwen3-4B\[29 (https://arxiv.org/html/2605.14038#bib.bib17)\],以及Llama-3.1-8B-Instruct和Llama-3.2-3B-Instruct\[7 (https://arxiv.org/html/2605.14038#bib.bib14)\]。这些领域提供了自然的测试平台,其中一些查询可以通过模型可靠解决

相似文章

@omarsar0: 关于工具使用智能体的有趣可解释性论文。作者探测隐藏状态,发现模型经常识别到应调用工具,但…

X AI KOLs Following

本文提出了一个模型自适应的工具必要性定义,并发现 LLM 内部识别需要工具与实际调用工具之间存在 26% 到 54% 的不匹配,集中体现在认知到行动的转换阶段。它揭示了一个“知行差距”(knowing-doing gap),即模型通常知道应该调用工具,但由于后期层几何结构将信号旋转至几乎与行动正交,导致调用失败。

LLM代理已经知道何时调用工具——甚至无需推理

Hugging Face Daily Papers

本文介绍了When2Tool,一个研究LLM代理实际何时需要调用工具的基准,并揭示模型已从隐藏状态知道工具的必要性但未能采取行动。提出的Probe&Prefill方法将不必要的工具调用减少了48%,且精度损失极小。