LLM代理已经知道何时调用工具——甚至无需推理

Hugging Face Daily Papers 论文

摘要

本文介绍了When2Tool,一个研究LLM代理实际何时需要调用工具的基准,并揭示模型已从隐藏状态知道工具的必要性但未能采取行动。提出的Probe&Prefill方法将不必要的工具调用减少了48%,且精度损失极小。

增强工具的大语言模型代理往往不加区分地调用工具,即使模型可以直接回答。每次不必要的调用都会浪费API费用和延迟,但现有的基准测试并未系统性地研究何时真正需要调用工具。我们提出了When2Tool,一个包含18个环境(15个单跳,3个多跳)的基准,涵盖工具必要性的三个类别——计算规模、知识边界和执行可靠性——每个类别具有可控的难度级别,从而在工具必要和工具不必要的任务之间形成清晰的决策边界。我们评估了两类无训练基线:仅提示(改变提示以阻止不必要的调用)和先推理后行动(要求模型在行动前推理工具必要性)。两者提供的控制有限:仅提示在抑制不必要调用的同时也会抑制必要的调用,而先推理后行动在困难任务上仍会导致不成比例的精度下降。为了理解这些基线失败的原因,我们探测了模型的隐藏状态,发现工具必要性可以从预生成表示中线性解码,六个模型的AUROC达到0.89--0.96,大大超过了模型自身的口头推理。这揭示了模型已经知道何时需要工具,但在生成过程中未能依据这一知识行动。基于这一发现,我们提出了Probe&Prefill,它使用一个轻量级线性探针读取隐藏状态信号,并用一个引导句预填充模型的响应。在所有测试的模型上,Probe&Prefill将工具调用减少了48%,精度损失仅为1.7%,而精度相当的最佳基线仅减少了6%的工具调用,或者达到类似的工具调用减少但精度损失高出5倍。我们的代码可在https://github.com/Trustworthy-ML-Lab/when2tool获取。
查看原文 导出为 Word 导出为 PDF
查看缓存全文

缓存时间: 2026/05/13 20:14

论文页面 - LLM智能体早已知道何时调用工具——即使不经过推理

来源:https://huggingface.co/papers/2605.09252

摘要

When2Tool基准测试识别了LLM智能体需要调用工具的条件,揭示了模型能从隐藏状态预测工具必要性,但未能将这一知识付诸行动,从而促成了Probe&Prefill方法的开发——该方法在精度损失极小的情况下将不必要的工具调用减少了48%。

工具增强的LLM智能体(https://huggingface.co/papers?q=Tool-augmented%20LLM%20agents)倾向于不加区分地调用工具,即使模型可以直接作答。每一次不必要的调用都会浪费API费用并增加延迟,然而现有的基准测试(https://huggingface.co/papers?q=benchmark)并未系统研究何时真正需要工具调用。我们提出了When2Tool基准测试(https://huggingface.co/papers?q=benchmark),包含18个环境(15个单跳,3个多跳),涵盖三类工具必要性(https://huggingface.co/papers?q=tool%20necessity)——计算规模、知识边界和执行可靠性——每类都有受控的难度级别,从而在需要工具和不需要工具的任务之间形成清晰的决策边界。我们评估了两类无训练基线:仅提示(通过改变提示来阻止不必要的调用)和先推理后行动(要求模型在行动前对工具必要性(https://huggingface.co/papers?q=tool%20necessity)进行推理)。两者控制能力有限:仅提示类在抑制不必要调用的同时也抑制了必要调用;先推理后行动类在困难任务上仍会带来不成比例的精度损失。为了理解这些基线失败的原因,我们探测了模型的隐藏状态(https://huggingface.co/papers?q=hidden%20states),发现工具必要性(https://huggingface.co/papers?q=tool%20necessity)可以从预生成表示(https://huggingface.co/papers?q=pre-generation%20representation)中线性解码,在六个模型上的AUROC(https://huggingface.co/papers?q=AUROC)达到0.89-0.96,显著超过模型自身语言化的推理。这表明模型早已知道何时需要工具,但在生成过程中未能将这一知识付诸行动。基于这一发现,我们提出了Probe&Prefill(https://huggingface.co/papers?q=Probe%26Prefill),它使用一个轻量级线性探针读取隐藏状态信号,并用一条引导句(https://huggingface.co/papers?q=steering%20sentence)预填充模型的响应。在所有测试的模型中,Probe&Prefill(https://huggingface.co/papers?q=Probe%26Prefill)将工具调用减少了48%,精度损失仅为1.7%,而精度相当的最佳基线仅减少了6%的工具调用,或者实现了类似的工具调用减少但精度损失高出5倍。我们的代码可在 https://github.com/Trustworthy-ML-Lab/when2tool 获取。

查看arXiv页面(https://arxiv.org/abs/2605.09252)查看PDF(https://arxiv.org/pdf/2605.09252)项目页面(https://lilywenglab.github.io/when2tool/)GitHub(https://github.com/Trustworthy-ML-Lab/when2tool)添加到收藏(https://huggingface.co/login?next=%2Fpapers%2F2605.09252)

在您的智能体中获取此论文:

hf papers read 2605\.09252

没有最新的CLI?curl \-LsSf https://hf\.co/cli/install\.sh \| bash

引用此论文的模型0

没有模型链接到此论文

在模型README.md中引用 arxiv.org/abs/2605.09252 即可从此页面链接。

引用此论文的数据集1

cesun/When2Tool 查看器• 更新于大约20小时前 • 3.78k • 23 (https://huggingface.co/datasets/cesun/When2Tool)

引用此论文的Space0

没有Space链接到此论文

在Space README.md中引用 arxiv.org/abs/2605.09252 即可从此页面链接。

包含此论文的收藏0

没有收藏包含此论文

将此论文添加到收藏(https://huggingface.co/new-collection)即可从此页面链接。

相似文章

用 LLM 优化 LLM:面向测试时扩展的智能体发现方法

Hugging Face Daily Papers

本文提出了 AutoTTS,这是一种环境驱动的框架,通过将测试时扩展(TTS)策略的发现过程形式化为控制器合成,自动发现用于大型语言模型(LLM)的测试时扩展策略。该框架在数学推理基准测试上展示了更优的准确率-成本权衡,且计算开销极小。

大语言模型搜索代理的推理时预算控制

arXiv cs.AI

本文提出了一种用于大语言模型(LLM)搜索代理的两阶段推理时预算控制方法,利用信息价值(VOI)分数在多跳问答过程中优化工具调用和 Token 分配。