LLM代理已经知道何时调用工具——甚至无需推理

Hugging Face Daily Papers 2026/05/10 00:00 论文

llm-agents tool-calling benchmark probing hidden-states efficiency

摘要

本文介绍了When2Tool，一个研究LLM代理实际何时需要调用工具的基准，并揭示模型已从隐藏状态知道工具的必要性但未能采取行动。提出的Probe&Prefill方法将不必要的工具调用减少了48%，且精度损失极小。

增强工具的大语言模型代理往往不加区分地调用工具，即使模型可以直接回答。每次不必要的调用都会浪费API费用和延迟，但现有的基准测试并未系统性地研究何时真正需要调用工具。我们提出了When2Tool，一个包含18个环境（15个单跳，3个多跳）的基准，涵盖工具必要性的三个类别——计算规模、知识边界和执行可靠性——每个类别具有可控的难度级别，从而在工具必要和工具不必要的任务之间形成清晰的决策边界。我们评估了两类无训练基线：仅提示（改变提示以阻止不必要的调用）和先推理后行动（要求模型在行动前推理工具必要性）。两者提供的控制有限：仅提示在抑制不必要调用的同时也会抑制必要的调用，而先推理后行动在困难任务上仍会导致不成比例的精度下降。为了理解这些基线失败的原因，我们探测了模型的隐藏状态，发现工具必要性可以从预生成表示中线性解码，六个模型的AUROC达到0.89--0.96，大大超过了模型自身的口头推理。这揭示了模型已经知道何时需要工具，但在生成过程中未能依据这一知识行动。基于这一发现，我们提出了Probe&Prefill，它使用一个轻量级线性探针读取隐藏状态信号，并用一个引导句预填充模型的响应。在所有测试的模型上，Probe&Prefill将工具调用减少了48%，精度损失仅为1.7%，而精度相当的最佳基线仅减少了6%的工具调用，或者达到类似的工具调用减少但精度损失高出5倍。我们的代码可在https://github.com/Trustworthy-ML-Lab/when2tool获取。

查看原文导出为 Word 导出为 PDF

查看缓存全文

缓存时间: 2026/05/13 20:14

论文页面 - LLM智能体早已知道何时调用工具——即使不经过推理

来源：https://huggingface.co/papers/2605.09252

摘要

When2Tool基准测试识别了LLM智能体需要调用工具的条件，揭示了模型能从隐藏状态预测工具必要性，但未能将这一知识付诸行动，从而促成了Probe&Prefill方法的开发——该方法在精度损失极小的情况下将不必要的工具调用减少了48%。

工具增强的LLM智能体（https://huggingface.co/papers?q=Tool-augmented%20LLM%20agents）倾向于不加区分地调用工具，即使模型可以直接作答。每一次不必要的调用都会浪费API费用并增加延迟，然而现有的基准测试（https://huggingface.co/papers?q=benchmark）并未系统研究何时真正需要工具调用。我们提出了When2Tool基准测试（https://huggingface.co/papers?q=benchmark），包含18个环境（15个单跳，3个多跳），涵盖三类工具必要性（https://huggingface.co/papers?q=tool%20necessity）——计算规模、知识边界和执行可靠性——每类都有受控的难度级别，从而在需要工具和不需要工具的任务之间形成清晰的决策边界。我们评估了两类无训练基线：仅提示（通过改变提示来阻止不必要的调用）和先推理后行动（要求模型在行动前对工具必要性（https://huggingface.co/papers?q=tool%20necessity）进行推理）。两者控制能力有限：仅提示类在抑制不必要调用的同时也抑制了必要调用；先推理后行动类在困难任务上仍会带来不成比例的精度损失。为了理解这些基线失败的原因，我们探测了模型的隐藏状态（https://huggingface.co/papers?q=hidden%20states），发现工具必要性（https://huggingface.co/papers?q=tool%20necessity）可以从预生成表示（https://huggingface.co/papers?q=pre-generation%20representation）中线性解码，在六个模型上的AUROC（https://huggingface.co/papers?q=AUROC）达到0.89-0.96，显著超过模型自身语言化的推理。这表明模型早已知道何时需要工具，但在生成过程中未能将这一知识付诸行动。基于这一发现，我们提出了Probe&Prefill（https://huggingface.co/papers?q=Probe%26Prefill），它使用一个轻量级线性探针读取隐藏状态信号，并用一条引导句（https://huggingface.co/papers?q=steering%20sentence）预填充模型的响应。在所有测试的模型中，Probe&Prefill（https://huggingface.co/papers?q=Probe%26Prefill）将工具调用减少了48%，精度损失仅为1.7%，而精度相当的最佳基线仅减少了6%的工具调用，或者实现了类似的工具调用减少但精度损失高出5倍。我们的代码可在 https://github.com/Trustworthy-ML-Lab/when2tool 获取。

查看arXiv页面（https://arxiv.org/abs/2605.09252）查看PDF（https://arxiv.org/pdf/2605.09252）项目页面（https://lilywenglab.github.io/when2tool/）GitHub（https://github.com/Trustworthy-ML-Lab/when2tool）添加到收藏（https://huggingface.co/login?next=%2Fpapers%2F2605.09252）

在您的智能体中获取此论文：

hf papers read 2605\.09252

没有最新的CLI？curl \-LsSf https://hf\.co/cli/install\.sh \| bash

引用此论文的模型0

没有模型链接到此论文

在模型README.md中引用 arxiv.org/abs/2605.09252 即可从此页面链接。

引用此论文的数据集1

cesun/When2Tool 查看器• 更新于大约20小时前 • 3.78k • 23 (https://huggingface.co/datasets/cesun/When2Tool)

引用此论文的Space0

没有Space链接到此论文

在Space README.md中引用 arxiv.org/abs/2605.09252 即可从此页面链接。

包含此论文的收藏0

没有收藏包含此论文

将此论文添加到收藏（https://huggingface.co/new-collection）即可从此页面链接。

LLM代理已经知道何时调用工具——甚至无需推理

论文页面 - LLM智能体早已知道何时调用工具——即使不经过推理

摘要

引用此论文的模型0

引用此论文的数据集1

cesun/When2Tool 查看器• 更新于大约20小时前 • 3.78k • 23 (https://huggingface.co/datasets/cesun/When2Tool)

引用此论文的Space0

包含此论文的收藏0

相似文章

用 LLM 优化 LLM：面向测试时扩展的智能体发现方法

大多数大语言模型评估工具是否仍然过于侧重提示词？

大语言模型搜索代理的推理时预算控制

AutoLLMResearch：通过从低成本学习来优化高成本，训练研究智能体以自动化大型语言模型实验配置

研究人员让AI智能体优化LLM推理，Token用量锐减70%

提交意见反馈