LLM代理已经知道何时调用工具——甚至无需推理
摘要
本文介绍了When2Tool,一个研究LLM代理实际何时需要调用工具的基准,并揭示模型已从隐藏状态知道工具的必要性但未能采取行动。提出的Probe&Prefill方法将不必要的工具调用减少了48%,且精度损失极小。
查看缓存全文
缓存时间: 2026/05/13 20:14
论文页面 - LLM智能体早已知道何时调用工具——即使不经过推理
来源:https://huggingface.co/papers/2605.09252
摘要
When2Tool基准测试识别了LLM智能体需要调用工具的条件,揭示了模型能从隐藏状态预测工具必要性,但未能将这一知识付诸行动,从而促成了Probe&Prefill方法的开发——该方法在精度损失极小的情况下将不必要的工具调用减少了48%。
工具增强的LLM智能体(https://huggingface.co/papers?q=Tool-augmented%20LLM%20agents)倾向于不加区分地调用工具,即使模型可以直接作答。每一次不必要的调用都会浪费API费用并增加延迟,然而现有的基准测试(https://huggingface.co/papers?q=benchmark)并未系统研究何时真正需要工具调用。我们提出了When2Tool基准测试(https://huggingface.co/papers?q=benchmark),包含18个环境(15个单跳,3个多跳),涵盖三类工具必要性(https://huggingface.co/papers?q=tool%20necessity)——计算规模、知识边界和执行可靠性——每类都有受控的难度级别,从而在需要工具和不需要工具的任务之间形成清晰的决策边界。我们评估了两类无训练基线:仅提示(通过改变提示来阻止不必要的调用)和先推理后行动(要求模型在行动前对工具必要性(https://huggingface.co/papers?q=tool%20necessity)进行推理)。两者控制能力有限:仅提示类在抑制不必要调用的同时也抑制了必要调用;先推理后行动类在困难任务上仍会带来不成比例的精度损失。为了理解这些基线失败的原因,我们探测了模型的隐藏状态(https://huggingface.co/papers?q=hidden%20states),发现工具必要性(https://huggingface.co/papers?q=tool%20necessity)可以从预生成表示(https://huggingface.co/papers?q=pre-generation%20representation)中线性解码,在六个模型上的AUROC(https://huggingface.co/papers?q=AUROC)达到0.89-0.96,显著超过模型自身语言化的推理。这表明模型早已知道何时需要工具,但在生成过程中未能将这一知识付诸行动。基于这一发现,我们提出了Probe&Prefill(https://huggingface.co/papers?q=Probe%26Prefill),它使用一个轻量级线性探针读取隐藏状态信号,并用一条引导句(https://huggingface.co/papers?q=steering%20sentence)预填充模型的响应。在所有测试的模型中,Probe&Prefill(https://huggingface.co/papers?q=Probe%26Prefill)将工具调用减少了48%,精度损失仅为1.7%,而精度相当的最佳基线仅减少了6%的工具调用,或者实现了类似的工具调用减少但精度损失高出5倍。我们的代码可在 https://github.com/Trustworthy-ML-Lab/when2tool 获取。
查看arXiv页面(https://arxiv.org/abs/2605.09252)查看PDF(https://arxiv.org/pdf/2605.09252)项目页面(https://lilywenglab.github.io/when2tool/)GitHub(https://github.com/Trustworthy-ML-Lab/when2tool)添加到收藏(https://huggingface.co/login?next=%2Fpapers%2F2605.09252)
在您的智能体中获取此论文:
hf papers read 2605\.09252
没有最新的CLI?curl \-LsSf https://hf\.co/cli/install\.sh \| bash
引用此论文的模型0
没有模型链接到此论文
在模型README.md中引用 arxiv.org/abs/2605.09252 即可从此页面链接。
引用此论文的数据集1
cesun/When2Tool 查看器• 更新于大约20小时前 • 3.78k • 23 (https://huggingface.co/datasets/cesun/When2Tool)
引用此论文的Space0
没有Space链接到此论文
在Space README.md中引用 arxiv.org/abs/2605.09252 即可从此页面链接。
包含此论文的收藏0
没有收藏包含此论文
将此论文添加到收藏(https://huggingface.co/new-collection)即可从此页面链接。
相似文章
用 LLM 优化 LLM:面向测试时扩展的智能体发现方法
本文提出了 AutoTTS,这是一种环境驱动的框架,通过将测试时扩展(TTS)策略的发现过程形式化为控制器合成,自动发现用于大型语言模型(LLM)的测试时扩展策略。该框架在数学推理基准测试上展示了更优的准确率-成本权衡,且计算开销极小。
大多数大语言模型评估工具是否仍然过于侧重提示词?
作者质疑当前的 LLM 评估工具是否过于关注孤立的提示词,而忽视了完整的工作流程和智能体交互,并指出逐步的准确性可能会掩盖生产环境中整体行为的偏差。
大语言模型搜索代理的推理时预算控制
本文提出了一种用于大语言模型(LLM)搜索代理的两阶段推理时预算控制方法,利用信息价值(VOI)分数在多跳问答过程中优化工具调用和 Token 分配。
AutoLLMResearch:通过从低成本学习来优化高成本,训练研究智能体以自动化大型语言模型实验配置
本文介绍了 AutoLLMResearch,这是一个智能体框架,旨在通过在低保真环境中学习并外推至高成本设置,实现昂贵的大型语言模型(LLM)实验配置的自动化。其目标是减少可扩展 LLM 研究中的计算浪费以及对专家直觉的依赖。
研究人员让AI智能体优化LLM推理,Token用量锐减70%
研究人员开发了AutoTTS框架,通过AI智能体自动设计控制策略来优化LLM推理,在保持高推理准确率的同时,将Token消耗降低约70%。