TACO:面向智能体工具使用的工具增强信用优化
摘要
TACO提出了一种针对代码工具智能体的新型信用优化方法,该方法使用差分奖励探针和结果门控优势路由来区分有用、冗余或误导性的工具调用,从而提升多模态智能体的性能。
查看缓存全文
缓存时间: 2026/06/30 03:33
论文页面 - TACO:用于代理工具使用的工具增强信用优化
来源:https://huggingface.co/papers/2606.30251
摘要
工具增强信用优化(TACO)通过双优势通道区分有用、冗余或误导性的代码操作:差分答案探针奖励用于评估单个工具贡献,以及结果门控优势路由用于最终结果分布,从而提升多模态代理性能。
代理型多模态模型(https://huggingface.co/papers?q=Agentic%20multimodal%20models)通过代码对图像执行多种操作,并基于返回的视图进行推理,这是一种用于细粒度视觉问答的有效范式。然而,代码操作可能是有用的、冗余的或误导性的。仅基于结果的奖励无法精确区分这些情况,而现有的过程奖励要么无法将最终正确性归因于单个工具调用,要么需要外部评判模型。为了解决这个问题,我们提出了TACO,一种针对代码工具代理(https://huggingface.co/papers?q=code-tool%20agents)的GRPO(https://huggingface.co/papers?q=GRPO)变体,它基于两个耦合的优势通道。第一个是差分答案探针奖励(DAPR)(https://huggingface.co/papers?q=Differential%20Answer-Probe%20Reward),这是一种自监督、无评判的工具贡献优势(https://huggingface.co/papers?q=tool-contribution%20advantage),根据每个工具调用本身对正确回答的影响来赋予其价值。在模型的推理过程中插入探针令牌(https://huggingface.co/papers?q=Probe%20tokens),分别触发模型在有和没有该工具时的预测,并将结果奖励的差值作为该调用的价值:有用调用为正,误导调用为负,无变化调用为零。这复用了现有的答案检查器(https://huggingface.co/papers?q=answer%20checker),无需辅助评判,并且因为是差值而非绝对探针分数,自然地对探针劫持(https://huggingface.co/papers?q=probe-hacking)具有鲁棒性。第二个优势来自最终答案的结果优势,通过结果门控优势路由(OGAR)(https://huggingface.co/papers?q=Outcome-Gated%20Advantage%20Routing)进行分配:这是一个无参数的规则,根据调用的结果,仅将该信用分配给负责任的分段,从而抑制无用的工具调用,无需任何成本项。我们通过两阶段SFT+RL流水线(https://huggingface.co/papers?q=SFT%2BRL%20pipeline)训练TACO。在感知、推理和通用多模态基准上的大量实验表明,它能带来一致的准确率提升,并学会仅在工具有帮助时才调用它们。
查看arXiv页面(https://arxiv.org/abs/2606.30251)查看PDF(https://arxiv.org/pdf/2606.30251)添加到收藏(https://huggingface.co/login?next=%2Fpapers%2F2606.30251)
在你的代理中获取这篇论文:
hf papers read 2606\.30251
没有最新的 CLI?curl \-LsSf https://hf\.co/cli/install\.sh \| bash
引用此论文的模型0
没有模型关联此论文
在模型的 README.md 中引用 arxiv.org/abs/2606.30251 以从该页面链接。
引用此论文的数据集0
没有数据集关联此论文
在数据集的 README.md 中引用 arxiv.org/abs/2606.30251 以从该页面链接。
引用此论文的 Spaces0
没有 Space 关联此论文
在 Space 的 README.md 中引用 arxiv.org/abs/2606.30251 以从该页面链接。
包含此论文的收藏集0
没有收藏集包含此论文
将此论文添加到一个收藏集(https://huggingface.co/new-collection)以从该页面链接。
相似文章
一种基于观测上下文压缩的高效终端智能体自我演化框架
TACO 提出了一种自我演化压缩框架,可自动学习压缩冗余的终端交互历史,在 TerminalBench 及其他代码智能体基准上将 token 开销降低约 10%,准确率提升 1–4%。
@omarsar0:AI 开发者请留意,若你在开发长周期终端智能体,这条推文尤其值得关注……
TACO 是一个自我演化的框架,可自动发现并优化长周期终端智能体的上下文压缩规则。
CANTANTE:通过对比信用分配优化智能体系统 [R]
CANTANTE 引入了一种对比信用分配方法,通过将全局奖励分解为每个智能体的信号,优化多智能体 LLM 系统,从而实现自动化提示调优。在编程、数学和检索基准测试中,它超越了基线方法,在不增加推理成本的情况下实现了最高 +18.9 分的提升。
ToolGate:面向工具增强型视觉语言代理的令牌高效预调用控制
ToolGate 是一个轻量级的外部控制器,能够预测在视觉语言代理中是否执行或跳过感知工具调用,从而将令牌成本降至基线的64%-69%,同时保持跨域设置下的准确性。
TacoMAS:基于大语言模型的多智能体系统中拓扑与能力的测试时共演化
本文介绍了 TacoMAS,这是一个用于大语言模型驱动的多智能体系统中智能体能力与通信拓扑测试时共演化的框架。研究表明,与现有基线相比,联合调整快速能力环和慢速拓扑环能够提升性能并增强稳定性。