TACO:面向智能体工具使用的工具增强信用优化

Hugging Face Daily Papers 论文

摘要

TACO提出了一种针对代码工具智能体的新型信用优化方法,该方法使用差分奖励探针和结果门控优势路由来区分有用、冗余或误导性的工具调用,从而提升多模态智能体的性能。

智能体多模态模型通过代码对图像执行多样化操作,并基于返回的视图进行推理,这是一种用于细粒度视觉问答的有效范式。然而,代码操作可能是有用的、冗余的或具有误导性的。仅基于结果的奖励无法精确区分这些情况,而现有的过程奖励要么无法将最终正确性归因于单个工具调用,要么需要外部评判模型。为了解决这个问题,我们引入了工具增强信用优化(TACO),这是一种针对代码工具智能体的GRPO变体,基于两个耦合的优势通道构建。第一个是差分答案探针奖励(DAPR),这是一种自监督、无需评判者的工具贡献优势,它根据每个工具调用对正确回答的影响来给予信用。插入到模型推理中的探针标记(probe tokens)会引发模型在有和没有该工具的情况下的预测,并将结果奖励的差值作为该调用的价值:对于有用的调用为正,对于误导性的调用为负,对于不改变结果的调用为零。这复用了现有的答案检查器,无需辅助评判者,并且由于是差值而非绝对探针分数,因此自然对探针攻击(probe-hacking)具有鲁棒性。第二个是来自最终答案的结果优势,通过结果门控优势路由(OGAR)进行分配:这是一种无参数规则,根据调用的结果,仅将信用传递给负责的片段,从而抑制浪费的工具调用,且无需任何成本项。我们通过两阶段SFT+RL流程训练TACO。在感知、推理和通用多模态基准上的大量实验表明,它能够持续提升准确率,并学会仅在有帮助时才调用工具。
查看原文
查看缓存全文

缓存时间: 2026/06/30 03:33

论文页面 - TACO:用于代理工具使用的工具增强信用优化

来源:https://huggingface.co/papers/2606.30251

摘要

工具增强信用优化(TACO)通过双优势通道区分有用、冗余或误导性的代码操作:差分答案探针奖励用于评估单个工具贡献,以及结果门控优势路由用于最终结果分布,从而提升多模态代理性能。

代理型多模态模型(https://huggingface.co/papers?q=Agentic%20multimodal%20models)通过代码对图像执行多种操作,并基于返回的视图进行推理,这是一种用于细粒度视觉问答的有效范式。然而,代码操作可能是有用的、冗余的或误导性的。仅基于结果的奖励无法精确区分这些情况,而现有的过程奖励要么无法将最终正确性归因于单个工具调用,要么需要外部评判模型。为了解决这个问题,我们提出了TACO,一种针对代码工具代理(https://huggingface.co/papers?q=code-tool%20agents)的GRPO(https://huggingface.co/papers?q=GRPO)变体,它基于两个耦合的优势通道。第一个是差分答案探针奖励(DAPR)(https://huggingface.co/papers?q=Differential%20Answer-Probe%20Reward),这是一种自监督、无评判的工具贡献优势(https://huggingface.co/papers?q=tool-contribution%20advantage),根据每个工具调用本身对正确回答的影响来赋予其价值。在模型的推理过程中插入探针令牌(https://huggingface.co/papers?q=Probe%20tokens),分别触发模型在有和没有该工具时的预测,并将结果奖励的差值作为该调用的价值:有用调用为正,误导调用为负,无变化调用为零。这复用了现有的答案检查器(https://huggingface.co/papers?q=answer%20checker),无需辅助评判,并且因为是差值而非绝对探针分数,自然地对探针劫持(https://huggingface.co/papers?q=probe-hacking)具有鲁棒性。第二个优势来自最终答案的结果优势,通过结果门控优势路由(OGAR)(https://huggingface.co/papers?q=Outcome-Gated%20Advantage%20Routing)进行分配:这是一个无参数的规则,根据调用的结果,仅将该信用分配给负责任的分段,从而抑制无用的工具调用,无需任何成本项。我们通过两阶段SFT+RL流水线(https://huggingface.co/papers?q=SFT%2BRL%20pipeline)训练TACO。在感知、推理和通用多模态基准上的大量实验表明,它能带来一致的准确率提升,并学会仅在工具有帮助时才调用它们。

查看arXiv页面(https://arxiv.org/abs/2606.30251)查看PDF(https://arxiv.org/pdf/2606.30251)添加到收藏(https://huggingface.co/login?next=%2Fpapers%2F2606.30251)

在你的代理中获取这篇论文:

hf papers read 2606\.30251

没有最新的 CLI?curl \-LsSf https://hf\.co/cli/install\.sh \| bash

引用此论文的模型0

没有模型关联此论文

在模型的 README.md 中引用 arxiv.org/abs/2606.30251 以从该页面链接。

引用此论文的数据集0

没有数据集关联此论文

在数据集的 README.md 中引用 arxiv.org/abs/2606.30251 以从该页面链接。

引用此论文的 Spaces0

没有 Space 关联此论文

在 Space 的 README.md 中引用 arxiv.org/abs/2606.30251 以从该页面链接。

包含此论文的收藏集0

没有收藏集包含此论文

将此论文添加到一个收藏集(https://huggingface.co/new-collection)以从该页面链接。

相似文章

CANTANTE:通过对比信用分配优化智能体系统 [R]

Reddit r/MachineLearning

CANTANTE 引入了一种对比信用分配方法,通过将全局奖励分解为每个智能体的信号,优化多智能体 LLM 系统,从而实现自动化提示调优。在编程、数学和检索基准测试中,它超越了基线方法,在不增加推理成本的情况下实现了最高 +18.9 分的提升。