TACO：面向智能体工具使用的工具增强信用优化

Hugging Face Daily Papers 2026/06/29 00:00 论文

agentic-models multimodal tool-use reinforcement-learning credit-assignment code-agents

摘要

TACO提出了一种针对代码工具智能体的新型信用优化方法，该方法使用差分奖励探针和结果门控优势路由来区分有用、冗余或误导性的工具调用，从而提升多模态智能体的性能。

智能体多模态模型通过代码对图像执行多样化操作，并基于返回的视图进行推理，这是一种用于细粒度视觉问答的有效范式。然而，代码操作可能是有用的、冗余的或具有误导性的。仅基于结果的奖励无法精确区分这些情况，而现有的过程奖励要么无法将最终正确性归因于单个工具调用，要么需要外部评判模型。为了解决这个问题，我们引入了工具增强信用优化（TACO），这是一种针对代码工具智能体的GRPO变体，基于两个耦合的优势通道构建。第一个是差分答案探针奖励（DAPR），这是一种自监督、无需评判者的工具贡献优势，它根据每个工具调用对正确回答的影响来给予信用。插入到模型推理中的探针标记（probe tokens）会引发模型在有和没有该工具的情况下的预测，并将结果奖励的差值作为该调用的价值：对于有用的调用为正，对于误导性的调用为负，对于不改变结果的调用为零。这复用了现有的答案检查器，无需辅助评判者，并且由于是差值而非绝对探针分数，因此自然对探针攻击（probe-hacking）具有鲁棒性。第二个是来自最终答案的结果优势，通过结果门控优势路由（OGAR）进行分配：这是一种无参数规则，根据调用的结果，仅将信用传递给负责的片段，从而抑制浪费的工具调用，且无需任何成本项。我们通过两阶段SFT+RL流程训练TACO。在感知、推理和通用多模态基准上的大量实验表明，它能够持续提升准确率，并学会仅在有帮助时才调用工具。

查看原文

查看缓存全文

缓存时间: 2026/06/30 03:33

论文页面 - TACO：用于代理工具使用的工具增强信用优化

来源：https://huggingface.co/papers/2606.30251

摘要

工具增强信用优化（TACO）通过双优势通道区分有用、冗余或误导性的代码操作：差分答案探针奖励用于评估单个工具贡献，以及结果门控优势路由用于最终结果分布，从而提升多模态代理性能。

代理型多模态模型（https://huggingface.co/papers?q=Agentic%20multimodal%20models）通过代码对图像执行多种操作，并基于返回的视图进行推理，这是一种用于细粒度视觉问答的有效范式。然而，代码操作可能是有用的、冗余的或误导性的。仅基于结果的奖励无法精确区分这些情况，而现有的过程奖励要么无法将最终正确性归因于单个工具调用，要么需要外部评判模型。为了解决这个问题，我们提出了TACO，一种针对代码工具代理（https://huggingface.co/papers?q=code-tool%20agents）的GRPO（https://huggingface.co/papers?q=GRPO）变体，它基于两个耦合的优势通道。第一个是差分答案探针奖励（DAPR）（https://huggingface.co/papers?q=Differential%20Answer-Probe%20Reward），这是一种自监督、无评判的工具贡献优势（https://huggingface.co/papers?q=tool-contribution%20advantage），根据每个工具调用本身对正确回答的影响来赋予其价值。在模型的推理过程中插入探针令牌（https://huggingface.co/papers?q=Probe%20tokens），分别触发模型在有和没有该工具时的预测，并将结果奖励的差值作为该调用的价值：有用调用为正，误导调用为负，无变化调用为零。这复用了现有的答案检查器（https://huggingface.co/papers?q=answer%20checker），无需辅助评判，并且因为是差值而非绝对探针分数，自然地对探针劫持（https://huggingface.co/papers?q=probe-hacking）具有鲁棒性。第二个优势来自最终答案的结果优势，通过结果门控优势路由（OGAR）（https://huggingface.co/papers?q=Outcome-Gated%20Advantage%20Routing）进行分配：这是一个无参数的规则，根据调用的结果，仅将该信用分配给负责任的分段，从而抑制无用的工具调用，无需任何成本项。我们通过两阶段SFT+RL流水线（https://huggingface.co/papers?q=SFT%2BRL%20pipeline）训练TACO。在感知、推理和通用多模态基准上的大量实验表明，它能带来一致的准确率提升，并学会仅在工具有帮助时才调用它们。

查看arXiv页面（https://arxiv.org/abs/2606.30251）查看PDF（https://arxiv.org/pdf/2606.30251）添加到收藏（https://huggingface.co/login?next=%2Fpapers%2F2606.30251）

在你的代理中获取这篇论文：

hf papers read 2606\.30251

没有最新的 CLI？curl \-LsSf https://hf\.co/cli/install\.sh \| bash

引用此论文的模型0

没有模型关联此论文

在模型的 README.md 中引用 arxiv.org/abs/2606.30251 以从该页面链接。

引用此论文的数据集0

没有数据集关联此论文

在数据集的 README.md 中引用 arxiv.org/abs/2606.30251 以从该页面链接。

引用此论文的 Spaces0

没有 Space 关联此论文

在 Space 的 README.md 中引用 arxiv.org/abs/2606.30251 以从该页面链接。

包含此论文的收藏集0

没有收藏集包含此论文

将此论文添加到一个收藏集（https://huggingface.co/new-collection）以从该页面链接。

TACO：面向智能体工具使用的工具增强信用优化

论文页面 - TACO：用于代理工具使用的工具增强信用优化

摘要

引用此论文的模型0

引用此论文的数据集0

引用此论文的 Spaces0

包含此论文的收藏集0

相似文章

一种基于观测上下文压缩的高效终端智能体自我演化框架

@omarsar0：AI 开发者请留意，若你在开发长周期终端智能体，这条推文尤其值得关注……

CANTANTE：通过对比信用分配优化智能体系统 [R]

ToolGate：面向工具增强型视觉语言代理的令牌高效预调用控制

TacoMAS：基于大语言模型的多智能体系统中拓扑与能力的测试时共演化

提交意见反馈