TRACE：一种用于高效智能体强化学习的统一展开预算分配框架

Hugging Face Daily Papers 2026/06/09 17:16 论文

摘要

TRACE是一个统一的展开预算分配框架，通过基于前缀信息性在树状展开中动态分配资源，增强多轮智能体强化学习中的奖励对比。它在Multi-Hop QA等智能体基准测试上提升了效率和准确性。

带可验证奖励的强化学习（RLVR）是增强大型语言模型推理和智能体行为的一种有前景的方法。然而，展开密集的策略优化常受限于奖励对比不足——当过于简单或复杂的提示产生低方差反馈时，以及当结果奖励仅为多轮展开中的每个决策赋予相同的最终评估时，就会出现这一问题。以往的工作侧重于将可用展开资源分配给有前景的提示，但仅利用了提示层面的样本信息性，忽略了同一展开中不同轮次之间的前缀信息性差异。本文针对多轮智能体强化学习，将每个ReAct风格的思考-行动-观察轮次建模为语义上不同的节点，使得预算分配能够从提示根扩展到轮次级别的前缀（这些前缀还可进一步延续），从而自然形成树状展开。我们提出了面向对比探索的树展开分配（TRACE），这是一个统一的展开分配框架，能在固定采样预算内增强奖励对比。在技术上，TRACE将展开预算分配给那些最可能产生混合终端奖励的提示根和中间前缀。一个共享的通用预测器根据这些锚点的前缀历史估计条件成功概率，以指导这种分配。由此产生的自适应树结构丰富了结果反馈并放大了策略更新信号。实验结果表明，TRACE在典型智能体基准测试上取得了有竞争力的性能和效率提升，例如，在相同采样成本下，将Qwen3-14B在Multi-Hop QA上的平均准确率比竞争基线提升了2.8个百分点。

查看原文

查看缓存全文

缓存时间: 2026/06/11 13:37

论文页面 - TRACE：面向高效智能体强化学习的统一展开预算分配框架

来源：https://huggingface.co/papers/2606.11119 作者：

，

摘要

TRACE 是一套展开分配框架，通过基于前缀层级的信息量动态分配资源至树状展开中，从而提升多轮智能体强化学习的奖励对比度。

带可验证奖励的强化学习（RLVR）是增强大语言模型推理与智能体行为的一种有前景的方法。然而，展开密集型策略优化常因奖励对比度不足而受限——当过于简单或复杂的提示产生低方差反馈，以及当仅基于结果的奖励将相同的终端评估赋予多轮展开中的每一个决策时，问题尤为突出。过往研究致力于将有限的展开资源分配给有前景的提示，但它们仅利用提示层级的样本信息量，而忽略了同一展开内各轮次之间前缀层级信息量的差异。本工作针对多轮智能体强化学习，将每个 ReAct 风格的思考-行动-观察轮次建模为语义上不同的节点，使预算分配能够从提示根节点扩展到带有后续延展的轮次级前缀，从而自然形成树状展开。我们提出了用于对比性探索的树状展开分配（TRACE），这是一个统一的展开分配框架，旨在固定采样预算内增强奖励对比度。技术上，TRACE 将展开预算分配给最可能产生混合终端奖励的提示根节点和中间前缀。一个共享的可泛化预测器根据前缀历史估算这些锚点处的条件成功概率，从而指导分配。由此产生的自适应树结构丰富了基于结果的反馈并放大了策略更新信号。实验表明，TRACE 在典型智能体基准上取得了有竞争力的性能与效率提升，例如，在同等采样代价下，使 Qwen3-14B 的多跳问答平均准确率相比竞争基线提升 2.8 个百分点。

查看 arXiv 页面（https://arxiv.org/abs/2606.11119）查看 PDF（https://arxiv.org/pdf/2606.11119）添加到收藏（https://huggingface.co/login?next=%2Fpapers%2F2606.11119）

在你的智能体中获取这篇论文：

hf papers read 2606.11119

没有最新的 CLI？curl -LsSf https://hf.co/cli/install.sh | bash

引用此论文的模型0

没有模型链接此论文

请在模型 README.md 中引用 arxiv.org/abs/2606.11119 以从此页面链接。

引用此论文的数据集0

没有数据集链接此论文

请在数据集 README.md 中引用 arxiv.org/abs/2606.11119 以从此页面链接。

引用此论文的 Spaces0

没有 Space 链接此论文

请在 Space README.md 中引用 arxiv.org/abs/2606.11119 以从此页面链接。

包含此论文的收藏集0

没有收藏集包含此论文

添加此论文至一个收藏集（https://huggingface.co/new-collection）以从此页面链接。

TRACE：一种用于高效智能体强化学习的统一展开预算分配框架

论文页面 - TRACE：面向高效智能体强化学习的统一展开预算分配框架

摘要

引用此论文的模型0

引用此论文的数据集0

引用此论文的 Spaces0

包含此论文的收藏集0

相似文章

StraTA：通过策略轨迹抽象激励智能体强化学习

DRIFT: 解耦轨迹展开与重要性加权微调以实现高效多轮优化

面向强化学习后训练的跨轮次自适应展开优化

读取轨迹，引导路径：面向扩散语言模型的轨迹感知强化学习

TRACE：面向LLM智能体的自适应跨步证据聚合轨迹推理

提交意见反馈