TRACE:一种用于高效智能体强化学习的统一展开预算分配框架

Hugging Face Daily Papers 论文

摘要

TRACE是一个统一的展开预算分配框架,通过基于前缀信息性在树状展开中动态分配资源,增强多轮智能体强化学习中的奖励对比。它在Multi-Hop QA等智能体基准测试上提升了效率和准确性。

带可验证奖励的强化学习(RLVR)是增强大型语言模型推理和智能体行为的一种有前景的方法。然而,展开密集的策略优化常受限于奖励对比不足——当过于简单或复杂的提示产生低方差反馈时,以及当结果奖励仅为多轮展开中的每个决策赋予相同的最终评估时,就会出现这一问题。以往的工作侧重于将可用展开资源分配给有前景的提示,但仅利用了提示层面的样本信息性,忽略了同一展开中不同轮次之间的前缀信息性差异。本文针对多轮智能体强化学习,将每个ReAct风格的思考-行动-观察轮次建模为语义上不同的节点,使得预算分配能够从提示根扩展到轮次级别的前缀(这些前缀还可进一步延续),从而自然形成树状展开。我们提出了面向对比探索的树展开分配(TRACE),这是一个统一的展开分配框架,能在固定采样预算内增强奖励对比。在技术上,TRACE将展开预算分配给那些最可能产生混合终端奖励的提示根和中间前缀。一个共享的通用预测器根据这些锚点的前缀历史估计条件成功概率,以指导这种分配。由此产生的自适应树结构丰富了结果反馈并放大了策略更新信号。实验结果表明,TRACE在典型智能体基准测试上取得了有竞争力的性能和效率提升,例如,在相同采样成本下,将Qwen3-14B在Multi-Hop QA上的平均准确率比竞争基线提升了2.8个百分点。
查看原文
查看缓存全文

缓存时间: 2026/06/11 13:37

论文页面 - TRACE:面向高效智能体强化学习的统一展开预算分配框架

来源:https://huggingface.co/papers/2606.11119 作者:

摘要

TRACE 是一套展开分配框架,通过基于前缀层级的信息量动态分配资源至树状展开中,从而提升多轮智能体强化学习的奖励对比度。

带可验证奖励的强化学习(RLVR)是增强大语言模型推理与智能体行为的一种有前景的方法。然而,展开密集型策略优化常因奖励对比度不足而受限——当过于简单或复杂的提示产生低方差反馈,以及当仅基于结果的奖励将相同的终端评估赋予多轮展开中的每一个决策时,问题尤为突出。过往研究致力于将有限的展开资源分配给有前景的提示,但它们仅利用提示层级的样本信息量,而忽略了同一展开内各轮次之间前缀层级信息量的差异。本工作针对多轮智能体强化学习,将每个 ReAct 风格的思考-行动-观察轮次建模为语义上不同的节点,使预算分配能够从提示根节点扩展到带有后续延展的轮次级前缀,从而自然形成树状展开。我们提出了用于对比性探索的树状展开分配(TRACE),这是一个统一的展开分配框架,旨在固定采样预算内增强奖励对比度。技术上,TRACE 将展开预算分配给最可能产生混合终端奖励的提示根节点和中间前缀。一个共享的可泛化预测器根据前缀历史估算这些锚点处的条件成功概率,从而指导分配。由此产生的自适应树结构丰富了基于结果的反馈并放大了策略更新信号。实验表明,TRACE 在典型智能体基准上取得了有竞争力的性能与效率提升,例如,在同等采样代价下,使 Qwen3-14B 的多跳问答平均准确率相比竞争基线提升 2.8 个百分点。

查看 arXiv 页面(https://arxiv.org/abs/2606.11119)查看 PDF(https://arxiv.org/pdf/2606.11119)添加到收藏(https://huggingface.co/login?next=%2Fpapers%2F2606.11119)

在你的智能体中获取这篇论文:

hf papers read 2606.11119

没有最新的 CLI?curl -LsSf https://hf.co/cli/install.sh | bash

引用此论文的模型0

没有模型链接此论文

请在模型 README.md 中引用 arxiv.org/abs/2606.11119 以从此页面链接。

引用此论文的数据集0

没有数据集链接此论文

请在数据集 README.md 中引用 arxiv.org/abs/2606.11119 以从此页面链接。

引用此论文的 Spaces0

没有 Space 链接此论文

请在 Space README.md 中引用 arxiv.org/abs/2606.11119 以从此页面链接。

包含此论文的收藏集0

没有收藏集包含此论文

添加此论文至一个收藏集(https://huggingface.co/new-collection)以从此页面链接。

相似文章

StraTA:通过策略轨迹抽象激励智能体强化学习

Hugging Face Daily Papers

StraTA 提出了面向长期任务 LLM 智能体的策略轨迹抽象方法,通过分层 GRPO 风格的 rollout、多样化策略采样和批判性自判断机制,在样本效率和最终性能上超越了前沿模型和先前 RL 基线。

面向强化学习后训练的跨轮次自适应展开优化

arXiv cs.LG

本文提出了CERO,一种用于LLM强化学习后训练的跨轮次自适应展开优化方法。该方法利用贝叶斯后验方差,在提示和轮次之间分配固定的展开预算,以最大化样本效率,实现了理论遗憾界,并在数学推理任务上优于GRPO。

读取轨迹,引导路径:面向扩散语言模型的轨迹感知强化学习

arXiv cs.CL

本文介绍了 CAPR(缓存摊销路径精化),一种用于扩散大语言模型的强化学习算法。该算法无需完整树展开的计算开销,即可从去噪轨迹中提取类树状监督信号。CAPR 在 GSM8K、Math500、数独和倒计时等推理基准测试上达到了最先进的性能,计算成本仅为平坦展开方式的约 0.75 倍。