TRACE:一种用于高效智能体强化学习的统一展开预算分配框架
摘要
TRACE是一个统一的展开预算分配框架,通过基于前缀信息性在树状展开中动态分配资源,增强多轮智能体强化学习中的奖励对比。它在Multi-Hop QA等智能体基准测试上提升了效率和准确性。
查看缓存全文
缓存时间: 2026/06/11 13:37
论文页面 - TRACE:面向高效智能体强化学习的统一展开预算分配框架
来源:https://huggingface.co/papers/2606.11119 作者:
,
,
,
,
,
,
,
,
,
,
摘要
TRACE 是一套展开分配框架,通过基于前缀层级的信息量动态分配资源至树状展开中,从而提升多轮智能体强化学习的奖励对比度。
带可验证奖励的强化学习(RLVR)是增强大语言模型推理与智能体行为的一种有前景的方法。然而,展开密集型策略优化常因奖励对比度不足而受限——当过于简单或复杂的提示产生低方差反馈,以及当仅基于结果的奖励将相同的终端评估赋予多轮展开中的每一个决策时,问题尤为突出。过往研究致力于将有限的展开资源分配给有前景的提示,但它们仅利用提示层级的样本信息量,而忽略了同一展开内各轮次之间前缀层级信息量的差异。本工作针对多轮智能体强化学习,将每个 ReAct 风格的思考-行动-观察轮次建模为语义上不同的节点,使预算分配能够从提示根节点扩展到带有后续延展的轮次级前缀,从而自然形成树状展开。我们提出了用于对比性探索的树状展开分配(TRACE),这是一个统一的展开分配框架,旨在固定采样预算内增强奖励对比度。技术上,TRACE 将展开预算分配给最可能产生混合终端奖励的提示根节点和中间前缀。一个共享的可泛化预测器根据前缀历史估算这些锚点处的条件成功概率,从而指导分配。由此产生的自适应树结构丰富了基于结果的反馈并放大了策略更新信号。实验表明,TRACE 在典型智能体基准上取得了有竞争力的性能与效率提升,例如,在同等采样代价下,使 Qwen3-14B 的多跳问答平均准确率相比竞争基线提升 2.8 个百分点。
查看 arXiv 页面(https://arxiv.org/abs/2606.11119)查看 PDF(https://arxiv.org/pdf/2606.11119)添加到收藏(https://huggingface.co/login?next=%2Fpapers%2F2606.11119)
在你的智能体中获取这篇论文:
hf papers read 2606.11119
没有最新的 CLI?curl -LsSf https://hf.co/cli/install.sh | bash
引用此论文的模型0
没有模型链接此论文
请在模型 README.md 中引用 arxiv.org/abs/2606.11119 以从此页面链接。
引用此论文的数据集0
没有数据集链接此论文
请在数据集 README.md 中引用 arxiv.org/abs/2606.11119 以从此页面链接。
引用此论文的 Spaces0
没有 Space 链接此论文
请在 Space README.md 中引用 arxiv.org/abs/2606.11119 以从此页面链接。
包含此论文的收藏集0
没有收藏集包含此论文
添加此论文至一个收藏集(https://huggingface.co/new-collection)以从此页面链接。
相似文章
StraTA:通过策略轨迹抽象激励智能体强化学习
StraTA 提出了面向长期任务 LLM 智能体的策略轨迹抽象方法,通过分层 GRPO 风格的 rollout、多样化策略采样和批判性自判断机制,在样本效率和最终性能上超越了前沿模型和先前 RL 基线。
DRIFT: 解耦轨迹展开与重要性加权微调以实现高效多轮优化
本文提出DRIFT框架,该框架结合离线轨迹与重要性加权监督微调,高效实现与强化学习相当的多轮交互学习性能。
面向强化学习后训练的跨轮次自适应展开优化
本文提出了CERO,一种用于LLM强化学习后训练的跨轮次自适应展开优化方法。该方法利用贝叶斯后验方差,在提示和轮次之间分配固定的展开预算,以最大化样本效率,实现了理论遗憾界,并在数学推理任务上优于GRPO。
读取轨迹,引导路径:面向扩散语言模型的轨迹感知强化学习
本文介绍了 CAPR(缓存摊销路径精化),一种用于扩散大语言模型的强化学习算法。该算法无需完整树展开的计算开销,即可从去噪轨迹中提取类树状监督信号。CAPR 在 GSM8K、Math500、数独和倒计时等推理基准测试上达到了最先进的性能,计算成本仅为平坦展开方式的约 0.75 倍。
TRACE:面向LLM智能体的自适应跨步证据聚合轨迹推理
TRACE是一个用于长周期LLM智能体轨迹的监控框架,它通过分诊-检查-判断(Triage-Inspect-Judge)循环来连接时间上相隔较远的动作证据,在规避性破坏检测任务上实现了高召回率和F1值。