TRIAGE:面向智能体强化学习的角色类型化信用分配
摘要
介绍了TRIAGE,一种角色类型化信用分配框架,通过提供比标准GRPO方法更细致的信用分配来改进智能体强化学习。该框架使用结构化评判器对动作片段进行分类,并根据语义角色分配过程奖励。
查看缓存全文
缓存时间: 2026/07/01 19:44
论文页面 - TRIAGE:面向智能体强化学习的角色型信用分配
来源:https://huggingface.co/papers/2606.32017
摘要
TRIAGE 提出了一种角色型信用分配框架,通过提供比标准 GRPO 方法更细致的信用分配,增强了智能体强化学习的性能。
智能体强化学习(https://huggingface.co/papers?q=Agentic%20reinforcement%20learning)需要对面向环境的动作进行信用分配,例如搜索、点击、编辑、导航命令和对象交互。标准 GRPO(https://huggingface.co/papers?q=GRPO)使用最终验证器结果(https://huggingface.co/papers?q=verifier%20outcome)作为所有动作 token 的均匀优势。这种结果信号虽然有用,但在结构上存在不足:它会惩罚失败轨迹中有用的探索行为,并在成功轨迹中强化冗余或倒退动作。我们提出 TRIAGE,这是一种角色型信用分配(https://huggingface.co/papers?q=credit%20assignment)框架,在结果信用基础上增加了语义角色轴(https://huggingface.co/papers?q=semantic%20role%20axis)。结构化评判器(https://huggingface.co/papers?q=structured%20judge)将每个片段分类为决定性进展、有用探索、无进展基础设施或倒退,并通过固定的角色条件规则(https://huggingface.co/papers?q=role-conditioned%20rule)将这些标签映射为有界的片段级过程奖励。这既保留了验证器结果(https://huggingface.co/papers?q=verifier%20outcome)作为优化方向的来源,又纠正了仅依赖结果信用时的两个主要盲点。我们进一步证明,角色条件信用是仅从角色标签中可表达的最优片段级校正——即对每个片段优势残差在角色变量上的投影——因此,当评判器可靠时,固定的角色常数能降低优势估计(https://huggingface.co/papers?q=advantage%20estimation)误差,并且我们将这与低方差策略梯度(https://huggingface.co/papers?q=policy%20gradients)联系起来。在 ALFWorld(https://huggingface.co/papers?q=ALFWorld)、Search-QA(https://huggingface.co/papers?q=Search-QA)和 WebShop(https://huggingface.co/papers?q=WebShop)上,TRIAGE 在两种策略模型上均提升了成功率,优于 GRPO(https://huggingface.co/papers?q=GRPO),并超越了标量评判器派生的过程奖励以及结果监督的共享骨干价值基线。消融实验表明,收益来自角色分类而非仅仅增加密集奖励:在成功轨迹中可靠检测倒退是主要贡献因素,而探索信用则提供持续次要增益;在已完成的 ALFWorld(https://huggingface.co/papers?q=ALFWorld)和 WebShop(https://huggingface.co/papers?q=WebShop)轨迹上,TRIAGE 还使面向环境的回合数分别相对于 GRPO(https://huggingface.co/papers?q=GRPO)额外减少了 10.4% 和 14.8%。
查看 arXiv 页面(https://arxiv.org/abs/2606.32017)查看 PDF(https://arxiv.org/pdf/2606.32017)添加到收藏(https://huggingface.co/login?next=%2Fpapers%2F2606.32017)
在您的智能体中获取此论文:
hf papers read 2606.32017
没有最新的 CLI?curl -LsSf https://hf.co/cli/install.sh | bash
引用此论文的模型0
没有模型链接此论文
在模型的 README.md 中引用 arxiv.org/abs/2606.32017 以从此页面链接。
引用此论文的数据集0
没有数据集链接此论文
在数据集的 README.md 中引用 arxiv.org/abs/2606.32017 以从此页面链接。
引用此论文的 Space0
没有 Space 链接此论文
在 Space 的 README.md 中引用 arxiv.org/abs/2606.32017 以从此页面链接。
包含此论文的集合0
没有集合包含此论文
将此论文添加到集合(https://huggingface.co/new-collection)中以从此页面链接。
相似文章
TRACE:一种用于高效智能体强化学习的统一展开预算分配框架
TRACE是一个统一的展开预算分配框架,通过基于前缀信息性在树状展开中动态分配资源,增强多轮智能体强化学习中的奖励对比。它在Multi-Hop QA等智能体基准测试上提升了效率和准确性。
StraTA:通过策略轨迹抽象激励智能体强化学习
StraTA 提出了面向长期任务 LLM 智能体的策略轨迹抽象方法,通过分层 GRPO 风格的 rollout、多样化策略采样和批判性自判断机制,在样本效率和最终性能上超越了前沿模型和先前 RL 基线。
用于离散策略优化的引导对比Token信用分配
本文提出引导对比策略优化(GCPO),这是一种新颖的算法,通过对比正负提示下的模型预测,在强化学习中实现每个Token的信用分配,在文本到图像生成和思维链推理基准测试中持续优于GRPO和DAPO基线。
通过反事实推理路径减少信用分配方差
提出隐式行为策略优化(IBPO),一种基于反事实比较的信用分配框架,通过将稀疏的终端奖励转化为对步骤敏感的学习信号,提升了大型语言模型在多步推理任务中的训练稳定性和性能。
GAGPO:广义优势分组策略优化
GAGPO提出了一种无评论家的强化学习方法,在多方交互的自主任务中,利用非参数分组价值代理进行步级信用分配,在ALFWorld和WebShop上超越了强基线模型。