TRIAGE：面向智能体强化学习的角色类型化信用分配

Hugging Face Daily Papers 2026/06/30 00:00 论文

reinforcement-learning credit-assignment agentic-rl grpo process-reward role-typed

摘要

介绍了TRIAGE，一种角色类型化信用分配框架，通过提供比标准GRPO方法更细致的信用分配来改进智能体强化学习。该框架使用结构化评判器对动作片段进行分类，并根据语义角色分配过程奖励。

智能体强化学习需要对环境交互行为（如搜索、点击、编辑、导航命令和对象操作）进行信用分配。标准GRPO方法将最终验证结果作为所有动作令牌的统一优势信号。这种结果信号虽然有用，但结构上不完整：它惩罚了失败轨迹中的有益探索，并在成功轨迹中强化了冗余或倒退行为。我们提出TRIAGE，一种角色类型化信用分配框架，在结果信用基础上新增语义角色维度。结构化评判器将每个片段分类为决定性进展、有益探索、无进展基础设施或倒退，并通过固定的角色条件规则将这些标签映射为有界的片段级过程奖励。这保持了验证结果作为优化方向来源，同时纠正了仅依赖结果信用的两个主要盲点。我们进一步证明，角色条件信用是仅从角色标签可表达的最优片段级修正——即片段级优势残差在角色变量上的投影——因此当评判器可靠时，固定角色常数能减少优势估计误差，并将其与低方差策略梯度相关联。在ALFWorld、Search-QA和WebShop上，TRIAGE在两个策略模型上的成功率均优于GRPO，并超过了标量评判器导出的过程奖励以及基于结果监督的共享骨干价值基线。消融实验表明，性能提升来自角色类型化而非仅仅增加密集奖励：成功轨迹内部倒退行为的可靠检测是主要贡献因素，而探索信用提供了持续的次要增益；在完成的ALFWorld和WebShop轨迹上，TRIAGE相较于GRPO还额外减少了10.4%和14.8%的环境交互轮次。

查看原文

查看缓存全文

缓存时间: 2026/07/01 19:44

论文页面 - TRIAGE：面向智能体强化学习的角色型信用分配

来源：https://huggingface.co/papers/2606.32017

摘要

TRIAGE 提出了一种角色型信用分配框架，通过提供比标准 GRPO 方法更细致的信用分配，增强了智能体强化学习的性能。

智能体强化学习（https://huggingface.co/papers?q=Agentic%20reinforcement%20learning）需要对面向环境的动作进行信用分配，例如搜索、点击、编辑、导航命令和对象交互。标准 GRPO（https://huggingface.co/papers?q=GRPO）使用最终验证器结果（https://huggingface.co/papers?q=verifier%20outcome）作为所有动作 token 的均匀优势。这种结果信号虽然有用，但在结构上存在不足：它会惩罚失败轨迹中有用的探索行为，并在成功轨迹中强化冗余或倒退动作。我们提出 TRIAGE，这是一种角色型信用分配（https://huggingface.co/papers?q=credit%20assignment）框架，在结果信用基础上增加了语义角色轴（https://huggingface.co/papers?q=semantic%20role%20axis）。结构化评判器（https://huggingface.co/papers?q=structured%20judge）将每个片段分类为决定性进展、有用探索、无进展基础设施或倒退，并通过固定的角色条件规则（https://huggingface.co/papers?q=role-conditioned%20rule）将这些标签映射为有界的片段级过程奖励。这既保留了验证器结果（https://huggingface.co/papers?q=verifier%20outcome）作为优化方向的来源，又纠正了仅依赖结果信用时的两个主要盲点。我们进一步证明，角色条件信用是仅从角色标签中可表达的最优片段级校正——即对每个片段优势残差在角色变量上的投影——因此，当评判器可靠时，固定的角色常数能降低优势估计（https://huggingface.co/papers?q=advantage%20estimation）误差，并且我们将这与低方差策略梯度（https://huggingface.co/papers?q=policy%20gradients）联系起来。在 ALFWorld（https://huggingface.co/papers?q=ALFWorld）、Search-QA（https://huggingface.co/papers?q=Search-QA）和 WebShop（https://huggingface.co/papers?q=WebShop）上，TRIAGE 在两种策略模型上均提升了成功率，优于 GRPO（https://huggingface.co/papers?q=GRPO），并超越了标量评判器派生的过程奖励以及结果监督的共享骨干价值基线。消融实验表明，收益来自角色分类而非仅仅增加密集奖励：在成功轨迹中可靠检测倒退是主要贡献因素，而探索信用则提供持续次要增益；在已完成的 ALFWorld（https://huggingface.co/papers?q=ALFWorld）和 WebShop（https://huggingface.co/papers?q=WebShop）轨迹上，TRIAGE 还使面向环境的回合数分别相对于 GRPO（https://huggingface.co/papers?q=GRPO）额外减少了 10.4% 和 14.8%。

查看 arXiv 页面（https://arxiv.org/abs/2606.32017）查看 PDF（https://arxiv.org/pdf/2606.32017）添加到收藏（https://huggingface.co/login?next=%2Fpapers%2F2606.32017）

在您的智能体中获取此论文：

hf papers read 2606.32017

没有最新的 CLI？curl -LsSf https://hf.co/cli/install.sh | bash

引用此论文的模型0

没有模型链接此论文

在模型的 README.md 中引用 arxiv.org/abs/2606.32017 以从此页面链接。

引用此论文的数据集0

没有数据集链接此论文

在数据集的 README.md 中引用 arxiv.org/abs/2606.32017 以从此页面链接。

引用此论文的 Space0

没有 Space 链接此论文

在 Space 的 README.md 中引用 arxiv.org/abs/2606.32017 以从此页面链接。

包含此论文的集合0

没有集合包含此论文

将此论文添加到集合（https://huggingface.co/new-collection）中以从此页面链接。

TRIAGE：面向智能体强化学习的角色类型化信用分配

论文页面 - TRIAGE：面向智能体强化学习的角色型信用分配

摘要

引用此论文的模型0

引用此论文的数据集0

引用此论文的 Space0

包含此论文的集合0

相似文章

TRACE：一种用于高效智能体强化学习的统一展开预算分配框架

StraTA：通过策略轨迹抽象激励智能体强化学习

用于离散策略优化的引导对比Token信用分配

通过反事实推理路径减少信用分配方差

GAGPO：广义优势分组策略优化

提交意见反馈