TRIAGE:面向智能体强化学习的角色类型化信用分配

Hugging Face Daily Papers 论文

摘要

介绍了TRIAGE,一种角色类型化信用分配框架,通过提供比标准GRPO方法更细致的信用分配来改进智能体强化学习。该框架使用结构化评判器对动作片段进行分类,并根据语义角色分配过程奖励。

智能体强化学习需要对环境交互行为(如搜索、点击、编辑、导航命令和对象操作)进行信用分配。标准GRPO方法将最终验证结果作为所有动作令牌的统一优势信号。这种结果信号虽然有用,但结构上不完整:它惩罚了失败轨迹中的有益探索,并在成功轨迹中强化了冗余或倒退行为。我们提出TRIAGE,一种角色类型化信用分配框架,在结果信用基础上新增语义角色维度。结构化评判器将每个片段分类为决定性进展、有益探索、无进展基础设施或倒退,并通过固定的角色条件规则将这些标签映射为有界的片段级过程奖励。这保持了验证结果作为优化方向来源,同时纠正了仅依赖结果信用的两个主要盲点。我们进一步证明,角色条件信用是仅从角色标签可表达的最优片段级修正——即片段级优势残差在角色变量上的投影——因此当评判器可靠时,固定角色常数能减少优势估计误差,并将其与低方差策略梯度相关联。在ALFWorld、Search-QA和WebShop上,TRIAGE在两个策略模型上的成功率均优于GRPO,并超过了标量评判器导出的过程奖励以及基于结果监督的共享骨干价值基线。消融实验表明,性能提升来自角色类型化而非仅仅增加密集奖励:成功轨迹内部倒退行为的可靠检测是主要贡献因素,而探索信用提供了持续的次要增益;在完成的ALFWorld和WebShop轨迹上,TRIAGE相较于GRPO还额外减少了10.4%和14.8%的环境交互轮次。
查看原文
查看缓存全文

缓存时间: 2026/07/01 19:44

论文页面 - TRIAGE:面向智能体强化学习的角色型信用分配

来源:https://huggingface.co/papers/2606.32017

摘要

TRIAGE 提出了一种角色型信用分配框架,通过提供比标准 GRPO 方法更细致的信用分配,增强了智能体强化学习的性能。

智能体强化学习(https://huggingface.co/papers?q=Agentic%20reinforcement%20learning)需要对面向环境的动作进行信用分配,例如搜索、点击、编辑、导航命令和对象交互。标准 GRPO(https://huggingface.co/papers?q=GRPO)使用最终验证器结果(https://huggingface.co/papers?q=verifier%20outcome)作为所有动作 token 的均匀优势。这种结果信号虽然有用,但在结构上存在不足:它会惩罚失败轨迹中有用的探索行为,并在成功轨迹中强化冗余或倒退动作。我们提出 TRIAGE,这是一种角色型信用分配(https://huggingface.co/papers?q=credit%20assignment)框架,在结果信用基础上增加了语义角色轴(https://huggingface.co/papers?q=semantic%20role%20axis)。结构化评判器(https://huggingface.co/papers?q=structured%20judge)将每个片段分类为决定性进展、有用探索、无进展基础设施或倒退,并通过固定的角色条件规则(https://huggingface.co/papers?q=role-conditioned%20rule)将这些标签映射为有界的片段级过程奖励。这既保留了验证器结果(https://huggingface.co/papers?q=verifier%20outcome)作为优化方向的来源,又纠正了仅依赖结果信用时的两个主要盲点。我们进一步证明,角色条件信用是仅从角色标签中可表达的最优片段级校正——即对每个片段优势残差在角色变量上的投影——因此,当评判器可靠时,固定的角色常数能降低优势估计(https://huggingface.co/papers?q=advantage%20estimation)误差,并且我们将这与低方差策略梯度(https://huggingface.co/papers?q=policy%20gradients)联系起来。在 ALFWorld(https://huggingface.co/papers?q=ALFWorld)、Search-QA(https://huggingface.co/papers?q=Search-QA)和 WebShop(https://huggingface.co/papers?q=WebShop)上,TRIAGE 在两种策略模型上均提升了成功率,优于 GRPO(https://huggingface.co/papers?q=GRPO),并超越了标量评判器派生的过程奖励以及结果监督的共享骨干价值基线。消融实验表明,收益来自角色分类而非仅仅增加密集奖励:在成功轨迹中可靠检测倒退是主要贡献因素,而探索信用则提供持续次要增益;在已完成的 ALFWorld(https://huggingface.co/papers?q=ALFWorld)和 WebShop(https://huggingface.co/papers?q=WebShop)轨迹上,TRIAGE 还使面向环境的回合数分别相对于 GRPO(https://huggingface.co/papers?q=GRPO)额外减少了 10.4% 和 14.8%。

查看 arXiv 页面(https://arxiv.org/abs/2606.32017)查看 PDF(https://arxiv.org/pdf/2606.32017)添加到收藏(https://huggingface.co/login?next=%2Fpapers%2F2606.32017)

在您的智能体中获取此论文:

hf papers read 2606.32017

没有最新的 CLI?curl -LsSf https://hf.co/cli/install.sh | bash

引用此论文的模型0

没有模型链接此论文

在模型的 README.md 中引用 arxiv.org/abs/2606.32017 以从此页面链接。

引用此论文的数据集0

没有数据集链接此论文

在数据集的 README.md 中引用 arxiv.org/abs/2606.32017 以从此页面链接。

引用此论文的 Space0

没有 Space 链接此论文

在 Space 的 README.md 中引用 arxiv.org/abs/2606.32017 以从此页面链接。

包含此论文的集合0

没有集合包含此论文

将此论文添加到集合(https://huggingface.co/new-collection)中以从此页面链接。

相似文章

StraTA:通过策略轨迹抽象激励智能体强化学习

Hugging Face Daily Papers

StraTA 提出了面向长期任务 LLM 智能体的策略轨迹抽象方法,通过分层 GRPO 风格的 rollout、多样化策略采样和批判性自判断机制,在样本效率和最终性能上超越了前沿模型和先前 RL 基线。

用于离散策略优化的引导对比Token信用分配

Hugging Face Daily Papers

本文提出引导对比策略优化(GCPO),这是一种新颖的算法,通过对比正负提示下的模型预测,在强化学习中实现每个Token的信用分配,在文本到图像生成和思维链推理基准测试中持续优于GRPO和DAPO基线。

通过反事实推理路径减少信用分配方差

arXiv cs.LG

提出隐式行为策略优化(IBPO),一种基于反事实比较的信用分配框架,通过将稀疏的终端奖励转化为对步骤敏感的学习信号,提升了大型语言模型在多步推理任务中的训练稳定性和性能。

GAGPO:广义优势分组策略优化

arXiv cs.AI

GAGPO提出了一种无评论家的强化学习方法,在多方交互的自主任务中,利用非参数分组价值代理进行步级信用分配,在ALFWorld和WebShop上超越了强基线模型。