GAGPO:广义优势分组策略优化

arXiv cs.AI 论文

摘要

GAGPO提出了一种无评论家的强化学习方法,在多方交互的自主任务中,利用非参数分组价值代理进行步级信用分配,在ALFWorld和WebShop上超越了强基线模型。

arXiv:2605.13217v1 公告类型:交叉 摘要:强化学习已成为训练后大型语言模型智能体的强大范式,但在多方交互环境中的信用分配仍然是一个挑战。智能体通常仅在回合结束时获得稀疏的轨迹级奖励,这使得难以确定哪些中间动作导致了成功或失败。因此,在没有依赖昂贵辅助价值模型的情况下,将延迟的结果传播回各个决策步骤仍然是一个开放性问题。我们提出了广义优势分组策略优化(GAGPO),一种无评论家的强化学习方法,用于精确的、按步骤对齐的时间信用分配。GAGPO从采样轨迹中构建一个非参数分组价值代理,并用它计算TD/GAE风格的时间优势,递归地将结果监督向后传播。结合分组优势归一化和动作级重要性比率,GAGPO直接从多方交互轨迹中提取稳定的、局部化的优化信号。在ALFWorld和WebShop上的实验表明,GAGPO优于强强化学习基线。进一步的分析显示,GAGPO具有更快的早期学习速度、更高的交互效率和更平滑的优化动态,表明GAGPO为多方交互的自主强化学习提供了一个简单而有效的框架。
查看原文
查看缓存全文

缓存时间: 2026/06/15 09:13

# GAGPO:广义优势分组策略优化
来源:https://arxiv.org/html/2605.13217
朱思远¹,²,余超¹,杨荣鑫¹,²,刘宗凯¹,胡俊锦²,陈启文²,张怡波²
¹中山大学计算机科学与工程学院
²美团
[email protected], [email protected], [email protected]

###### 摘要
强化学习(RL)已成为大型语言模型(LLM)智能体后训练的一种强大范式。然而,在多轮交互环境中,信用分配仍然是一个挑战。智能体通常仅在回合结束时获得稀疏的、轨迹级别的奖励,这使得难以识别哪些特定的中间动作导致了成功或失败。因此,如何在不依赖昂贵辅助价值模型的情况下,有效地将延迟的结果反向传播到各个步骤,仍然是一个悬而未决的问题。本文提出广义优势分组策略优化(GAGPO),一种无需评论家的强化学习方法,能够实现精确的、与步骤对齐的时间信用分配。GAGPO从采样轨迹中构建一个非参数化的分组价值代理,用于计算TD/GAE风格的时间优势,并通过时间递归反向传播结果监督。结合分组优势归一化和动作级别的重要性比率,GAGPO直接从多轮轨迹中提取稳定且局部化的优化信号。在ALFWorld和WebShop上的实验表明,GAGPO优于强大的强化学习基线。进一步的分析揭示了更快的早期学习速度、更高的交互效率和更平滑的优化动态,为多轮智能体强化学习提供了一个简单而高效的框架。

GAGPO:广义优势分组策略优化
朱思远¹,²,余超¹††通讯作者,杨荣鑫¹,²,刘宗凯¹,胡俊锦²,陈启文²,张怡波²
¹中山大学计算机科学与工程学院
²美团
[email protected], [email protected], [email protected]

## 1 引言

大型语言模型(LLM)正从单轮助手逐渐演变为能够感知环境、基于观察进行推理并通过多轮交互执行动作的智能体(GPT-5 Team, 2025 (https://arxiv.org/html/2605.13217#bib.bib2); Gemini 2.5 Team, 2025 (https://arxiv.org/html/2605.13217#bib.bib3); Qwen3 Team, 2025 (https://arxiv.org/html/2605.13217#bib.bib4))。强化学习(RL)(Ouyang et al., 2022 (https://arxiv.org/html/2605.13217#bib.bib1))已成为这种转变的自然后训练范式。从PPO(Schulman et al., 2017 (https://arxiv.org/html/2605.13217#bib.bib5))到无需评论家的分组策略优化方法,例如GRPO(Shao et al., 2024 (https://arxiv.org/html/2605.13217#bib.bib6))及其变体(Ahmadian et al., 2024 (https://arxiv.org/html/2605.13217#bib.bib7); Yu et al., 2025 (https://arxiv.org/html/2605.13217#bib.bib8); Zheng et al., 2025 (https://arxiv.org/html/2605.13217#bib.bib10); Gao et al., 2025 (https://arxiv.org/html/2605.13217#bib.bib11)),在线策略优化在面向推理的后训练中表现出色。最近,这些方法已扩展到多轮智能体场景,使LLM能够通过搜索、工具使用和环境交互进行改进(Wang et al., 2025 (https://arxiv.org/html/2605.13217#bib.bib12); Jin et al., 2025 (https://arxiv.org/html/2605.13217#bib.bib13); Chen et al., 2025 (https://arxiv.org/html/2605.13217#bib.bib14))。尽管取得了这些进展,多轮环境中的智能体强化学习仍然具有挑战性:奖励稀疏且延迟,而策略优化通常在token级别进行,但任务成功由更高级别的智能体动作决定。因此,中间决策获得的监督是弱、有噪声且定位不佳的(Feng et al., 2025 (https://arxiv.org/html/2605.13217#bib.bib20); Li et al., 2026b (https://arxiv.org/html/2605.13217#bib.bib17))。现有方法仅部分解决了这种不匹配问题。一系列工作引入了辅助评论家、价值估计器或过程奖励模型,以获得更密集的步骤级反馈(Xi et al., 2025 (https://arxiv.org/html/2605.13217#bib.bib15); Liu et al., 2025 (https://arxiv.org/html/2605.13217#bib.bib16); Li et al., 2026b (https://arxiv.org/html/2605.13217#bib.bib17), a (https://arxiv.org/html/2605.13217#bib.bib18); Wei et al., 2025 (https://arxiv.org/html/2605.13217#bib.bib19)),但代价是增加了训练复杂性和估计误差。无需评论家的替代方法则依赖轨迹相对或蒙特卡洛风格的分组优化(Feng et al., 2025 (https://arxiv.org/html/2605.13217#bib.bib20); He et al., 2026 (https://arxiv.org/html/2605.13217#bib.bib21)),这保持了架构的简洁性,但会产生高方差、弱传播的监督;或者采用树状结构轨迹,带有分支级比较和轮次级奖励传播(Ding and Ye, 2025 (https://arxiv.org/html/2605.13217#bib.bib29); Zong et al., 2026 (https://arxiv.org/html/2605.13217#bib.bib30); Dong et al., 2025 (https://arxiv.org/html/2605.13217#bib.bib31))。尽管有这些进展,智能体强化学习仍旧缺乏一种简单、无需评论家的方法,能够在标准的多轮轨迹下执行时间传播、步骤对齐的信用分配,而无需辅助评论家或专门的搜索过程。

图1:GAGPO概览。GAGPO包含三个阶段:(1) 轨迹分组,将采样轨迹中所有相同环境状态的出现进行分组;(2) 步骤级信用分配,构建分组非参数化价值代理并计算TD/GAE风格的步骤优势,无需学习评论家;(3) 分组归一化PPO更新,在每个轨迹分组内归一化步骤优势,并使用共享的序列级重要性比率执行动作级策略优化。

本文提出广义优势分组策略优化(GAGPO),一种用于多轮智能体训练的无评论家强化学习方法。GAGPO将每个环境步骤(而非每个token)视为信用分配的基本单元,并从轨迹分组中构建一个非参数化的分组价值代理,用于计算TD/GAE风格(Schulman et al., 2018 (https://arxiv.org/html/2605.13217#bib.bib22))的时间优势,无需学习评论家。与将共享的轨迹级奖励广播到每个步骤的方法不同,GAGPO通过时间递归传播结果监督,并应用分组优势归一化以保持稳定性。我们在ALFWorld(Shridhar et al., 2021 (https://arxiv.org/html/2605.13217#bib.bib25))和WebShop(Yao et al., 2023a (https://arxiv.org/html/2605.13217#bib.bib26))上使用Qwen2.5-1.5B-Instruct和Qwen2.5-7B-Instruct(Qwen2.5 Team, 2025 (https://arxiv.org/html/2605.13217#bib.bib32))评估GAGPO。在两个基准测试和两个模型规模上,GAGPO始终优于强提示基线和强化学习基线,包括PPO、RLOO、GRPO和GiGPO。进一步的分析显示了更快的早期学习速度、更高的交互效率、更平滑的优化动态以及更低方差的步骤级优势信号。这些结果表明,当信用在环境步骤级别分配并通过时间传播时,无评论家的分组强化学习可以更有效地扩展到交互式LLM智能体。

## 2 背景

### 2.1 相关工作

#### 用于大型语言模型的强化学习。
强化学习已成为LLM后训练的标准范式。经典的RLHF(Ouyang et al., 2022 (https://arxiv.org/html/2605.13217#bib.bib1))依赖于带有学习评论家的PPO(Schulman et al., 2017 (https://arxiv.org/html/2605.13217#bib.bib5)),这既昂贵又对价值估计敏感;而基于偏好的方法如DPO(Rafailov et al., 2024 (https://arxiv.org/html/2605.13217#bib.bib23))绕过了在线强化学习,但不处理探索或多轮交互。最近的无评论家在线策略方法通过分组或REINFORCE风格更新来解决这些问题,包括RLOO(Ahmadian et al., 2024 (https://arxiv.org/html/2605.13217#bib.bib7))、GRPO(Shao et al., 2024 (https://arxiv.org/html/2605.13217#bib.bib6))、DAPO(Yu et al., 2025 (https://arxiv.org/html/2605.13217#bib.bib8))和GSPO(Zheng et al., 2025 (https://arxiv.org/html/2605.13217#bib.bib10))。然而,这些方法是为单轮生成或序列级推理设计的。GAGPO将无评论家的分组强化学习扩展到多轮智能体训练,并带有时间传播、步骤对齐的信用分配。

#### 智能体强化学习的信用分配。
现有智能体强化学习方法沿着两个方向解决信用分配问题。第一个方向引入辅助评论家或过程奖励模型以获得更密集的步骤级监督,例如AgentPRM(Xi et al., 2025 (https://arxiv.org/html/2605.13217#bib.bib15))、iStar(Liu et al., 2025 (https://arxiv.org/html/2605.13217#bib.bib16))、Turn-PPO(Li et al., 2026b (https://arxiv.org/html/2605.13217#bib.bib17))和SORL(Li et al., 2026a (https://arxiv.org/html/2605.13217#bib.bib18)),但需要额外的价值或奖励建模。第二个方向在无需评论家的分组优化中追求更细粒度的信用,包括GiGPO(Feng et al., 2025 (https://arxiv.org/html/2605.13217#bib.bib20))中的锚点状态分组,以及树状或轮次结构轨迹,例如Tree-GRPO(Ding and Ye, 2025 (https://arxiv.org/html/2605.13217#bib.bib29))、AT2PO(Zong et al., 2026 (https://arxiv.org/html/2605.13217#bib.bib30))和ARPO(Dong et al., 2025 (https://arxiv.org/html/2605.13217#bib.bib31))。相比之下,GAGPO保持无评论家且基于轨迹,但用自举的TD/GAE风格时间估计器替代蒙特卡洛或相对回报估计,从而无需额外评论家即可实现步骤对齐的信用传播。

### 2.2 预备知识

#### 问题设置。
我们考虑训练一个LLM智能体通过与外部环境的多轮交互来完成任务的问题。交互过程被建模为一个马尔可夫决策过程(MDP)M=(S,A,P,r,γ)\mathcal{M}=(\mathcal{S},\mathcal{A},P,r,\gamma),其中S\mathcal{S}表示状态空间,A\mathcal{A}表示动作空间,P(st+1∣st,at)P(s_{t+1}\mid s_t,a_t)表示转移动态,rr表示奖励函数,γ∈[0,1]\gamma\in[0,1]表示折扣因子。在每个步骤t=1,...,Tt=1,\dots,T,智能体接收环境状态st∈Ss_t\in\mathcal{S}并生成一个动作at∈A⊆Vna_t\in\mathcal{A}\subseteq\mathcal{V}^n,其中V\mathcal{V}是token词汇表,nn是最大动作长度。智能体策略由θ\theta参数化为πθ(at∣st)\pi_\theta(a_t\mid s_t)。执行ata_t后,环境返回下一个状态st+1∼P(⋅∣st,at)s_{t+1}\sim P(\cdot\mid s_t,a_t),其中st+1s_{t+1}对应于由更新后的交互上下文表示的环境响应,从而生成一条轨迹τ={(s1,a1),...,(sT,aT)}\tau=\{(s_1,a_1),\dots,(s_T,a_T)\}。在智能体强化学习中广泛研究的稀疏延迟奖励设置下,这个交互过程成为一个具有挑战性信用分配的序列决策问题。

#### 广义优势估计。
策略优化通常基于分配给采样动作的优势。一个标准估计器是广义优势估计(GAE)(Schulman et al., 2018 (https://arxiv.org/html/2605.13217#bib.bib22)),它定义了TD残差δt=rt+γV(st+1)−V(st)\delta_t=r_t+\gamma V(s_{t+1})-V(s_t)并计算 A^t=∑l=0T−t(γλ)lδt+l,\hat{A}_t=\sum_{l=0}^{T-t}(\gamma\lambda)^l\delta_{t+l},其中V(⋅)V(\cdot)是一个价值函数,λ∈[0,1]\lambda\in[0,1]控制偏差-方差权衡。通过时间递归地反向传播TD残差,GAE提供了一个具有时间结构的信用信号,但依赖于一个学习的价值函数,这在无评论家的分组策略优化中是不存在的。

表1:ALFWorld和WebShop上的性能。

| 类型 | 方法 | ALFWorld | | | | | WebShop | | |
|------|------|----------|----------|----------|----------|----------|----------|----------|----------|
| | | Pick | Look | Clean | Heat | Cool | Pick2 | All | Score | Succ. |
| 闭源模型 | Prompting GPT-4o | 75.3 | 60.8 | 31.2 | 56.7 | 21.6 | 49.8 | 48.0 | 31.8 | 23.7 |
| | Prompting Gemini-2.5-Pro | 92.8 | 63.3 | 62.1 | 69.0 | 26.6 | 58.7 | 60.3 | 42.5 | 35.9 |
| Qwen2.5-1.5B-Instruct | Prompting Qwen2.5 | 5.9 | 5.5 | 3.3 | 9.7 | 4.2 | 0.0 | 4.1 | 23.1 | 5.2 |
| | Prompting ReAct | 17.4 | 20.5 | 15.7 | 6.2 | 7.7 | 2.0 | 12.8 | 40.1 | 11.3 |
| | Prompting Reflexion | 35.3 | 22.2 | 21.7 | 13.6 | 19.4 | 3.7 | 21.8 | 55.8 | 21.9 |
| | RL Training PPO (with critic) | 64.8±3.5 | 40.5±6.9 | 57.1±4.9 | 60.6±6.6 | 46.4±4.0 | 47.4±1.9 | 54.4±3.1 | 73.8±3.0 | 51.5±2.9 |
| | RL Training RLOO | 88.3±3.0 | 52.8±8.6 | 71.0±5.9 | 62.8±8.7 | 66.4±5.5 | 56.9±4.7 | 69.7±2.5 | 73.9±5.6 | 52.1±6.7 |
| | RL Training GRPO | 73.1±3.4 | 66.7±10.1 | 80.2±8.2 | 69.6±12.2 | 58.7±4.5 | 67.6±11.0 | 70.3±3.6 | 80.5±2.0 | 66.4±4.4 |
| | RL Training GiGPO | 98.4±2.1 | 72.2±4.9 | 91.1±6.1 | 96.8±6.2 | 582.6±4.5 | 79.7±5.4 | 88.1±1.9 | 579.8±1.2 | 62.5±1.1 |
| | RL Training GAGPO (Ours) | 99.2±3.1 | 83.8±6.3 | 97.3±1.9 | 95.1±3.5 | 84.9±1.8 | 89.8±6.0 | 93.5±1.3 | 88.6±3.3 | 78.1±1.1 |
| Qwen2.5-7B-Instruct | Prompting Qwen2.5 | 33.4 | 21.6 | 19.3 | 6.9 | 2.8 | 3.2 | 14.8 | 26.4 | 7.8 |
| | Prompting ReAct | 48.5 | 35.4 | 34.3 | 13.2 | 18.2 | 17.6 | 31.2 | 46.2 | 19.5 |
| | Prompting Reflexion | 62.0 | 41.6 | 44.9 | 30.9 | 36.3 | 23.8 | 42.7 | 58.1 | 28.8 |
| | RL Training PPO (with critic) | 92.3±4.0 | 64.0±8.4 | 92.5±2.4 | 89.5±7.0 | 80.3±2.0 | 68.8±8.3 | 80.4±2.7 | 81.4±3.1 | 68.7±5.1 |
| | RL Training RLOO | 87.6±4.3 | 78.2±8.3 | 87.3±5.8 | 81.3±7.6 | 71.9±5.2 | 48.9±8.4 | 75.5±4.6 | 80.3±3.2 | 65.7±4.0 |
| | RL Training GRPO | 85.9±6.9 | 69.5±4.8 | 82.7±6.6 | 73.7±6.8 | 65.4±8.4 | 62.6±6.3 | 73.2±4.6 | 80.5±2.1 | 66.8±1.7 |
| | RL Training GiGPO | 96.2±3.9 | 90.9±9.1 | 95.5±5.1 | 80.9±8.7 | 72.1±8.6 | 90.4±5.1 | 88.8±4.5 | 86.3±2.7 | 73.3±1.9 |
| | RL Training GAGPO (Ours) | 97.8±1.6 | 97.8±3.1 | 95.8±5.9 | 97.6±3.3 | 92.1±3.0 | 92.6±5.4 | 95.6±0.9 | 90.3±1.2 | 77.5±3.0 |

图2:Qwen2.5-1.5B-Instruct和Qwen2.5-7B-Instruct在ALFWorld和WebShop上前120个训练步骤的学习动态。该图报告了ALFWorld成功率、WebShop成功率和WebShop任务分数。在两个骨干模型上,GAGPO在训练早期阶段改进速度快于GiGPO和GRPO,并在大部分训练过程中保持更强的整体性能。

## 3 方法

广义优势分组策略优化(GAGPO)是一种用于多轮智能体训练的无评论家强化学习算法(图1 (https://arxiv.org/html/2605.13217#S1.F1))。基于PPO风格的分组优化框架,GAGPO用时间传播的步骤级估计器替换直接的蒙特卡洛风格相对优势,并使用与动作边界对齐的共享序列级重要性比率,而不是单个token。关键思想是从分组轨迹中构建一个非参数化的价值代理,并计算环境步骤上的TD/GAE风格优势,无需额外评论家。这种设计提供了 (i) *步骤对齐*,与智能体的决策边界一致;(ii) *时间信用传播*,将延迟结果传播回去;以及 (iii) *无评论家自举*。形式上,对于给定的任务实例,轨迹分组T={τ(i)}i=1K\mathcal{T}=\{\tau^{(i)}\}_{i=1}^{K},其中τ(i)={(st(i),at(i),rt(i))}t=1Ti\tau^{(i)}=\{(s^{(i)}_t, a^{(i)}_t, r^{(i)}_t)\}_{t=1}^{T_i},每个动作at(i)=(yt,1(i),...,yt,mt(i)(i))a^{(i)}_t=(y^{(i)}_{t,1},\dots,y^{(i)}_{t,m^{(i)}_t})是一个token序列。

### 3.1 步骤对齐的分组时间信用分配

由于奖励稀疏且延迟,而策略更新在token级别进行,GAGPO将每个*环境步骤*视为信用分配的单位:同一个动作中的所有token

相似文章

APPO: 智能体过程策略优化

Hugging Face Daily Papers

APPO通过使用细粒度决策点和过程级优势缩放来改进分支决策和信用分配,从而提升LLM智能体的多轮工具使用能力,在13个基准测试中比基线高出近4个百分点。

用于离散策略优化的引导对比Token信用分配

Hugging Face Daily Papers

本文提出引导对比策略优化(GCPO),这是一种新颖的算法,通过对比正负提示下的模型预测,在强化学习中实现每个Token的信用分配,在文本到图像生成和思维链推理基准测试中持续优于GRPO和DAPO基线。