GROW: 将GRPO与状态-动作建模对齐用于开放世界VLM智能体

arXiv cs.LG 论文

摘要

GROW提出了一种新颖的强化学习框架,通过将轨迹分解为状态-动作对并计算它们之间的优势,将GRPO适配到多轮VLM智能体任务中,在超过800个Minecraft任务上实现了最先进的性能。

arXiv:2605.20246v1 公告类型: new 摘要: 近期,视觉语言模型(VLM)智能体在开放世界任务中展现了令人瞩目的进展,成功完成这些任务通常需要多轮视觉感知和动作执行。然而,现有方法仍主要依赖基于专家示范的监督微调(SFT),而先进的强化学习(RL)算法——特别是群体相对策略优化(GRPO)——尚未有效应用于这些任务中的多轮RL,因为标准GRPO需要完整轨迹作为训练样本,这会导致上下文过长和噪声增加。为解决这一问题,我们提出了GROW,一种面向开放世界VLM智能体的RL框架,它将收集到的轨迹分解为状态-动作样本,并计算这些样本之间的优势,而不是将整个轨迹视为单一实体。我们还提供了一项替代分析,表明即使分组样本以不同的局部状态而非相同的提示上下文为条件,目标函数在简化假设下仍能保留GRPO的核心相对策略优化信号。在超过800个Minecraft任务上的实验表明,我们的方法实现了最先进的(SOTA)性能,验证了我们提出的面向开放世界VLM智能体的RL框架的有效性。
查看原文
查看缓存全文

缓存时间: 2026/05/21 06:20

# GROW:将GRPO与状态-动作建模对齐以用于开放世界VLM智能体
来源:https://arxiv.org/html/2605.20246
吴雄斌1,2罗志浩2,3雷善哲2张乐超2,3王旭红2杨杰1郑忠龙4袁正杰5檀鑫2,3刘威1

1上海交通大学2上海人工智能实验室3华东师范大学4浙江师范大学5山东师范大学

###### 摘要

近期,视觉语言模型(VLM)智能体在开放世界任务中展现出令人瞩目的进展,此类任务的成功完成通常需要多轮视觉感知和动作执行。然而,现有方法仍主要依赖基于专家演示的监督微调(SFT),而先进的强化学习(RL)算法,特别是组相对策略优化(GRPO),尚未在自主智能体的多轮RL中得到有效应用,这是因为标准GRPO需要完整的轨迹作为训练样本,导致上下文过长且噪声过多。为解决这一问题,我们提出GROW,一种针对开放世界VLM智能体的RL框架,它将收集到的轨迹分解为状态-动作样本,并在这些样本之间计算优势值,而非将整条轨迹视为单个实体。我们进一步提供了一个替代分析,表明即使分组样本基于不同的局部状态而非相同的提示上下文,该目标在简化假设下仍能保留GRPO的核心相对策略优化信号。在超过800个Minecraft任务上的实验显示,我们的方法取得了最先进的(SOTA)性能,证明了我们针对开放世界VLM智能体提出的RL框架的有效性。

## 1 引言

VLM智能体在开放世界环境中已变得日益强大[20,15,9,29]。在这些领域中,智能体必须重复解读视觉状态、选择动作,并通过与环境的多轮交互来调整行为。近期大多数工作通过基于专家演示的SFT来提升此类智能体[16,23],使其能够从精心策划的演示中模仿与任务相关的感知-动作行为。然而,SFT依赖于大量高质量的专家数据,其收集成本高昂且难以规模化。此外,先前研究[19,25,27]表明,仅凭SFT在性能上可能落后于经过RL训练的VLM智能体。这些局限性促使我们需要能有效通过交互训练开放世界VLM智能体的先进RL方法。

近期关于VLM的研究[13,8,7,27,25,19]使用GRPO[17]作为其RL算法,展现了GRPO在通过组间相对优化改进基础模型策略方面的有效性。通过比较同一组内多个采样输出,GRPO无需训练额外的价值模型即可构建相对优势,这使得它特别适用于大规模VLM优化,其中价值估计可能代价高昂且不稳定。这些优势使GRPO成为通过环境交互优化VLM智能体的自然算法基础。然而,将GRPO直接迁移到开放世界任务并非易事。标准GRPO在基于相同提示的条件下的轨迹之间计算优势,并优化这些完整轨迹。如图1所示,当在开放世界任务中使用完整轨迹来预测动作时,可能会引入过长的上下文,并在上下文中包含过多噪声。

图1:轨迹中的上下文长度随VLM智能体与环境交互步数的增加而增长,当交互累积时,常常会超过最大token长度。

为解决此问题,我们提出针对开放世界VLM智能体的GRPO(GROW),这是一种将GRPO适配到开放世界任务中的RL框架,其中轨迹通常过长,而智能体决策常基于短期状态。GROW首先对收集到的展开轨迹进行轨迹分解,然后在同一展开组内的状态-动作样本之间计算相对优势。然而,这种重新表述也引入了一个标准GRPO中不存在的理论问题。轨迹分解后,分组样本不再是针对相同提示的不同响应。对此,我们在简化假设下提供了一个替代分析,表明所提出的目标仍能提供有效的相对策略优化信号。

我们的主要贡献总结如下:

- 我们提出了GROW,一个针对开放世界VLM智能体的RL框架。该框架通过轨迹分解,将对状态-动作样本的冷启动训练与基于GRPO的策略优化相结合。
- 我们提供了一个替代分析,表明在合理的可处理性近似下,即使分组样本基于不同的局部状态而非相同的提示上下文,GROW中的相对策略优化仍然有效。
- 我们主要在Minecraft[12,9,2]中实例化并测试了GROW。在超过800个Minecraft任务上,涵盖具身空间导航、精确GUI操作到高度动态的战斗场景,我们的方法取得了SOTA性能,证明GROW在成功率和执行效率上都建立了新的SOTA。值得注意的是,我们的框架展现出对未见任务的强泛化能力,并培养了复杂的技能行为,例如主动目标重新获取和抗干扰GUI操作,证明了其在学习可复用交互策略而非仅仅记忆轨迹方面的有效性。

## 2 相关工作

### 2.1 开放世界中的智能体

开放世界任务为开发通用智能体提供了重要试验场,因为它们要求智能体感知视觉观察、推理动态环境,并在长时间交互序列中执行动作。Minecraft因其高度自由度和广泛的任务多样性(涵盖具身控制、资源操作和精确图形用户界面交互)而成为代表性示例。继利用大规模专家演示并探索RL进行微调的开创性工作VPT[3]之后,后续研究在多个方向推进了智能体学习。在VPT[3]基础上,STEVE-1[11]被训练用于Minecraft中的文本到行为生成,使用户能够通过文本指令控制智能体完成基于原始像素和低级控制的短时域、开放式任务。ROCKET-1[5]引入了视觉-时间上下文提示,将高级VLM推理与低级策略执行连接起来以进行空间基础交互。ROCKET-3[4]通过跨视角推理的RL进一步改进了在未见环境中的探索。近期,研究越来越多地聚焦于VLM智能体。例如,JARVIS-VLA[9]采用分阶段训练来改善Minecraft中的任务完成,而类似的基于模仿的VLM智能体也在其他游戏环境如《原神》[20]和Steam游戏[15]中显示出有效性。尽管取得了这些进展,针对VLM智能体的高效RL方法仍未得到充分探索,因为大多数现有方法仍严重依赖模仿学习。我们的工作通过提供一个可扩展的RL框架来训练开放世界VLM智能体,从而填补了这一空白。

### 2.2 用于多轮VLM智能体的GRPO

GRPO已在需要多轮交互的任务中作为RL方法得到广泛探索。AgentGym-RL[24]研究了大型语言模型智能体的多轮RL,并通过交互长度的课程学习改进了长时域决策。InquireMobile[1]和ColorAgent[10]将该范式扩展到智能体在执行动作前必须请求授权或需在执行过程中融入人类指令的场景。AGENTRL[26]进一步研究了针对基于GRPO的多轮训练的系统级调度和资源分配,以提高训练效率。然而,尽管这些工作大大拓宽了GRPO在多轮设置中的研究,它们主要保留了轨迹级或对话级的公式,其中每个优化样本可能包含越来越长的交互历史。当直接应用于开放世界任务时,这些全轨迹样本可能会引入大量无关噪声,并随着轨迹增长导致上下文过度累积。我们的工作通过将轨迹分解为状态-动作样本来解决此问题,并进一步提供了一个替代分析,表明尽管这偏离了标准GRPO的相同提示分组假设,但它仍然保留了一个有效且可靠的相对策略优化信号。

## 3 方法

### 3.1 符号说明

我们将执行开放世界任务的过程形式化为一个马尔可夫决策过程(MDP),记为M=⟨C,S,A,R,γ⟩。其中,C表示任务空间,包含一组异质任务C={c1, c2, c3, ...},每个任务对应一个具体目标,例如“击杀僵尸”或“开采金矿”。状态空间S表示状态集合,每个状态对应当前观察或近期观察的简短历史连同任务指令。动作空间A由原始键盘和鼠标操作组成,例如KEYDOWN和MOUSE_MOVE,确保适用于具身交互和图形用户界面(GUI)操作。该动作空间同时支持具身交互和GUI操作。我们在附录4中提供了关于动作空间的更多细节。轨迹τ定义为状态-动作对序列,即τ={(s1, a1), (s2, a2), ..., (sH, aH)},其中H是τ的长度。我们考虑一种稀疏且可验证的奖励设置,其中R(τ)=1仅当任务完成可被验证时,否则R(τ)=0。最后,γ∈(0,1)表示折扣因子。

### 3.2 GROW框架

图2提供了我们提出的RL框架GROW的概览。在展开阶段,通过分解展开轨迹收集状态-动作样本,然后在属于同一展开组的状态-动作样本之间计算相对优势。这种设计保留了开放世界任务中常用的状态-动作建模范式,同时避免了将整个展开轨迹作为单个全上下文样本进行优化的需要。

#### 3.2.1 展开轨迹的分解

在展开阶段,为每个任务指令实例化G个并行环境。在每个环境中,VLM智能体从环境接收状态并选择相应动作来执行任务。然后收集一组轨迹{τi}_{i=1}^G,在标准GRPO中,每条轨迹被视为单个训练样本。对于需要多次交互回合的开放世界任务,这种全轨迹样本可能会引入大量无关信息并导致上下文过度累积,最终降低策略梯度估计的质量。

为解决这个问题,我们将每条收集到的轨迹分解为一组细粒度的状态-动作样本。具体来说,每条轨迹τ={(s1, a1), (s2, a2), ..., (sH, aH)}以逐步方式分解,每个单独的转移作为一个独立的优化单元。为了向分解后的样本分配学习信号,我们使用折扣因子将稀疏的情节奖励沿每条轨迹向后传播:

ri,t = γ^{Hi - t} R(τi),   (1)

其中γ∈(0,1)是折扣因子。这种时间折扣确保更接近任务完成的状态-动作样本接收到更强的学习信号,反映它们与最终结果更高的因果相关性。因此,展开组被转换为一组状态-动作样本,即Gs = {(si,t, ai,t, ri,t) | i∈[1,G], t∈[1,Hi]}。通过这种方式,我们重新构造了标准GRPO,将优化单元从全轨迹样本改为细粒度的状态-动作样本。

#### 3.2.2 基于状态-动作样本的策略优化

与标准GRPO(在同一组内的轨迹之间计算相对优势)不同,GROW在每个展开组内的分解状态-动作样本之间计算相对优势。如图2中的优势计算模块所示,折扣奖励在同一展开组导出的状态-动作样本之间进行归一化以获得优势:

Ai,t = (ri,t - μ) / σ,   (2)

其中μ和σ是奖励集合{ri,t | i∈[1,G], t∈[1,Hi]}的均值和标准差。这引出了我们的训练目标,定义如下:

J = E_{c∼C, a∼π_old(·|s)} { 1/G ∑_{i=1}^G 1/H_i ∑_{t=1}^{H_i} min( ρ_{i,t}(θ) A_{i,t}, clip(ρ_{i,t}(θ), 1-ε, 1+ε) A_{i,t} ) }   (3)

其中ρ_{i,t}(θ) = π_θ(ai,t|si,t) / π_old(ai,t|si,t) 是概率比。

相似文章

GRLO:从零开始迈向开放环境下的通用强化学习

arXiv cs.LG

GRLO 提出了一种新颖的强化学习后训练方法,仅使用 5000 条提示和 22.7 GPU 小时,就在多个领域(数学、代码等)实现了强大的泛化能力,在效率和数据需求上显著优于领域内的 RLVR 基线。

多模块 GRPO:组合策略梯度与提示优化的语言模型程序方法

Papers with Code Trending

本文提出 mmGRPO,一种多模块扩展的群体相对策略优化(GRPO)方法,通过优化语言模型调用和提示来提升模块化 AI 系统的准确率。实验表明,该方法在各类任务上平均带来 11% 的准确率提升,并在 DSPy 中提供了开源实现。

基于梯度外推的策略优化

arXiv cs.LG

本文介绍了基于梯度外推的策略优化(GXPO),这是一种仅使用三次反向传播即可在大型语言模型(LLM)的强化学习训练中近似多步前瞻的方法。它在保持固定活跃阶段成本的同时,在数学基准测试上展示了优于标准 GRPO 的推理性能。

PROWL: 面向世界模型学习的优先遗憾驱动优化

arXiv cs.LG

介绍了一种优先遗憾驱动优化框架PROWL,该框架利用对抗性课程通过聚焦高误差轨迹来提升基于扩散的世界模型的鲁棒性,在MineRL中的分布外场景上取得了更好的性能。