奖励作为具身世界模型的智能体

arXiv cs.AI 2026/06/20 04:00 论文

reinforcement-learning world-models embodied-ai reward-hacking exploration robotics grpo

摘要

本文介绍了奖励作为智能体（Reward as an Agent）和DynDiff-GRPO，以解决具身世界模型中强化学习的奖励黑客攻击和有限探索问题，实现了显著的准确率提升。

arXiv:2606.19990v1 公告类型：新摘要：虽然强化学习已成为改进世界模型的一种有前景的工具，但现有方法主要依赖训练分布附近的保守推演，限制了探索、行为多样性和更丰富的动态发现。在这项工作中，我们挑战了这一保守范式。我们认为核心限制并非探索本身，而是缺乏可靠的验证策略来支持更广泛的探索。没有可靠的验证，扩展探索极易受到奖励黑客攻击——策略利用不完美的奖励而未能实现真正的改进。为了评估这一动机，我们在具身世界模型中实例化我们的方法，其中物理合理性和任务完成性为复杂动态下的可扩展强化学习提供了严格的测试平台。在验证方面，我们引入了奖励作为智能体（Reward as an Agent），一种主动评估生成行为以提供稳健奖励信号并减轻分布偏移下奖励黑客攻击的智能体奖励框架。在探索方面，我们引入了通过DynDiff-GRPO实现的动态感知推演多样化，该机制明确扩展动作空间探索以多样化轨迹、拓宽状态-动作覆盖，并鼓励超越保守推演体制的更丰富的具身行为。通过将奖励作为智能体与DynDiff-GRPO统一，我们在更可靠的奖励基础上实现强化学习，并大幅多样化采样，有效减轻奖励黑客攻击，同时在多个开源世界模型中取得显著的准确率提升，从而证明当基于稳健验证时，更广泛的探索可以成功扩展。

查看原文

查看缓存全文

缓存时间: 2026/06/20 14:35

# 奖励作为具身世界模型的智能体 来源：https://arxiv.org/html/2606.19990  

\]
ACE Robotics\\contribution\[\*\]Equal contribution\\contribution\[†\]Corresponding author \(2026年6月18日\)

###### 摘要

尽管强化学习已成为优化世界模型的有前景工具，但现有方法主要依赖于训练分布附近的保守 rollout，限制了探索、行为多样性和更丰富的动态发现。在这项工作中，我们挑战了这种保守范式。我们认为，核心限制并非探索本身，而是缺乏支持更广泛探索的可靠验证策略。没有可靠的验证，扩大的探索极易受到奖励黑客攻击，即策略利用不完善的奖励而未能实现真正的改进。为了评估这一动机，我们在具身世界模型中实例化我们的方法，其中物理合理性和任务完成度为复杂动态下的可扩展强化学习提供了严格的测试平台。在验证方面，我们引入了**奖励作为智能体**，一种主动评估生成行为的智能体奖励框架，以提供稳健的奖励信号，并缓解分布偏移下的奖励黑客攻击。在探索方面，我们引入了**动态感知 rollout 多样化**，通过 **DynDiff-GRPO**，显式扩展动作空间探索以多样化轨迹，扩大状态-动作覆盖范围，并鼓励超越保守 rollout 范式的更丰富具身行为。通过将奖励作为智能体与 DynDiff-GRPO 统一，我们能够在更可靠的奖励基础上实现强化学习，同时大幅多样化采样，有效缓解奖励黑客攻击，并在多个开源世界模型上取得显著的精度提升，从而证明当以稳健验证为基础时，更广泛的探索可以成功扩展。

###### 目录

1. [1 引言](#S1)
2. [2 相关工作](#S2)
3. [3 奖励作为智能体](#S3)
   1. [3.1 具身世界模型强化学习中的奖励黑客攻击](#S3.SS1)
   2. [3.2 奖励设计](#S3.SS2)
4. [4 动态感知 rollout 多样化](#S4)
   1. [4.1 保守强化学习 rollout 中的动态空间欠探索](#S4.SS1)
   2. [4.2 DynDiff-GRPO：动态感知随机 rollout](#S4.SS2)
5. [5 实验结果](#S5)
   1. [5.1 主要实验](#S5.SS1)
   2. [5.2 奖励分析](#S5.SS2)
   3. [5.3 rollout 策略分析](#S5.SS3)
   4. [5.4 关键训练配置分析](#S5.SS4)
6. [6 结论与局限](#S6)
7. [参考文献](#bib)
8. [附录 A：当前主流奖励系统中奖励黑客攻击的详细实验案例](#A1)
9. [附录 B：具身任务测试案例的奖励模型判断结果](#A2)
10. [附录 C：奖励服务部署](#A3)
11. [附录 D：DynDiff-GRPO 实现](#A4)
12. [附录 E：训练配置](#A5)

## 1 引言

世界模型最近已成为一种强大的框架，通过学习观测在序列动作下的演化来进行学习、规划和生成。作为基于神经网络的模拟器，它们为传统手工引擎提供了一种可扩展的替代方案，能够直接从大规模数据中跨不同领域进行策略优化和高效交互学习，而无需显式物理建模。这一范式的自然演进是通过强化学习进一步增强世界模型，类似于大规模基础模型中所见的变革性成功。具体来说，基于组的策略优化方法，如 GRPO，已在大型语言模型和视觉-语言模型中取得了显著进展（Guo et al., 2025; Bai et al., 2025）。这一成功源于相对可靠的奖励信号（例如代码执行或基于规则的逻辑）的可用性，这使得强化学习能够有效区分优质输出，并成为训练后流程中不可或缺的支柱。

尽管取得了这些进展，基于强化学习的优化对世界模型的影响仍然有限。虽然最近的工作（Liu et al., 2025; Xue et al., 2025; Li et al., 2026; Wang et al., 2026; Zheng et al., 2026; Unified-Reward-Flex）已经开始将 GRPO 风格的优化扩展到这一领域，但强化学习尚未像对语言模型那样成为世界模型能力的通用驱动力。我们认为根本瓶颈在于验证差距。与语言或代码不同（其中正确性可以显式验证），世界模型的奖励通常是基于代理且高度主观的。这种客观验证的缺乏迫使现有方法采用保守的 rollout 策略，使其保持接近训练分布。因此，世界模型无法像大型语言模型那样大胆探索；随着 rollout 分布扩大，主观奖励变得越来越容易受到奖励黑客攻击，即策略利用奖励函数而不真正改善物理真实性、时间连贯性或任务成功性。

为了应对这些挑战，我们认为世界模型的强化学习需要即使在显著分布偏移下也能保持稳健的验证策略。这一要求在具身人工智能中尤为严格，模型必须确保不仅视觉保真度，还有物理合理性和任务完成度。我们的核心见解是：探索和验证必须协同扩展：探索拓宽行为多样性，而稳健验证确保这种多样性仍然与高生成质量保持一致。基于这一原则，我们提出了一种受控的 rollout 策略，既能扩展轨迹多样性，又能严格保持物理有效性，为现代基础模型特征的大规模优化成功提供了一条途径。

在这项工作中，我们做出了以下关键贡献：

- **奖励作为智能体框架**：我们设计了一个稳健的奖励系统，将评估视为基于智能体的任务。通过显式评分物理合理性、连贯的对象交互和任务完成度，该框架在多样化的 rollout 下提供可靠反馈，有效缓解了更广泛探索过程中的奖励黑客攻击。
- **动态感知 rollout**：我们引入了一种 rollout 策略，系统地扩展轨迹多样性，同时将其锚定在物理约束中。它使模型能够探索更丰富的行为，而不牺牲生成世界状态的结构完整性。
- **世界模型可扩展强化学习的证据**：通过将奖励作为智能体框架与动态感知 rollout 统一，我们的方法证明世界模型中的强化学习可以超越保守机制。我们在多个开源具身世界模型上取得了显著的性能提升，证明当以可靠验证为基础时，扩展的探索是世界模型进步的核心驱动力。

## 2 相关工作

**具身视频世界模型。** 最近的进展已将视频生成从被动的视觉合成转向主动的具身世界建模，其中生成和预测模型充当物理环境的交互式模拟器。早期系统如 DeepMind 的 Genie (Bruce et al., 2024) 展示了从大规模无标签视频中学习可控虚拟世界的潜力。这一范式随后被 GAIA-1 (Hu et al., 2023) 和 UniSim (Yang et al., 2023) 扩展到复杂的现实世界领域，重点关注自动驾驶和机器人操作。更近期的进展，包括 NVIDIA Cosmos (NVIDIA, 2026)、V-JEPA 系列 (Bardes et al., 2024; Assran et al., 2025) 以及流匹配框架 (Esser et al., 2024)，显著改善了语义连贯性和物理合理性。通过将动作条件预测与可扩展的生成稳定性统一，这些模型正在演变为基础世界模型，弥合高保真模拟与下游策略学习之间的差距。

**世界模型训练后阶段的强化学习。** 生成式世界模型的最新训练后方法越来越多地采用 GRPO (Shao et al., 2024) 作为 Actor-Critic 强化学习的可扩展替代方案，从而无需辅助价值网络即可进行策略优化。值得注意的是，Flow-GRPO (Liu et al., 2025) 率先将在线强化学习引入流匹配，通过将确定性 ODE rollout 转换为随机 SDE 轨迹，在探索和可控性之间建立了关键平衡。为了解决 SDE 随机性引起的噪声伪影，Flow-CPS (Wang et al., 2025) 重新构建了采样过程以保持系数守恒特性，从而实现了更精确的奖励建模和稳定收敛。后续变体主要通过施加严格的分布和采样约束来进一步优化这种稳定性。例如，DanceGRPO (Xue et al., 2025) 和 UniGRPO (Liu et al., 2026) 利用参考锚定和 KL 散度惩罚来防止策略漂移到不稳定的生成区域。与此同时，Mix-GRPO (Li et al., 2026) 和 Pref-GRPO (Wang et al., 2026) 通过混合 ODE-SDE 采样和成对偏好奖励来减轻方差，有效抑制了奖励黑客行为。此外，像 SAGE-GRPO (Zheng et al., 2026) 这样的框架引入了信任区域约束以稳定策略更新，而基于 Cosmos-Predict (NVIDIA, 2026) 的系统通常利用时间一致性先验来确保物理合理性。总体而言，这些方法揭示了一个一致的趋势：现代世界模型强化学习主要通过抑制 rollout 多样性来推进——通过组相对更新中的均值减法或低温度采样——以保持奖励可靠性。虽然这种保守策略稳定了优化，但它可能导致 rollout 坍缩到狭窄的、奖励偏好的轨迹，最终使得在复杂的具身设置中动作空间探索发展不足。

## 3 奖励作为智能体

### 3.1 具身世界模型强化学习中的奖励黑客攻击

我们将具身世界模型强化学习形式化为一个基于扩散的马尔可夫决策过程，其中扩散状态定义环境状态，动作条件定义控制，世界模型指定转移，奖励指导优化：

MDP = (S, A, P, R), J(π) = Eπ[∑_{t=0}^{T} R(s_t, a_t)]   (1)

在该框架下，策略改进从根本上受到奖励质量的影响，因为优化遵循提供的奖励信号而非真实目标本身。

**奖励黑客攻击定义。** 当奖励函数不完美时，这会造成一个关键漏洞。奖励黑客攻击发生在策略利用代理奖励的缺陷而非真正完成预期任务时：

J(π_hack) > J(π_intended), 而 TaskEval(π_hack) ≪ TaskEval(π_intended)   (2)

换句话说，优化在数学上成功，但在行为上失败。在基于扩散的具身系统中，这通常表现为利用视觉捷径、浅层语义对齐或模型伪影，而绕过真实的物理交互。

**奖励黑客攻击的经验观察。** 这个问题在具身世界模型中尤为严重，因为具身任务不仅需要视觉真实性，还需要语义正确性、物理合理性和真正的任务完成度。然而，大多数现有奖励系统继承自通用视频生成，缺乏具身特定的评估能力。为了系统地检查这种不匹配，我们使用 DanceGRPO (Xue et al., 2025) 结合两种代表性的通用奖励指标 VideoAlign (Liu et al., 2025) 和 UnifiedReward-Flex (Unified-Reward-Flex) 在具身场景中优化具身世界模型。尽管进行了持续优化，我们观察到奖励值大多在一个狭窄范围内波动，而下游生成质量没有显著提高。为了理解这种差异，我们对模型 rollout 及其对应的奖励信号进行了详细分析，发现优化过程主要被广泛的奖励黑客攻击所主导，而非真正的能力提升。（详细的评分提示和评估标准见附录A。）

我们的分析揭示了四种反复出现的奖励黑客攻击模式（图1）：(1) 视觉遮挡：模糊、阴影或遮挡掩盖了物理缺陷；(2) 运动退化：模型通过静态或琐碎运动最小化风险；(3) 背景简化：减少环境复杂性以避免生成失败；(4) 物理无效：输出表面上满足提示但违反物理定律。

![图1](https://arxiv.org/html/2606.19990#S3.F1)
*图1：现有奖励指标下典型的奖励黑客攻击失败案例，生成的视频尽管违反了真实任务目标，但仍获得了看似的高分。(a) 视觉遮挡：VideoAlign VQ 得分 0.79/1.0；(b) 运动退化：UnifiedReward 对齐得分 2.76/5.0；(c) 背景简化：VideoAlign VQ 得分 0.80/1.0；(d) 物理无效：UnifiedReward 物理得分 3.0/5.0。这些案例突出了当前奖励设计中的系统性盲点。*

这些观察表明，当前奖励范式的失败并非因为强化学习优化本身无效，而是因为指导优化的奖励函数在结构上不完整。现有系统存在四个主要局限性：(1) 建立在传统计算机视觉检测模型上的感知指标本质上是浅层的，通常局限于对象识别、轨迹匹配或像素级相似性，因此无法推理具身物理逻辑；(2) 基于特定领域微调的 VLM 评估器在狭窄任务上可能表现良好，但在迁移到其专业设置之外时通常展现出较差的领域泛化能力；(3) 不完整的评估维度，忽视了物理合规性或真实任务完成度等关键因素；(4) 静态的奖励聚合策略无法在 rollout 阶段动态调整优先级。结果，策略被激励通过可利用的捷径最大化代理分数，而非真正的具身能力。这些失败表明，奖励黑客攻击从根本上是一个奖励设计问题，而不仅仅是优化问题。

奖励作为具身世界模型的智能体

相似文章

语言模型代理中的奖励破解：重访AI Safety Gridworlds

大模型时代的奖励黑客：机制、涌现错位与挑战

基于标准的强化学习中奖励黑客行为的复现、分析与检测

基于评分标准的强化学习中的奖励黑客问题

@dair_ai：距离能自我生成世界知识的智能体还有多远？该研究提出一种基于结果的奖励，用于量化……

提交意见反馈