PROWL: 面向世界模型学习的优先遗憾驱动优化

arXiv cs.LG 论文

摘要

介绍了一种优先遗憾驱动优化框架PROWL,该框架利用对抗性课程通过聚焦高误差轨迹来提升基于扩散的世界模型的鲁棒性,在MineRL中的分布外场景上取得了更好的性能。

arXiv:2605.18803v1 Announce Type: new 摘要:现代基于动作条件的视频世界模型在短时域视觉逼真度上表现强劲,但在罕见且交互关键的转换上仍不可靠,而这些转换对下游规划与策略性能至关重要。由于被动演示数据系统性低估了这些高影响区域,提升鲁棒性需要主动诱发模型失败而非依赖其自然发生。我们提出了一种KL约束的对抗性课程,其中训练一个策略来暴露基于扩散的世界模型的高误差轨迹,同时保持接近行为分布。世界模型持续在这些对抗性发现的轨迹上进行微调,形成一个对抗性训练循环,将罕见失败转化为稳定、近分布的训练信号,而不会漂移到分布外利用。为了在模型改进时保持对未解决弱点的压力,我们提出了一个优先对抗性轨迹(PAT)缓冲区,该缓冲区基于预测误差、动作保真度和学习进度对轨迹重新排序,使训练聚焦于未解决的失败模式,而不是重复处理已解决的问题。我们在MineRL框架中实现了我们的方法,并在保留的分布外轨迹上进行了评估;PROWL在仅使用被动数据训练的模型基础上提升了鲁棒性,揭示了在弱行为约束下的奖励欺骗行为,并证明了有效的对抗性世界模型训练关键依赖于平衡探索性失败发现与显式行为正则化。我们的结果表明,可扩展的世界模型不仅受益于更大的数据集,还受益于选择性生成信息丰富的训练数据。
查看原文
查看缓存全文

缓存时间: 2026/05/20 08:36

# PROWL:基于优先遗憾驱动的世界模型学习优化
来源:https://arxiv.org/abs/2605.18803
查看 PDF (https://arxiv.org/pdf/2605.18803)HTML \(实验性\) (https://arxiv.org/html/2605.18803v1)

> 摘要:现代基于动作条件的视频世界模型在短时域视觉真实性上表现强劲,但在罕见且对交互至关重要的转换上仍不可靠,而这些转换主导了下游规划和策略性能。由于被动演示数据系统性弱采样了这些高影响力区域,提升鲁棒性需要主动引发模型失败,而非依赖其自然发生。我们引入了一种KL约束的对抗课程,其中训练一个策略来暴露基于扩散的世界模型的高误差轨迹,同时保持接近行为分布。世界模型在这些对抗性发现的轨迹上持续微调,形成一个对抗训练循环,将罕见失败转化为稳定、近乎分布的训练信号,而不会漂移到分布外的利用中。为了在模型改进时持续施压于未解决的弱点,我们提出了一个优先对抗轨迹缓冲区(PAT),该缓冲区基于预测误差、动作保真度和学习进度对轨迹重新排序,将训练聚焦于未解决的失败模式,而非重复回顾已解决的问题。我们在MineRL框架中实现了该方法,并在保留的分布外轨迹上进行了评估;PROWL提升了模型相比仅使用被动数据训练的鲁棒性,揭示了弱行为约束下的奖励黑客行为,并证明有效的对抗世界模型训练关键在于平衡探索性失败发现与显式行为正则化。我们的结果表明,可扩展的世界模型不仅受益于更大的数据集,还受益于选择性生成有信息量的训练数据。

## 提交历史

来自:Ahmet Hamdi Güzel 先生 \[查看邮件 (https://arxiv.org/show-email/4a677da0/2605.18803)\] **\[v1\]**2026年5月11日星期一 14:24:19 UTC (6,352 KB)

相似文章

通过扩散策略优化扩展世界模型强化学习

arXiv cs.LG

提出模型基扩散策略优化(MBDPO)框架,该框架通过扩散策略表示统一了世界模型中的搜索与策略优化,在离线与在线强化学习任务中实现一致的扩展行为和卓越性能。

PatchWorld: 可执行世界模型的免梯度优化

arXiv cs.CL

PatchWorld 引入了一种免梯度框架,通过反例引导的代码修复,将离线轨迹转换为可执行的 Python 世界模型,从而为部分可观测环境中的规划提供可解释和可检查的信念状态程序。

机器人学习中的世界模型:全面综述

Hugging Face Daily Papers

本综述全面回顾了机器人学习中世界模型的文献,涵盖其在策略学习、规划和模拟中的作用。文章突出了预测建模在具身智能体中的关键范式、基准测试及未来发展方向。