StressDream:引导视频世界模型实现鲁棒的策略评估与改进
摘要
StressDream通过优化噪声初始化结合语义目标与合理性目标,将基于扩散的想象引导至具有高影响力且合理的结果,从而增强视频世界模型,实现鲁棒的策略评估与改进。
查看缓存全文
缓存时间: 2026/06/02 15:37
论文页 - StressDream:引导视频世界模型实现鲁棒的策略评估与改进
来源:https://huggingface.co/papers/2606.00267
摘要
StressDream通过优化噪声初始化,结合语义与合理性目标,引导基于扩散的视频世界模型产生高影响力但合理的结果,从而增强视频世界模型。
视频世界模型(https://huggingface.co/papers?q=Video%20world%20models)通过想象基于自我机器人动作的真实未来观测,在策略评估(https://huggingface.co/papers?q=policy%20evaluation)与改进方面展现出潜力。虽然世界模型可以对未来的分布进行建模,但策略评估(https://huggingface.co/papers?q=policy%20evaluation)与改进通常依赖于名义上的想象,除非抽取大量样本,否则可能会遗漏机器人动作的高影响力结果。为了在世界模型的想象上实现鲁棒的策略评估(https://huggingface.co/papers?q=policy%20evaluation)与改进,我们提出了StressDream,该方法通过优化扩散型世界模型的初始噪声,在推理时引导想象朝向高影响力但合理的结果。然而,优化高维噪声具有挑战性:优化过程必须推理生成视频中细微的、场景相关的目标事件,同时避免产生分布外(https://huggingface.co/papers?q=out-of-distribution)(OOD)噪声,以免产生不合理的想象。我们通过两个互补目标来解决这一问题:一个语义目标(https://huggingface.co/papers?q=semantic%20objective),利用视觉语言模型(https://huggingface.co/papers?q=Vision-Language%20Model)推理生成视频提供信息丰富的梯度;以及一个合理性目标(https://huggingface.co/papers?q=plausibility%20objective),防止优化后的噪声偏离分布外。我们使用了最先进的视频世界模型(https://huggingface.co/papers?q=video%20world%20models)进行自动驾驶和机器人操作,结果表明StressDream能够有效引导想象朝向推理时由文本指定的高影响力但合理的结果,例如任务失败,从而通过识别那些其合理未来包含不良结果的动作,实现鲁棒的策略评估(https://huggingface.co/papers?q=policy%20evaluation)与改进。视频结果请见 https://junwon.me/StressDream/。
查看arXiv页面(https://arxiv.org/abs/2606.00267)查看PDF(https://arxiv.org/pdf/2606.00267)项目页面(https://junwon.me/StressDream/)GitHub5(https://github.com/CMU-IntentLab/StressDream)添加到收藏(https://huggingface.co/login?next=%2Fpapers%2F2606.00267)
引用本文的模型0
无模型链接本论文
请在模型 README.md 中引用 arxiv.org/abs/2606.00267 以便从本页链接。
引用本文的数据集0
无数据集链接本论文
请在数据集 README.md 中引用 arxiv.org/abs/2606.00267 以便从本页链接。
引用本文的空间0
无空间链接本论文
请在空间 README.md 中引用 arxiv.org/abs/2606.00267 以便从本页链接。
包含本论文的收藏1
相似文章
Dream.exe:视频生成模型能否梦想可执行的机器人操控?
Dream.exe 提出了一种评估框架,利用机器人操控任务来评估视频生成模型对物理现实的理解,结果发现视觉质量并不能预测可执行运动的准确性。
WorldReasonBench:将视频生成器作为未来世界状态预测器进行人类对齐的压力测试
本文介绍了 WorldReasonBench 和 WorldRewardBench,这两个新基准旨在评估视频生成模型对世界状态演变和物理一致性的推理能力。研究突显了当前商业视频生成器在视觉合理性与真实逻辑推理之间存在的差距。
不破坏的引导:基于机制的离散扩散语言模型干预
本文介绍了一种新颖的自适应调度器,用于利用稀疏自编码器引导离散扩散语言模型,结果表明,基于特定属性提交时机进行针对性干预,比均匀方法能提升控制质量和强度。
通过扩散策略优化扩展世界模型强化学习
提出模型基扩散策略优化(MBDPO)框架,该框架通过扩散策略表示统一了世界模型中的搜索与策略优化,在离线与在线强化学习任务中实现一致的扩展行为和卓越性能。
NVIDIA OmniDreams:用于闭环自动驾驶仿真的实时生成式世界模型
NVIDIA推出OmniDreams,这是一个基于Cosmos扩散模型构建的生成式世界模型,用于实时动作条件视频生成,能够在复杂的未见场景中实现自动驾驶策略评估的闭环仿真。