StressDream:引导视频世界模型实现鲁棒的策略评估与改进

Hugging Face Daily Papers 论文

摘要

StressDream通过优化噪声初始化结合语义目标与合理性目标,将基于扩散的想象引导至具有高影响力且合理的结果,从而增强视频世界模型,实现鲁棒的策略评估与改进。

视频世界模型(WMs)通过想象以机器人自身动作为条件的未来真实观测,在策略评估与改进中展现出潜力。尽管WM能够建模未来的分布,但策略评估与改进通常依赖于名义上的想象,除非抽取数量极多的样本,否则可能会遗漏机器人动作的高影响力结果。为了实现对WM想象进行鲁棒的策略评估与改进,我们提出StressDream,该方法在推理时通过优化基于扩散的WM的初始噪声,将想象引导至高影响力且合理的结果。然而,优化高维噪声具有挑战性:优化过程必须对生成视频中细微的、场景相关的目标事件进行推理,同时避免导致不合理想象的分布外(OOD)噪声。我们通过两个互补目标来解决这一问题:一个语义目标,利用视觉-语言模型通过对生成视频进行推理来提供信息丰富的梯度;以及一个合理性目标,防止优化后的噪声偏离分布。借助用于自动驾驶和机器人操作的最先进视频世界模型,我们展示了StressDream能够有效地将想象引导至推理时文本指定的高影响力且合理的结果(例如任务失败),从而通过识别那些合理未来包含不良结果的动作,实现鲁棒的策略评估与改进。视频结果请见 https://junwon.me/StressDream/。
查看原文
查看缓存全文

缓存时间: 2026/06/02 15:37

论文页 - StressDream:引导视频世界模型实现鲁棒的策略评估与改进

来源:https://huggingface.co/papers/2606.00267

摘要

StressDream通过优化噪声初始化,结合语义与合理性目标,引导基于扩散的视频世界模型产生高影响力但合理的结果,从而增强视频世界模型。

视频世界模型(https://huggingface.co/papers?q=Video%20world%20models)通过想象基于自我机器人动作的真实未来观测,在策略评估(https://huggingface.co/papers?q=policy%20evaluation)与改进方面展现出潜力。虽然世界模型可以对未来的分布进行建模,但策略评估(https://huggingface.co/papers?q=policy%20evaluation)与改进通常依赖于名义上的想象,除非抽取大量样本,否则可能会遗漏机器人动作的高影响力结果。为了在世界模型的想象上实现鲁棒的策略评估(https://huggingface.co/papers?q=policy%20evaluation)与改进,我们提出了StressDream,该方法通过优化扩散型世界模型的初始噪声,在推理时引导想象朝向高影响力但合理的结果。然而,优化高维噪声具有挑战性:优化过程必须推理生成视频中细微的、场景相关的目标事件,同时避免产生分布外(https://huggingface.co/papers?q=out-of-distribution)(OOD)噪声,以免产生不合理的想象。我们通过两个互补目标来解决这一问题:一个语义目标(https://huggingface.co/papers?q=semantic%20objective),利用视觉语言模型(https://huggingface.co/papers?q=Vision-Language%20Model)推理生成视频提供信息丰富的梯度;以及一个合理性目标(https://huggingface.co/papers?q=plausibility%20objective),防止优化后的噪声偏离分布外。我们使用了最先进的视频世界模型(https://huggingface.co/papers?q=video%20world%20models)进行自动驾驶和机器人操作,结果表明StressDream能够有效引导想象朝向推理时由文本指定的高影响力但合理的结果,例如任务失败,从而通过识别那些其合理未来包含不良结果的动作,实现鲁棒的策略评估(https://huggingface.co/papers?q=policy%20evaluation)与改进。视频结果请见 https://junwon.me/StressDream/。

查看arXiv页面(https://arxiv.org/abs/2606.00267)查看PDF(https://arxiv.org/pdf/2606.00267)项目页面(https://junwon.me/StressDream/)GitHub5(https://github.com/CMU-IntentLab/StressDream)添加到收藏(https://huggingface.co/login?next=%2Fpapers%2F2606.00267)

引用本文的模型0

无模型链接本论文

请在模型 README.md 中引用 arxiv.org/abs/2606.00267 以便从本页链接。

引用本文的数据集0

无数据集链接本论文

请在数据集 README.md 中引用 arxiv.org/abs/2606.00267 以便从本页链接。

引用本文的空间0

无空间链接本论文

请在空间 README.md 中引用 arxiv.org/abs/2606.00267 以便从本页链接。

包含本论文的收藏1

相似文章

通过扩散策略优化扩展世界模型强化学习

arXiv cs.LG

提出模型基扩散策略优化(MBDPO)框架,该框架通过扩散策略表示统一了世界模型中的搜索与策略优化,在离线与在线强化学习任务中实现一致的扩展行为和卓越性能。