StressDream：引导视频世界模型实现鲁棒的策略评估与改进

Hugging Face Daily Papers 2026/05/29 00:00 论文

video-world-models diffusion policy-evaluation robotics autonomous-driving noise-optimization

摘要

StressDream通过优化噪声初始化结合语义目标与合理性目标，将基于扩散的想象引导至具有高影响力且合理的结果，从而增强视频世界模型，实现鲁棒的策略评估与改进。

视频世界模型（WMs）通过想象以机器人自身动作为条件的未来真实观测，在策略评估与改进中展现出潜力。尽管WM能够建模未来的分布，但策略评估与改进通常依赖于名义上的想象，除非抽取数量极多的样本，否则可能会遗漏机器人动作的高影响力结果。为了实现对WM想象进行鲁棒的策略评估与改进，我们提出StressDream，该方法在推理时通过优化基于扩散的WM的初始噪声，将想象引导至高影响力且合理的结果。然而，优化高维噪声具有挑战性：优化过程必须对生成视频中细微的、场景相关的目标事件进行推理，同时避免导致不合理想象的分布外（OOD）噪声。我们通过两个互补目标来解决这一问题：一个语义目标，利用视觉-语言模型通过对生成视频进行推理来提供信息丰富的梯度；以及一个合理性目标，防止优化后的噪声偏离分布。借助用于自动驾驶和机器人操作的最先进视频世界模型，我们展示了StressDream能够有效地将想象引导至推理时文本指定的高影响力且合理的结果（例如任务失败），从而通过识别那些合理未来包含不良结果的动作，实现鲁棒的策略评估与改进。视频结果请见 https://junwon.me/StressDream/。

查看原文

查看缓存全文

缓存时间: 2026/06/02 15:37

论文页 - StressDream：引导视频世界模型实现鲁棒的策略评估与改进

来源：https://huggingface.co/papers/2606.00267

摘要

StressDream通过优化噪声初始化，结合语义与合理性目标，引导基于扩散的视频世界模型产生高影响力但合理的结果，从而增强视频世界模型。

视频世界模型（https://huggingface.co/papers?q=Video%20world%20models）通过想象基于自我机器人动作的真实未来观测，在策略评估（https://huggingface.co/papers?q=policy%20evaluation）与改进方面展现出潜力。虽然世界模型可以对未来的分布进行建模，但策略评估（https://huggingface.co/papers?q=policy%20evaluation）与改进通常依赖于名义上的想象，除非抽取大量样本，否则可能会遗漏机器人动作的高影响力结果。为了在世界模型的想象上实现鲁棒的策略评估（https://huggingface.co/papers?q=policy%20evaluation）与改进，我们提出了StressDream，该方法通过优化扩散型世界模型的初始噪声，在推理时引导想象朝向高影响力但合理的结果。然而，优化高维噪声具有挑战性：优化过程必须推理生成视频中细微的、场景相关的目标事件，同时避免产生分布外（https://huggingface.co/papers?q=out-of-distribution）（OOD）噪声，以免产生不合理的想象。我们通过两个互补目标来解决这一问题：一个语义目标（https://huggingface.co/papers?q=semantic%20objective），利用视觉语言模型（https://huggingface.co/papers?q=Vision-Language%20Model）推理生成视频提供信息丰富的梯度；以及一个合理性目标（https://huggingface.co/papers?q=plausibility%20objective），防止优化后的噪声偏离分布外。我们使用了最先进的视频世界模型（https://huggingface.co/papers?q=video%20world%20models）进行自动驾驶和机器人操作，结果表明StressDream能够有效引导想象朝向推理时由文本指定的高影响力但合理的结果，例如任务失败，从而通过识别那些其合理未来包含不良结果的动作，实现鲁棒的策略评估（https://huggingface.co/papers?q=policy%20evaluation）与改进。视频结果请见 https://junwon.me/StressDream/。

查看arXiv页面（https://arxiv.org/abs/2606.00267）查看PDF（https://arxiv.org/pdf/2606.00267）项目页面（https://junwon.me/StressDream/）GitHub5（https://github.com/CMU-IntentLab/StressDream）添加到收藏（https://huggingface.co/login?next=%2Fpapers%2F2606.00267）

引用本文的模型0

无模型链接本论文

请在模型 README.md 中引用 arxiv.org/abs/2606.00267 以便从本页链接。

引用本文的数据集0

无数据集链接本论文

请在数据集 README.md 中引用 arxiv.org/abs/2606.00267 以便从本页链接。

引用本文的空间0

无空间链接本论文

请在空间 README.md 中引用 arxiv.org/abs/2606.00267 以便从本页链接。

StressDream：引导视频世界模型实现鲁棒的策略评估与改进

论文页 - StressDream：引导视频世界模型实现鲁棒的策略评估与改进

摘要

引用本文的模型0

引用本文的数据集0

引用本文的空间0

包含本论文的收藏1

相似文章

Dream.exe：视频生成模型能否梦想可执行的机器人操控？

WorldReasonBench：将视频生成器作为未来世界状态预测器进行人类对齐的压力测试

不破坏的引导：基于机制的离散扩散语言模型干预

通过扩散策略优化扩展世界模型强化学习

NVIDIA OmniDreams：用于闭环自动驾驶仿真的实时生成式世界模型

提交意见反馈